Deepseeks OCR-Modell könnte das KI-Gedächtnis deutlich ausbauen

4 months ago 7

Das chinesische KI-Unternehmen Deepseek hat ein System entwickelt, das Textdokumente in Bildform als hochkomprimierten Input verarbeitet. Die Methode soll das Problem zu langer Kontexte in Sprachmodellen lösen.

Das Grundprinzip basiert auf der Annahme, dass ein Bild mit Text weniger Rechenkapazität benötigt als die digitale Verarbeitung des gleichen Textes. Laut dem technischen Paper der Forschenden kann Deepseek-OCR Texte um das bis zu Zehnfache komprimieren und dabei 97 Prozent der ursprünglichen Informationen korrekt wiedergeben.

DeepSeek-OCR extrahiert strukturierte Chart-Daten aus Finanzberichten und rendert sie in Markdown.

DeepEncoder kombiniert bewährte KI-Bildmodelle

Das System besteht aus zwei Hauptkomponenten: einem Bildverarbeitungsteil namens DeepEncoder und einem Textgenerator auf Basis von Deepseek3B-MoE mit 570 Millionen aktivierten Parametern. Der DeepEncoder mit 380 Millionen Parametern analysiert das eingegebene Bild und wandelt es in eine komprimierte Darstellung um.

Blockdiagramm von DeepSeek-OCR mit SAM-ViTDet, 16×-Faltungskompressor, CLIP ViT-300M und DeepSeek-3B-MoE-Decoder.

Die Innovation liegt in der Architektur des DeepEncoders. Er kombiniert ein 80-Millionen-Parameter SAM-Modell mit einem 300-Millionen-Parameter CLIP-Modell. SAM (Segment Anything Model) ist Metas KI-System zur präzisen Bildsegmentierung, das einzelne Objekte in Bildern erkennen kann. CLIP stammt von OpenAI und kann Bilder und Text miteinander verknüpfen.

THE DECODER Newsletter

Die wichtigen KI-News direkt ins E-Mail-Postfach.

✓ 1x wöchentlich

✓ kostenlos

✓ jederzeit kündbar

Zwischen beiden Modellen sitzt ein 16-fach-Kompressor, der die Anzahl der Bildtoken drastisch reduziert. Bei einem 1.024 x 1.024 Pixel-Bild entstehen zunächst 4.096 Bildtoken. Das SAM-Modell verarbeitet diese mit geringem Speicherverbrauch, bevor der Kompressor sie auf 256 Token reduziert. Erst diese komprimierten Token gelangen zum rechenintensiven CLIP-Teil.

Deepseek-OCR kann mit verschiedenen Bildauflösungen arbeiten. Bei niedrigen Auflösungen benötigt es 64 sogenannte "Vision-Token" um ein Bild zu verarbeiten. Bei höheren Auflösungen sind es bis zu 400 Token. Herkömmliche Systeme benötigen oft mehrere Tausend Token für die gleiche Aufgabe.

DeepSeek-OCR wandelt chinesische Geometrieaufgaben in Markdown, extrahiert Figuren als Vektorgraphen und rendert sie neu.

System übertrifft Konkurrenz mit einem Zehntel der Token

In Tests auf dem Benchmark OmniDocBench erreichte Deepseek-OCR mit 100 Vision-Token bessere Ergebnisse als GOT-OCR 2.0, das 256 Token verwendet. Mit weniger als 800 Token übertraf es MinerU 2.0, das mehr als 6000 Token pro Seite benötigt.

Edit-Distanzen von OCR-Modellen (englisch/chinesisch) auf OmniDocBench: DeepSeek-OCR Gundam-M†200dpi erzielt beste Werte.

Die Effizienz variiert je nach Dokumenttyp. Einfache Präsentationen können mit 64 Token verarbeitet werden, während Bücher und Berichte etwa 100 Token benötigen. Komplexe Zeitungen erfordern den aufwendigeren "Gundam-Modus" mit bis zu 800 Token.

Vier DeepSeek-OCR-Modi – Resize 64/100, Padding 256/400×R, Mehrseitig n·100/256+256/400, Sliding n·100/256+256/400×R

Das System kann verschiedene Arten von Dokumenten verarbeiten. Dazu gehören einfache Textseiten, Diagramme, chemische Formeln und geometrische Figuren. Es unterstützt etwa 100 Sprachen und kann sowohl die ursprüngliche Formatierung beibehalten als auch reinen Text ausgeben. Zusätzlich verfügt es nach wie vor über seine generellen Fähigkeiten zur Bildbeschreibung.

Empfehlung

Für das Training verwendeten die Forschenden 30 Millionen PDF-Seiten in etwa 100 Sprachen, wobei 25 Millionen auf Chinesisch und Englisch entfielen. Zusätzlich flossen zehn Millionen künstlich generierte Diagramme, fünf Millionen chemische Formeln und eine Million geometrische Figuren in das Training ein.

33 Millionen Seiten täglich für KI-Training

In der praktischen Anwendung kann Deepseek-OCR laut den Wissenschaftler:innen über 200.000 Seiten pro Tag auf einer einzelnen Nvidia-A100-GPU verarbeiten. Mit 20 Servern, die jeweils acht solcher Grafikkarten enthalten, steigt die Kapazität auf 33 Millionen Seiten täglich.

Informationsverlust über Zeit, Distanz und Auflösung

Diese Kapazität macht das System für die Erstellung von Trainingsdaten für andere KI-Modelle interessant. Moderne Sprachmodelle benötigen große Mengen an Textdaten für ihr Training, und Deepseek-OCR könnte diese Daten aus Dokumenten extrahieren. Der Code und Modellgewichte sind öffentlich verfügbar.

Read Entire Article