ByteDance zeigt, was multimodale KI beim Lesen langer Dokumente wirklich lernen muss

2 weeks ago 9

Multimodale KI-Modelle sollen mit immer längeren Dokumenten zurechtkommen, doch wie man sie dafür trainiert, bleibt meist Geschäftsgeheimnis. Eine neue Studie zeigt nun, dass Zeichenerkennung als Trainingsaufgabe sogar schadet und Frage-Antwort-Paare weit wirksamer sind.

Forscher von ByteDance Seed und der Hongkonger Universität für Wissenschaft und Technologie (HKUST) haben untersucht, wie sich Bild-Sprach-Modelle effizient auf lange Dokumente trainieren lassen. Ihr Ergebnis ist ein Modell namens MMProLong, das auf der offenen Alibaba-Vorlage Qwen2.5-VL aufbaut und auch deutlich größere Konkurrenten schlägt.

Moderne multimodale KI-Modelle sollen mit immer längeren Eingaben zurechtkommen, etwa mit ganzen PDF-Sammlungen aus gerenderten Seiten, stundenlangen Videos oder Agenten, die sich über viele Schritte hinweg an ihre Aufgaben erinnern. Anbieter wie OpenAI, Google oder Alibaba werben mit Kontextfenstern von 128.000 Token und mehr, in die nicht nur Text, sondern auch tausende Seitenbilder oder Videoframes hineinpassen. Wie diese Fähigkeit konkret antrainiert wird, verraten die technischen Berichte laut den Autoren allerdings kaum. Welche Daten ein Modell sehen sollte und in welcher Mischung, blieb bisher weitgehend offen.

Fragen beantworten ist lehrreicher als abtippen

Die zentrale Erkenntnis der Studie wirkt auf den ersten Blick banal. Damit ein multimodales Modell lernt, in einem 100-seitigen Dokument die richtige Stelle zu finden, hilft es kaum, das Modell den Text aller Seiten transkribieren zu lassen. Wirksamer ist es, ihm Fragen zu stellen, deren Antwort irgendwo in diesen Seiten versteckt liegt.

 Schritt 1 sampelt aus einem per OCR geparsten Dokument ein zusammenhängendes Segment von 8 bis 15 Seiten, Schritt 2 erzeugt aus dem Segment ein Frage-Antwort-Paar mit einem QA-Generator, Schritt 3 fügt das Paar zurück in den vollen Dokumentenkontext.Die Synthese-Pipeline kombiniert OCR-Parsing, automatische Fragenerzeugung und Wiedereinbettung, um Trainingsbeispiele mit langem Kontext aus realen Dokumenten zu gewinnen. | Bild: Bytedance

Die Forscher haben beide Wege gegeneinander getestet. In einem Fall musste das Modell Texterkennung leisten: entweder über alle Seiten eines Dokuments hinweg oder für wenige ausgewählte Seiten, während die übrigen Seiten als Ablenkung im Kontext blieben.

Im anderen Fall generierten die Forscher mithilfe eines weiteren Modells (Seed 2.0 von ByteDance) Frage-Antwort-Paare zu einzelnen Abschnitten eines Dokuments. Die Frage landete dann gemeinsam mit dem kompletten Dokument im Training, sodass das Modell die relevante Stelle in einem langen Kontext finden musste.

Tabelle mit Vergleichswerten verschiedener Trainingsdaten auf den Benchmarks MMLongBench bei 64K und 128K Kontextlänge. Frage-Antwort-Trainingsdaten erzielen durchschnittliche Verbesserungen von 5 bis 6 Punkten, OCR-Trainingsdaten dagegen Verluste von 6,8 bis 17,4 Punkten gegenüber dem Ausgangsmodell Qwen2.5-VL-7B.Frage-Antwort-Training (obere Zeilen) verbessert die Leistung des Modells auf langen Dokumenten deutlich, während reines Zeichenerkennungs-Training (untere Zeilen) sie sogar verschlechtert. Selbst mit zusätzlicher Nachschulung holen die OCR-Varianten den Rückstand nicht auf. | Bild: Bytedance

Reine Texterkennung als Trainingsaufgabe verschlechterte die Leistung sogar gegenüber dem Ausgangszustand. Frage-Antwort-Training dagegen brachte deutliche Fortschritte. Offenbar lernt das Modell erst dann, in langen Texten zu navigieren, wenn es Informationen gezielt herausfiltern und einordnen muss.

Vielfalt schlägt Spezialisierung

Aus den Experimenten ergaben sich drei weitere Befunde. Es lohnt sich nicht, das Modell vor allem mit sehr langen Dokumenten am oberen Ende des Kontextfensters zu füttern. Eine breitere Mischung aus kürzeren und längeren Beispielen funktioniert zuverlässiger, weil lange Kontexte keine separate Fähigkeit für eine bestimmte Länge sind, sondern flexibles Suchen über verschiedene Abstände hinweg verlangen.

Der eigentliche Engpass liegt zudem im Finden der relevanten Stelle, weniger im Schlussfolgern. Eine Mischung mit Schwerpunkt auf Extraktionsaufgaben und einer kleineren Beimischung von Rechenaufgaben lieferte die besten Ergebnisse.

Überraschend ist der dritte Befund, weil er der gängigen Praxis bei reinen Sprachmodellen widerspricht. Eine Beimischung kurzer Trainingsbeispiele scheint nicht zwingend nötig. Das Modell behielt seine Fähigkeiten bei kurzen Aufgaben auch dann weitgehend, wenn ausschließlich lange Frage-Antwort-Daten zum Einsatz kamen. Vermutlich hilft die Form der Daten selbst: Auch wenn der Kontext sehr lang ist, bleibt die Aufgabe als Frage-Antwort-Interaktion im vertrauten Instruction-Following-Format formuliert.

Klein, aber stabil bis 512.000 Token

Mit diesem Rezept und einem vergleichsweise bescheidenen Trainingsaufwand übertrifft MMProLong nicht nur sein Ausgangsmodell merklich, sondern auch mehrere wesentlich größere offene Modelle wie InternVL3-38B oder Gemma3-27B. Außerdem fiel auf, dass das nur auf 128.000 Token trainierte Modell auch bei 256.000 und 512.000 Token Eingabelänge stabil bleibt, während das Ausgangsmodell dort stark einbricht.

Balkendiagramm vergleicht das Basismodell Qwen2.5-VL-7B und MMProLong auf dem MM-NIAH-Benchmark in den Kategorien Retrieval, Counting, Reasoning und Durchschnitt; MMProLong gewinnt in allen vier Kategorien mit Zuwächsen zwischen 7,0 und 45,7 Punkten.Auf dem Needle-in-a-Haystack-Benchmark für lange Multimodal-Kontexte legt MMProLong gegenüber der Basis Qwen2.5-VL-7B im Schnitt 29,4 Punkte zu. | Bild: Bytedance

Die Fähigkeit überträgt sich zudem auf Aufgaben, für die nicht eigens trainiert wurde, etwa das Verstehen langer Videos. In einem zusätzlichen Transferexperiment zeigte sich das Rezept auch auf dem stärkeren Qwen3-VL-8B wirksam, wobei dieses Modell bereits von Haus aus auf lange Kontexte ausgelegt ist.

Balkendiagramm vergleicht Qwen2.5-VL-7B und MMProLong auf den drei Langvideo-Benchmarks Video-MME, MLVU und Long VideoBench; MMProLong gewinnt in allen drei mit Zuwächsen zwischen 1,6 und 3,3 Punkten.Obwohl ausschließlich auf Dokumenten trainiert, überträgt sich der Effekt auch auf Langvideo-Benchmarks. | Bild: Bytedance

Interessant ist die Studie auch deshalb, weil sie aus einem ganz anderen Lager kommt als die viel beachteten Arbeiten von Deepseek zum gleichen Problem. Deepseek versucht, das lange Gedächtnis von KI-Modellen zu erweitern, indem es Texte als Bilder verarbeitet und stark komprimiert, zuletzt mit einem Encoder, der visuelle Informationen nach Inhalt neu sortiert.

ByteDance Seed geht den umgekehrten Weg und optimiert die Trainingsdaten statt der Architektur. Beide Ansätze zielen auf denselben Engpass, an dem chinesische KI-Anbieter derzeit besonders intensiv arbeiten. ByteDance hat erst kürzlich angekündigt, seine KI-Investitionen für 2026 auf über 30 Milliarden US-Dollar anzuheben und dabei verstärkt auf heimische Chips zu setzen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article