Multimodale KI-Modelle sollen mit immer längeren Dokumenten zurechtkommen, doch wie man sie dafür trainiert, bleibt meist Geschäftsgeheimnis. Eine neue Studie zeigt nun, dass Zeichenerkennung als Trainingsaufgabe sogar schadet und Frage-Antwort-Paare weit wirksamer sind.
Forscher von ByteDance Seed und der Hongkonger Universität für Wissenschaft und Technologie (HKUST) haben untersucht, wie sich Bild-Sprach-Modelle effizient auf lange Dokumente trainieren lassen. Ihr Ergebnis ist ein Modell namens MMProLong, das auf der offenen Alibaba-Vorlage Qwen2.5-VL aufbaut und auch deutlich größere Konkurrenten schlägt.
Moderne multimodale KI-Modelle sollen mit immer längeren Eingaben zurechtkommen, etwa mit ganzen PDF-Sammlungen aus gerenderten Seiten, stundenlangen Videos oder Agenten, die sich über viele Schritte hinweg an ihre Aufgaben erinnern. Anbieter wie OpenAI, Google oder Alibaba werben mit Kontextfenstern von 128.000 Token und mehr, in die nicht nur Text, sondern auch tausende Seitenbilder oder Videoframes hineinpassen. Wie diese Fähigkeit konkret antrainiert wird, verraten die technischen Berichte laut den Autoren allerdings kaum. Welche Daten ein Modell sehen sollte und in welcher Mischung, blieb bisher weitgehend offen.
Fragen beantworten ist lehrreicher als abtippen
Die zentrale Erkenntnis der Studie wirkt auf den ersten Blick banal. Damit ein multimodales Modell lernt, in einem 100-seitigen Dokument die richtige Stelle zu finden, hilft es kaum, das Modell den Text aller Seiten transkribieren zu lassen. Wirksamer ist es, ihm Fragen zu stellen, deren Antwort irgendwo in diesen Seiten versteckt liegt.
Die Synthese-Pipeline kombiniert OCR-Parsing, automatische Fragenerzeugung und Wiedereinbettung, um Trainingsbeispiele mit langem Kontext aus realen Dokumenten zu gewinnen. | Bild: BytedanceDie Forscher haben beide Wege gegeneinander getestet. In einem Fall musste das Modell Texterkennung leisten: entweder über alle Seiten eines Dokuments hinweg oder für wenige ausgewählte Seiten, während die übrigen Seiten als Ablenkung im Kontext blieben.
Im anderen Fall generierten die Forscher mithilfe eines weiteren Modells (Seed 2.0 von ByteDance) Frage-Antwort-Paare zu einzelnen Abschnitten eines Dokuments. Die Frage landete dann gemeinsam mit dem kompletten Dokument im Training, sodass das Modell die relevante Stelle in einem langen Kontext finden musste.
Frage-Antwort-Training (obere Zeilen) verbessert die Leistung des Modells auf langen Dokumenten deutlich, während reines Zeichenerkennungs-Training (untere Zeilen) sie sogar verschlechtert. Selbst mit zusätzlicher Nachschulung holen die OCR-Varianten den Rückstand nicht auf. | Bild: BytedanceReine Texterkennung als Trainingsaufgabe verschlechterte die Leistung sogar gegenüber dem Ausgangszustand. Frage-Antwort-Training dagegen brachte deutliche Fortschritte. Offenbar lernt das Modell erst dann, in langen Texten zu navigieren, wenn es Informationen gezielt herausfiltern und einordnen muss.
Vielfalt schlägt Spezialisierung
Aus den Experimenten ergaben sich drei weitere Befunde. Es lohnt sich nicht, das Modell vor allem mit sehr langen Dokumenten am oberen Ende des Kontextfensters zu füttern. Eine breitere Mischung aus kürzeren und längeren Beispielen funktioniert zuverlässiger, weil lange Kontexte keine separate Fähigkeit für eine bestimmte Länge sind, sondern flexibles Suchen über verschiedene Abstände hinweg verlangen.
Der eigentliche Engpass liegt zudem im Finden der relevanten Stelle, weniger im Schlussfolgern. Eine Mischung mit Schwerpunkt auf Extraktionsaufgaben und einer kleineren Beimischung von Rechenaufgaben lieferte die besten Ergebnisse.
Überraschend ist der dritte Befund, weil er der gängigen Praxis bei reinen Sprachmodellen widerspricht. Eine Beimischung kurzer Trainingsbeispiele scheint nicht zwingend nötig. Das Modell behielt seine Fähigkeiten bei kurzen Aufgaben auch dann weitgehend, wenn ausschließlich lange Frage-Antwort-Daten zum Einsatz kamen. Vermutlich hilft die Form der Daten selbst: Auch wenn der Kontext sehr lang ist, bleibt die Aufgabe als Frage-Antwort-Interaktion im vertrauten Instruction-Following-Format formuliert.
Klein, aber stabil bis 512.000 Token
Mit diesem Rezept und einem vergleichsweise bescheidenen Trainingsaufwand übertrifft MMProLong nicht nur sein Ausgangsmodell merklich, sondern auch mehrere wesentlich größere offene Modelle wie InternVL3-38B oder Gemma3-27B. Außerdem fiel auf, dass das nur auf 128.000 Token trainierte Modell auch bei 256.000 und 512.000 Token Eingabelänge stabil bleibt, während das Ausgangsmodell dort stark einbricht.
Auf dem Needle-in-a-Haystack-Benchmark für lange Multimodal-Kontexte legt MMProLong gegenüber der Basis Qwen2.5-VL-7B im Schnitt 29,4 Punkte zu. | Bild: BytedanceDie Fähigkeit überträgt sich zudem auf Aufgaben, für die nicht eigens trainiert wurde, etwa das Verstehen langer Videos. In einem zusätzlichen Transferexperiment zeigte sich das Rezept auch auf dem stärkeren Qwen3-VL-8B wirksam, wobei dieses Modell bereits von Haus aus auf lange Kontexte ausgelegt ist.
Obwohl ausschließlich auf Dokumenten trainiert, überträgt sich der Effekt auch auf Langvideo-Benchmarks. | Bild: BytedanceInteressant ist die Studie auch deshalb, weil sie aus einem ganz anderen Lager kommt als die viel beachteten Arbeiten von Deepseek zum gleichen Problem. Deepseek versucht, das lange Gedächtnis von KI-Modellen zu erweitern, indem es Texte als Bilder verarbeitet und stark komprimiert, zuletzt mit einem Encoder, der visuelle Informationen nach Inhalt neu sortiert.
ByteDance Seed geht den umgekehrten Weg und optimiert die Trainingsdaten statt der Architektur. Beide Ansätze zielen auf denselben Engpass, an dem chinesische KI-Anbieter derzeit besonders intensiv arbeiten. ByteDance hat erst kürzlich angekündigt, seine KI-Investitionen für 2026 auf über 30 Milliarden US-Dollar anzuheben und dabei verstärkt auf heimische Chips zu setzen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



