Eine neue Untersuchung legt nahe, dass führende KI-Suchagenten auf etablierten Benchmarks nicht wirklich recherchieren, sondern das Web vor allem nutzen, um intern bereits vorhandene Antworten zu bestätigen. Sobald die Modelle ihre Wissensgrenze verlassen müssen, bricht ihre Suchleistung ein.
Frontier-Modelle wie GPT-5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek-V4-Pro oder Kimi-K2.6 erzielen auf BrowseComp zunehmend hohe Werte. Der Benchmark stellt Agenten komplexe Fragen, deren Antworten sich nur durch mehrstufiges Browsen und das Zusammenführen von Informationen aus verschiedenen Webquellen finden lassen sollen.
Forschende des Harbin Institute of Technology und von Xiaohongshu zeigen in einer Studie nun, dass diese Ergebnisse weniger über die Recherchefähigkeit der Agenten aussagen als bisher angenommen. Die Autoren sprechen von "Intrinsic Knowledge Dependence" (IKD), also einer Abhängigkeit vom internen Wissen, das die Modelle während des Trainings aufgenommen haben.
Bei statischen Benchmarks wandert das nötige Wissen über die Modellgenerationen hinweg ins Parametergedächtnis, wodurch die Aufgaben an Schwierigkeit verlieren. LiveBrowseComp wirkt dem mit zeitgebundenen Fragen entgegen. | Bild: Fan et al.Die Forschenden testeten insgesamt elf Modelle und entfernten in einem ersten Diagnoseschritt sämtliche Such- und Browsing-Werkzeuge. Trotz fehlendem Internetzugang erreichten die Modelle erstaunlich hohe Werte. MiniMax M2.5 löste 44,5 Prozent der BrowseComp-Aufgaben aus dem Gedächtnis, Kimi K2.6 kam auf der chinesischen Variante BrowseComp-ZH auf 62 Prozent. Ein erheblicher Teil der Benchmark-Leistung ist also bereits abrufbar, bevor überhaupt eine Suche stattfindet.
Schon ohne Werkzeuge erreichen die Modelle hohe Werte, etwa MiniMax M2.5 mit 44,5 Prozent auf BrowseComp. Der eigentliche Beitrag der Suche fällt dagegen oft gering aus. | Bild: Fan et al.Recherche kann der Antwort schaden
Aufschlussreicher fällt der zweite Test aus. Die Forschenden ließen die Suchschnittstelle bestehen, entfernten aber alle antwortstützenden Dokumente aus dem Suchindex. Jedes getestete Modell schnitt anschließend schlechter ab als ohne jeden Tool-Zugriff. MiniMax M2.5 fiel von 44,5 auf 8,0 Prozent, Kimi-K2.6 von 25,5 auf 2,3 Prozent. Die Suche zieht die Agenten also aktiv von korrekten Bauchgefühl-Antworten weg, sobald keine bestätigenden Treffer mehr auftauchen.
Je weiter die Recherche fortschreitet, desto stärker suchen die Agenten nach eigenen Hypothesen statt nach neuen Fakten. Gefundene belegende Quellen nutzen sie anschließend in weniger als einem Drittel der Fälle. | Bild: Fan et al.Eine Analyse der Suchpfade liefert die Erklärung. Mehr als die Hälfte aller Anfragen wird aus der eigenen Argumentation des Modells generiert und nicht aus zuvor gefundenen Treffern abgeleitet. Selbst wenn relevante Belege tatsächlich im Suchergebnis auftauchen, übernehmen die Agenten sie in weniger als einem Drittel der Fälle in ihre Argumentation. Die Schleife ist daher modell- statt evidenzgeleitet.
Ein Benchmark jenseits der Wissensgrenze
Um echtes Suchverhalten zu messen, konstruierten die Autoren LiveBrowseComp. Der Benchmark enthält 335 von Menschen verfasste Fragen, deren Lösung jeweils von mindestens einem Fakt aus den 90 Tagen vor der Erstellung abhängt und ohne diese aktuelle Information nicht möglich sein soll.
Die zugrundeliegenden Ereignisse stammen aus laufend aktualisierten Quellen wie Filmdatenbanken, Spieleverzeichnissen, Sicherheitslückenregistern und Erdbebenkatalogen. Global prominente Ereignisse werden gezielt herausgefiltert, übrig bleiben obskure, aber öffentlich verifizierbare Fakten, die kaum Chance hatten, während des Modelltrainings in die Parameter der Systeme einzusickern.
Die Pipeline filtert aus aktuellen Datenquellen nur Fakten der letzten 90 Tage, verwirft instabile Antworten und lässt jede Frage zusätzlich auf Aktualität, Schwierigkeit und Eindeutigkeit prüfen. | Bild: Fan et al.Menschliche Tester benötigen für LiveBrowseComp ähnlich viel Zeit wie für BrowseComp und lösen vergleichbar viele Aufgaben. Der Leistungsabfall der Modelle entsteht also durch den Wegfall der Gedächtnis-Abkürzung und nicht etwa durch zu schwere Fragen.
Ranglisten brechen zusammen
Auf LiveBrowseComp fallen alle Modelle im Closed-Book-Test unter zwei Prozent Genauigkeit. Mit aktivierten Werkzeugen liegen die Werte rund 25 bis 40 Punkte unter den BrowseComp-Ergebnissen derselben Modelle.
Ohne Werkzeuge lösen die Modelle bis zu 44,5 Prozent der BrowseComp-Fragen aus dem Gedächtnis. Auf LiveBrowseComp bricht dieser Wert bei allen auf unter zwei Prozent ein, was die zeitliche Sperre gegen Parameterwissen bestätigt. | Bild: Fan et al.Wichtiger als der absolute Rückgang ist die Verschiebung der Rangfolge. GLM 5.1 führt unter den untersuchten Open-Source-Modellen auf BrowseComp deutlich und fällt auf LiveBrowseComp ins Mittelfeld zurück. DeepSeek v3.2, auf BrowseComp eher hinten platziert, klettert nach vorn und überholt mehrere zuvor stärkere Konkurrenten. Die Position auf einer statischen Bestenliste spiegelt damit zu einem Gutteil wider, wie viel ein Modell ohnehin schon weiß, und nicht, wie gut es sucht.
Längere, explorativere Suchpfade
Auf BrowseComp lösen Agenten viele Fragen in sehr wenigen Schritten, ein typisches Muster für rasche Gedächtnisbestätigung. Auf LiveBrowseComp verschwindet dieser Cluster, die Verteilung verschiebt sich zu deutlich höheren Rundenzahlen. Ein Indiz, dass die Agenten tatsächlich suchen, statt nur Informationen aus dem Modellwissen abzurufen.
Auf BrowseComp lösen die Agenten viele Fragen in wenigen Schritten, ein Muster schneller Gedächtnisbestätigung. Auf LiveBrowseComp verschwindet dieser Cluster und die Recherche zieht sich über deutlich mehr Runden. | Bild: Fan et al.Die Autoren plädieren dafür, dynamische, zeitsensitive Benchmarks zum Standard der Agenten-Evaluation zu machen und Trainingssignale zu entwickeln, die evidenzgeführte Recherche belohnen statt das verbreitete Muster aus Raten und Verifizieren.
Davor hatten andere Arbeiten verwandte Schwächen aktueller KI-Systeme im Umgang mit Quellen sichtbar gemacht. Ein Benchmark der Peking University zeigte, dass führende Modelle bei der Dokumentenanalyse zwar oft die richtige Antwort liefern, aber falsche Belegstellen angeben; die Forschenden sprechen von "Attribution Hallucination". Ein Tool namens CiteAudit dokumentierte kürzlich, dass sich erfundene Quellen bereits in akzeptierte Paper führender KI-Konferenzen eingeschlichen haben, weil kommerzielle Modelle Halluzinationen in Referenzlisten nicht zuverlässig erkennen.



