KI-Suchagenten "googeln" oft nur, was sie ohnehin schon wissen

1 week ago 7

Eine neue Untersuchung legt nahe, dass führende KI-Suchagenten auf etablierten Benchmarks nicht wirklich recherchieren, sondern das Web vor allem nutzen, um intern bereits vorhandene Antworten zu bestätigen. Sobald die Modelle ihre Wissensgrenze verlassen müssen, bricht ihre Suchleistung ein.

Frontier-Modelle wie GPT-5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek-V4-Pro oder Kimi-K2.6 erzielen auf BrowseComp zunehmend hohe Werte. Der Benchmark stellt Agenten komplexe Fragen, deren Antworten sich nur durch mehrstufiges Browsen und das Zusammenführen von Informationen aus verschiedenen Webquellen finden lassen sollen.

Forschende des Harbin Institute of Technology und von Xiaohongshu zeigen in einer Studie nun, dass diese Ergebnisse weniger über die Recherchefähigkeit der Agenten aussagen als bisher angenommen. Die Autoren sprechen von "Intrinsic Knowledge Dependence" (IKD), also einer Abhängigkeit vom internen Wissen, das die Modelle während des Trainings aufgenommen haben.

Zweigeteiltes Schaubild, links „Static Benchmark", rechts „LiveBrowseComp", das zeigt, wie ein statischer Wissensbestand über die Modellgenerationen hinweg ins Modell wandert, während LiveBrowseComp seinen Wissensbestand laufend auffrischt.

Die Forschenden testeten insgesamt elf Modelle und entfernten in einem ersten Diagnoseschritt sämtliche Such- und Browsing-Werkzeuge. Trotz fehlendem Internetzugang erreichten die Modelle erstaunlich hohe Werte. MiniMax M2.5 löste 44,5 Prozent der BrowseComp-Aufgaben aus dem Gedächtnis, Kimi K2.6 kam auf der chinesischen Variante BrowseComp-ZH auf 62 Prozent. Ein erheblicher Teil der Benchmark-Leistung ist also bereits abrufbar, bevor überhaupt eine Suche stattfindet.

Zwei Heatmaps vergleichen sechs Modelle über die Benchmarks BrowseComp, BrowseComp-ZH, HLE und GAIA, links die Closed-Book-Trefferquote ohne Werkzeuge, rechts den zusätzlichen Gewinn durch Websuche.

Recherche kann der Antwort schaden

Aufschlussreicher fällt der zweite Test aus. Die Forschenden ließen die Suchschnittstelle bestehen, entfernten aber alle antwortstützenden Dokumente aus dem Suchindex. Jedes getestete Modell schnitt anschließend schlechter ab als ohne jeden Tool-Zugriff. MiniMax M2.5 fiel von 44,5 auf 8,0 Prozent, Kimi-K2.6 von 25,5 auf 2,3 Prozent. Die Suche zieht die Agenten also aktiv von korrekten Bauchgefühl-Antworten weg, sobald keine bestätigenden Treffer mehr auftauchen.

Zwei Diagramme, links steigt der Anteil selbst formulierter Suchanfragen mit dem Suchfortschritt auf rund 70 bis 80 Prozent, rechts liegt die Nutzungsrate tatsächlich gefundener Belege bei vier Modellen nur zwischen 24,7 und 32,2 Prozent.

Eine Analyse der Suchpfade liefert die Erklärung. Mehr als die Hälfte aller Anfragen wird aus der eigenen Argumentation des Modells generiert und nicht aus zuvor gefundenen Treffern abgeleitet. Selbst wenn relevante Belege tatsächlich im Suchergebnis auftauchen, übernehmen die Agenten sie in weniger als einem Drittel der Fälle in ihre Argumentation. Die Schleife ist daher modell- statt evidenzgeleitet.

Ein Benchmark jenseits der Wissensgrenze

Um echtes Suchverhalten zu messen, konstruierten die Autoren LiveBrowseComp. Der Benchmark enthält 335 von Menschen verfasste Fragen, deren Lösung jeweils von mindestens einem Fakt aus den 90 Tagen vor der Erstellung abhängt und ohne diese aktuelle Information nicht möglich sein soll.

Die zugrundeliegenden Ereignisse stammen aus laufend aktualisierten Quellen wie Filmdatenbanken, Spieleverzeichnissen, Sicherheitslückenregistern und Erdbebenkatalogen. Global prominente Ereignisse werden gezielt herausgefiltert, übrig bleiben obskure, aber öffentlich verifizierbare Fakten, die kaum Chance hatten, während des Modelltrainings in die Parameter der Systeme einzusickern.

Flussdiagramm der LiveBrowseComp-Erstellungspipeline von den Datenquellen über zeitliche Filterung, Longtail-Bewertung, Stabilitätsprüfung und Fragenkonstruktion bis zur Expertenprüfung und den fertigen Benchmark-Aufgaben.

Menschliche Tester benötigen für LiveBrowseComp ähnlich viel Zeit wie für BrowseComp und lösen vergleichbar viele Aufgaben. Der Leistungsabfall der Modelle entsteht also durch den Wegfall der Gedächtnis-Abkürzung und nicht etwa durch zu schwere Fragen.

Ranglisten brechen zusammen

Auf LiveBrowseComp fallen alle Modelle im Closed-Book-Test unter zwei Prozent Genauigkeit. Mit aktivierten Werkzeugen liegen die Werte rund 25 bis 40 Punkte unter den BrowseComp-Ergebnissen derselben Modelle.

Balkendiagramm vergleicht für neun Modelle die Closed-Book-Trefferquote auf BrowseComp und LiveBrowseComp, auf BrowseComp erreichen sie 11 bis 44,5 Prozent, auf LiveBrowseComp durchweg unter 2 Prozent.

Wichtiger als der absolute Rückgang ist die Verschiebung der Rangfolge. GLM 5.1 führt unter den untersuchten Open-Source-Modellen auf BrowseComp deutlich und fällt auf LiveBrowseComp ins Mittelfeld zurück. DeepSeek v3.2, auf BrowseComp eher hinten platziert, klettert nach vorn und überholt mehrere zuvor stärkere Konkurrenten. Die Position auf einer statischen Bestenliste spiegelt damit zu einem Gutteil wider, wie viel ein Modell ohnehin schon weiß, und nicht, wie gut es sucht.

Längere, explorativere Suchpfade

Auf BrowseComp lösen Agenten viele Fragen in sehr wenigen Schritten, ein typisches Muster für rasche Gedächtnisbestätigung. Auf LiveBrowseComp verschwindet dieser Cluster, die Verteilung verschiebt sich zu deutlich höheren Rundenzahlen. Ein Indiz, dass die Agenten tatsächlich suchen, statt nur Informationen aus dem Modellwissen abzurufen.

Sechs Histogramme der Suchrunden pro Frage für Kimi K2.6, MiniMax M2.5 und GLM 5.1, jeweils oben auf LiveBrowseComp und unten auf BrowseComp; auf BrowseComp häufen sich Lösungen bei sehr wenigen Runden, auf LiveBrowseComp verschiebt sich die Verteilung zu deutlich höheren Rundenzahlen.

Die Autoren plädieren dafür, dynamische, zeitsensitive Benchmarks zum Standard der Agenten-Evaluation zu machen und Trainingssignale zu entwickeln, die evidenzgeführte Recherche belohnen statt das verbreitete Muster aus Raten und Verifizieren.

Davor hatten andere Arbeiten verwandte Schwächen aktueller KI-Systeme im Umgang mit Quellen sichtbar gemacht. Ein Benchmark der Peking University zeigte, dass führende Modelle bei der Dokumentenanalyse zwar oft die richtige Antwort liefern, aber falsche Belegstellen angeben; die Forschenden sprechen von "Attribution Hallucination". Ein Tool namens CiteAudit dokumentierte kürzlich, dass sich erfundene Quellen bereits in akzeptierte Paper führender KI-Konferenzen eingeschlichen haben, weil kommerzielle Modelle Halluzinationen in Referenzlisten nicht zuverlässig erkennen.

Read Entire Article

KI-Suchagenten "googeln" oft nur, was sie ohnehin schon wissen

Recherche kann der Antwort schaden

Ein Benchmark jenseits der Wissensgrenze

Ranglisten brechen zusammen

Längere, explorativere Suchpfade

Related

US-Firmen setzen verstärkt auf Deepseek, Ramp-Ökonom warnt v...

Iran-Krieg: 100 Tage – Gewinner und Verlierer

KI-Revolution oder Jobkiller: Haben wir demnächst mehr Freiz...