Perplexity lässt KI-Agenten ihre eigene Websuche programmieren, um Tokens zu sparen und Präzision zu erhöhen

11 hours ago 6

Statt eine fertige Such-API aufzurufen, sollen Modelle in Perplexitys neuer Architektur "Search as Code" ihre Suchabläufe als Python-Code schreiben. Das Unternehmen verspricht damit präzisere Ergebnisse und weniger Tokenverbrauch.

Wer heute einen KI-Agenten eine komplexe Recherche erledigen lässt, beobachtet meist dasselbe Muster. Das Modell formuliert eine Anfrage, eine Such-API liefert eine Ergebnisliste, das Modell liest, formuliert die nächste Anfrage. Diese Schleife wiederholt sich, oft viele Male hintereinander.

Perplexity beschreibt diesen Ablauf in einem technischen Bericht als Engpass. Suchsysteme seien historisch für menschliche Nutzer entworfen worden, die eine vorhersehbare Ergebnissseite erwarten. Für Agenten, die innerhalb weniger Minuten hunderte Suchschritte ausführen müssen, sei dieses Modell zu starr. Das Modell könne lediglich die Anfrageparameter steuern, alles dahinter sei eine Blackbox.

Schaubild stellt traditionelle Suche und Search as Code gegenüber; oben ruft ein Agentenmodell ein monolithisches Suchsystem (retrieve, filter, rerank, context) seriell über mehrere Turns auf, unten erzeugt das Modell in einer Sandbox Python-Code, der atomare Suchprimitive wie retrieve, fanout und dedupe ansteuert.

Mit "Search as Code" (SaC) verfolgt das Unternehmen einen anderen Ansatz. Das Modell ruft die Such-API nicht mehr direkt auf, sondern schreibt ein Python-Programm, das die Suche selbst orchestriert. Dieses Programm läuft in einer abgeschotteten Sandbox und greift dort auf die Bausteine von Perplexitys Suchstack zu. Einzelne Operationen wie Abrufen, Filtern, Deduplizieren oder Reranking stehen als Funktionen eines SDK bereit.

Modell oben, SDK unten, Sandbox in der Mitte

Die Architektur lässt sich in drei Ebenen lesen: Oben steht das Modell, das die Aufgabe versteht und entscheidet, welche Suchstrategie sinnvoll ist. In der Mitte liegt die Sandbox als Ausführungsumgebung für den generierten Code. Unten sitzt das "Agentic Search SDK", das Perplexitys Suchinfrastruktur in einzelne, kombinierbare Funktionen zerlegt.

Modell samt SaC Agent Skill, Sandbox mit Execution Runtime und Dateisystem für Zwischenstände, Agentic Search SDK mit Primitiven wie retrieve, fanout, filter, dedupe, rerank und parse_field sowie der darunterliegenden Suchinfrastruktur.

Klassische Such-Endpunkte, die eine Anfrage entgegennehmen und eine fertige Ergebnisliste zurückgeben, existieren weiterhin, dienen aber nur noch als Abkürzung für einfache Fälle. Bei komplexen Aufgaben kann das Modell tiefer in den Stack greifen, etwa parallele Anfragen feuern, Zwischenergebnisse deterministisch filtern und nur die relevanten Treffer in den eigenen Kontext aufnehmen.

Genau hier liegt laut Perplexity der Hebel. In klassischen Pipelines landen viele irrelevante Treffer im Kontextfenster des Modells, weil die Filterlogik vorgegeben ist. Wenn das Modell die Filterung selbst programmieren kann, bleibt der Kontext schlanker und das Modell behält den Überblick über lange Recherchen.

CVE-Recherche zeigt den Unterschied

Perplexity demonstriert die Architektur an einer Aufgabe aus dem eigenen Testkatalog. Ein Agent soll über 200 hochkritische Sicherheitslücken der Jahre 2023 bis 2025 zusammentragen und jeweils mit der offiziellen Sicherheitsmeldung des Herstellers, dem betroffenen Produkt und der Version belegen, die den Fehler behebt. Aggregatoren oder Newsartikel zählen nicht.

Mit SaC schreibt das Modell ein dreistufiges Programm: Es feuert parallele Suchanfragen, die auf die Meldungsformate einzelner Hersteller wie Mozilla, Jenkins oder Chrome zugeschnitten sind, prüft anschließend selbst, wo noch Lücken in der Abdeckung bestehen, und fordert gezielt weitere Suchmuster nach. Am Ende verifiziert eine schema-basierte Extraktion, dass CVE-Nummer, Produkt und Fix-Version tatsächlich aus derselben Hersteller-Quelle stammen.

Perplexity berichtet von einer vollständigen Lösung der Aufgabe bei rund 85 Prozent weniger Tokenverbrauch gegenüber der eigenen Pipeline ohne SaC. Die getesteten Drittsysteme hätten weniger als ein Viertel der Datensätze korrekt geliefert.

Vielversprechende Benchmarks

Über fünf Benchmarks hinweg sieht Perplexity SaC in vier Fällen vorn, mit deutlichem Abstand auf einem hauseigenen Test namens WANDR, der "Wide Research"-Aufgaben prüft und in den kommenden Wochen veröffentlicht werden soll. Verglichen wird unter anderem mit OpenAIs Responses-API, Anthropics Managed Agents, Exa und Parallel.

Gruppiertes Balkendiagramm vergleicht Perplexity (SaC), OpenAI, Anthropic, Exa API und Parallel API über die Benchmarks DSQA, BrowseComp, HLE, WideSearch und WANDR; Perplexity (SaC) führt in vier von fünf Tests, etwa mit 0,871 bei DSQA.

Die Zahlen stammen aus Perplexitys eigenen Messungen, was eine gewisse Skepsis erfordert, gerade bei dem selbst entworfenen WANDR-Test. Aussagekräftiger ist der direkte Vergleich zur eigenen Vorgängerarchitektur. Hier liefert SaC laut Perplexity über alle Benchmarks hinweg messbare Zugewinne, primär bei Aufgaben mit hoher Recherchebreite.

Verbundene Punktdarstellung vergleicht die Perplexity-Baseline mit Perplexity SaC pro Benchmark; die Zugewinne reichen von +5,50 Punkten (+7 %) bei BrowseComp bis +19,80 Punkten (+29 %) bei DSQA, der relativ größte Sprung liegt bei WANDR mit +12,00 Punkten (+45 %).

Codeausführung wird zur Schnittstelle zwischen Modell und Welt

Perplexity ordnet SaC in einen größeren Trend ein. Klassische Software basiert auf deterministischen Anweisungen, Frontier-Modelle ergänzen das durch Reasoning im Token-Raum. Die leistungsfähigsten Systeme würden beides verbinden, also Modelle für die Strategie, deterministische Runtimes für Batching und Filterung, Suchinfrastruktur als I/O-Layer.

Search as Code wird ab sofort in Perplexity Computer und der Agent API ausgerollt.

Eine aktuelle Untersuchung zeigt, dass führende KI-Suchagenten auf Benchmarks wie BrowseComp oft gar nicht recherchieren. Stattdessen rufen sie Antworten aus ihrem Trainingswissen ab und bestätigen sie per Suche. Auf dem neuen Benchmark LiveBrowseComp, der gezielt aktuelle Fakten jenseits der Wissensgrenze abfragt, brechen alle getesteten Systeme um 25 bis 40 Punkte ein. Allerdings wurden dabei die herkömmlichen Suchwerkzeuge von Sprachmodellen genutzt.

Dass die Fähigkeit, Code zu schreiben, auch für den eigenen Betrieb von KI-Systemen wichtig wird, zeigt eine weitere Übersichtsarbeit. Sie beschreibt Code als neue Betriebsschicht für Agenten. Die umgebende Infrastruktur aus Werkzeugen, Sandboxes und Prüfmechanismen werde zum eigentlichen Engpass autonomer Systeme.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren