Microsoft stellt mit Fara-7B ein kompaktes KI-Modell vor, das Benutzeroberflächen rein visuell bedienen soll. Das Modell verspricht, trotz geringer Größe mit deutlich komplexeren Systemen mitzuhalten, und läuft lokal auf Endgeräten.
Das Modell basiert auf Alibabas Qwen2.5-VL-7B und nutzt laut Microsoft ausschließlich visuelle Informationen. Es verarbeitet Screenshots der Benutzeroberfläche, ohne auf technische Hilfsmittel wie Accessibility Trees oder HTML-Parsing angewiesen zu sein. In einer Schleife aus Beobachten, Denken und Handeln sagt das Modell Koordinaten für Klicks voraus oder generiert Tastatureingaben. Dabei berücksichtigt es den Verlauf der Aktionen, die letzten drei Screenshots und die Nutzereingaben.
Mit sieben Milliarden Parametern ist Fara-7B klein genug, um direkt auf Geräten ausgeführt zu werden. Microsoft betont, dass dies die Latenz verringere und den Datenschutz verbessere, da Daten lokal verbleiben.
Das Modell arbeitet in einer kontinuierlichen Schleife und nutzt Screenshots der Benutzeroberfläche, um die nächste Aktion zu bestimmen. | Bild: MicrosoftSynthetische Daten ersetzen manuelles Training
Ein Hauptproblem bei der Entwicklung solcher Computer-Use-Agenten ist der Mangel an Trainingsdaten, da die manuelle Aufzeichnung von Klickpfaden durch Menschen extrem aufwendig ist. Microsoft umging dieses Problem durch eine Pipeline für synthetische Daten.
Für das Training generiert Microsoft synthetische Daten, indem ein Multi-Agenten-System Aufgaben löst und diese anschließend verifiziert. | Bild: MicrosoftDabei nutzte das Team das hauseigene Multi-Agenten-Framework Magentic-One, um Aufgaben automatisiert zu lösen. Ein Orchestrator-Agent erstellt Pläne, während ein WebSurfer-Agent die Aktionen ausführt. Die daraus resultierenden erfolgreichen Abläufe – insgesamt rund 145.000 Trajektorien mit einer Million Einzelschritten – dienten dann als Trainingsmaterial, um das Wissen des komplexen Systems in das kompakte Fara-7B zu destillieren.
Zusätzlich führte Microsoft den Benchmark WebTailBench ein, der Aufgaben abdecken soll, die in bisherigen Tests unterrepräsentiert waren, etwa Preisvergleiche oder Jobsuche.
Effizienz soll mit größeren Modellen konkurrieren
In den von Microsoft veröffentlichten Benchmarks zeigt das Modell eine hohe Leistungsfähigkeit im Vergleich zu seiner Größe. Im WebVoyager-Benchmark erreicht Fara-7B eine Erfolgsquote von 73,5 Prozent. Damit liegt es laut den Autoren vor dem UI-TARS-1.5-7B Modell und übertrifft sogar OpenAIs kommerzielles GPT-4o. Eine unabhängige Überprüfung durch die Firma Browserbase mit menschlichen Bewertern ergab eine Erfolgsquote von 62 Prozent.
In verschiedenen Benchmarks schneidet Fara-7B im Vergleich zur Konkurrenz gut ab und übertrifft im WebVoyager-Test sogar OpenAIs Computer-Use-Preview. | Bild: MicrosoftMicrosoft hebt zudem die Effizienz hervor: Fara-7B benötige für die Lösung von Aufgaben im Schnitt nur etwa 16 Schritte, während vergleichbare Modelle wie UI-TARS rund 41 Schritte bräuchten. Das spiegelt sich beim Einsatz direkt in reduzierten Kosten wider.
Fara-7B (lila) erzielt im WebVoyager-Benchmark eine hohe Genauigkeit bei einem Bruchteil der Kosten anderer Modelle wie GPT-4o. | Bild: MicrosoftTrotz der Ergebnisse weist Microsoft darauf hin, dass das Modell weiterhin Fehler macht, Anweisungen missverstehen kann und zu Halluzinationen neigt. Um Risiken zu minimieren, wurde das Modell darauf trainiert, an sogenannten kritischen Punkten innezuhalten – etwa vor dem Absenden einer E-Mail oder einer finanziellen Transaktion –, um die Zustimmung des Nutzers einzuholen.
Das Modell steht als experimentelles Open-Weight-Release unter MIT-Lizenz auf Hugging Face und Microsoft Foundry zur Verfügung. Zudem lässt sich Fara-7B lokal etwa auf Copilot+ PCs mit Windows 11 testen.
Schon seit einiger Zeit legen KI-Unternehmen wie OpenAI, Anthropic, Google und Manus AI Hoffnung in die KI-gestützte Bedienung von Benutzeroberflächen durch Agenten. Bislang zeigt sich aber: Viele Aufgaben werden ohne echten Effizienzgewinn nur langsam oder überhaupt nicht ausgeführt. Zudem laufen sie Gefahr, durch Risiken wie Prompt-Injections in die Irre geführt zu werden.
Ein Ansatz könnte sein, KI-Agenten nicht nur auf visuelle Informationen zu beschränken, sondern ihnen Schnittstellen zu bieten, die speziell auf ihre Bedürfnisse zugeschnitten sind. Während Forschende bereits an standardisierten Interaktionskonzepten für Agenten arbeiten, könnten solche Ansätze dazu beitragen, die Effizienz und Sicherheit beim Einsatz von KI-Agenten deutlich zu steigern.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



