Oppo zeigt lokalen KI-Agenten X-OmniClaw, der die Smartphone-Sinne bündelt

3 weeks ago 12

Mit X-OmniClaw stellt Oppos Multi-X-Team einen Open-Source-Agenten vor, der Kamera, Bildschirm und Sprache nutzt, um Aufgaben in echten Android-Apps zu erledigen, ohne den Umweg über eine Cloud-Kopie des Handys.

Im technischen Bericht zu X-OmniClaw grenzt sich Oppos AI Center klar von bisherigen Cloud-Phone-Plattformen wie RedFinger, Alibabas Wuying oder Tencent Cloud Phone ab. Diese führen den Agenten in einer virtualisierten Android-Instanz im Rechenzentrum aus und kommen so nicht an lokale Sensoren, Kameras oder private Daten heran.

X-OmniClaw läuft stattdessen direkt auf dem physischen Android-Gerät. Die Kernlogik für Wahrnehmung, Steuerung und App-Interaktion liegt lokal auf dem Smartphone; ein Cloud-Sprachmodell wird laut Bericht nur bei Bedarf als "Treibstoff" für übergeordnetes Reasoning zugeschaltet. Welche konkreten lokalen Modelle dabei zum Einsatz kommen, nennt der Bericht nicht. Erwähnt werden lediglich lokale Komponenten wie ein On-Device-Grounding-Modell und OCR zur Erkennung anklickbarer UI-Elemente.

Schema der X-OmniClaw-Architektur auf einem Android-Smartphone mit den drei Blöcken Omni Perception, Omni Action und Omni Memory sowie einem externen Tank „Remotely Sourced Reasoning (Fuel)" mit Cloud-APIs.

Kamera, Bildschirm und Sprache als gemeinsamer Eingang

Der Agent bündelt drei Wahrnehmungskanäle in einer Pipeline. Ein Vision-Language-Modell interpretiert zunächst die Szene zusammen mit der Nutzeranfrage, bevor eine Aktion ausgelöst wird.

Diagramm des Omni-Perception-Moduls mit den drei Spalten Multimodal Entry, Integrated Multimodal Perception und Scene-Grounded Intent Understanding.

Im Beispiel der Forscher fragt der Nutzer "Wie viel kostet das?", während die Kamera auf ein Produkt gerichtet ist. Das System formuliert intern um zu "Preis dieses Produkts in der Shopping-App" und übergibt erst diese strukturierte Absicht an die Ausführung.

Galerie wird zum durchsuchbaren Gedächtnis

Für das Langzeitgedächtnis verdichtet X-OmniClaw lokale Daten zu semantischen Einträgen. Galeriefotos werden im Leerlauf zu kompakten Beschreibungen von Objekten, Szenen und Ereignissen verarbeitet und in einer Markdown-Datei abgelegt.

Diagramm des Omni-Memory-Moduls mit Working Memory, Multimodal Long-term Memory, semantischer Galerie-Zusammenfassung über ein VLM und Skill/Tool-Bereichen für Memory Building und Memory Using.

Vor dem Speichern läuft jeder Eintrag durch einen Filter, der sensible Informationen aussortieren soll. Der Bericht verweist dabei auf Upload-Risiken im Zusammenhang mit Cloud-Vision. Die Verlagerung auf geräteinterne Modelle nennt der Bericht als nächsten Schritt, damit Rohbilder das Handy nicht mehr verlassen müssen.

Geklonte Klickpfade statt Schritt-für-Schritt-Wiederholung

Statt jede Aktion neu zu planen, klont der Agent Nutzerverhalten als wiederverwendbare Skills. Er extrahiert dabei den vollständigen Startbefehl einer App-Seite und springt beim nächsten Mal per Deeplink direkt dorthin, anstatt den ursprünglichen Klickpfad nachzuspielen.

Diagramm des Omni-Action-Moduls mit Agent Loop (Observation, Reasoning, Execution) auf der linken und Trajectory Cloned Execution mit Dumpsys Activity, Activity Deeplink, UI Tree, Skill Card und Trajectory Replay auf der rechten Seite.

Schlägt das fehl, fällt das System schrittweise auf einfachere Startmethoden zurück. Für die Erkennung anklickbarer Elemente kombiniert X-OmniClaw XML-Strukturinformationen mit einem Grounding-Modell und Texterkennung. Das soll bei werbelastigen Oberflächen helfen, wo XML allein keine präzise Klickposition liefert.

Vom Preisvergleich bis zum Hausaufgabenhelfer

In einem ersten Szenario zielt der Nutzer mit der Kamera auf ein Produkt und fragt nach dem Preis. Der Agent springt in die Shopping-App, scrollt, macht Screenshots und liest Preise und Verkaufszahlen über ein Vision-Sprachmodell aus. Eine Folgeäußerung wie "öffne den zweiten Eintrag" funktioniert ohne erneutes Grounding.

Kameraaufnahme einer Wahaha-Wasserflasche, automatische Übergabe an die Taobao-Suche per Deeplink und Auflistung passender Produkte mit Preisen.

In einem weiteren Beispiel agiert X-OmniClaw als "ScreenAvatar", ein schwebendes Begleitelement, das auf Zuruf eine Reihe von Aufgaben auf dem Bildschirm löst, etwa mehrere Übungsaufgaben hintereinander.

schwebendes Begleitelement löst auf einer chinesischen Lern-App nacheinander Multiple-Choice-Aufgaben per Auto-Click und meldet zum Schluss zehn richtige Antworten.

Eine dritte Demo zeigt, wie das System auf die Anfrage, alle Papageien-Fotos zu einem Highlight-Album zu machen, passende Dateien sammelt, per Deeplink in die Ein-Klick-Komposition einer Videoschnitt-App springt und die Bilder per Multi-Tap auswählt.

Geplanter Hintergrund-Task fasst Galeriefotos in einer image-memories.md zusammen, danach öffnet der Agent per Deeplink die Ein-Klick-Komposition in CapCut, wählt alle Papageien-Fotos per Multi-Tap und erstellt ein Highlight-Video.

Im vierten Beispiel klont der Nutzer einmal den Weg zu einer tief verschachtelten Rabattseite. Beim nächsten Mal reicht eine Sprachanfrage, um die exakte Unterseite wieder zu öffnen, auch wenn die App keine öffentlichen Deeplinks bereitstellt.

Nutzer zeichnet einen Klickpfad in der Meituan-App zur Flash-Sale-Seite auf, das System speichert Aktivität und Deeplink als Skill und öffnet die exakte Unterseite beim zweiten Versuch über eine Sprachanfrage.

Die Implementierung baut auf der quelloffenen HermesApp-Codebasis auf und positioniert sich zwischen OpenClaw, das stärker auf PCs zielt, und dem auf emergente Fähigkeiten setzenden Hermes Agent von Nous Research. Code und Assets sind auf GitHub verfügbar.

Vor kurzem hatte Google mit Gemma 4 gezeigt, dass auch ein rein lokal laufendes Modell auf dem Smartphone bereits agentisch agieren kann. In der Demo-App "Google AI Edge Gallery" nutzt das Modell sogenannte Agent Skills, um etwa Wikipedia abzufragen, QR-Codes zu erzeugen oder Mood-Tracker mit Verlaufsdiagrammen zu öffnen.

Methodisch knüpft das System dabei an ByteDances UI-TARS an, einen rein visuell arbeitenden GUI-Agenten, der allein auf Screenshots und Koordinaten setzt. X-OmniClaw kombiniert diesen Ansatz aber mit struktureller XML-Information und geräteinterner Ausführung, um die Fehleranfälligkeit reiner Vision-Pipelines bei dynamischen Oberflächen zu reduzieren.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article