Mit X-OmniClaw stellt Oppos Multi-X-Team einen Open-Source-Agenten vor, der Kamera, Bildschirm und Sprache nutzt, um Aufgaben in echten Android-Apps zu erledigen, ohne den Umweg über eine Cloud-Kopie des Handys.
Im technischen Bericht zu X-OmniClaw grenzt sich Oppos AI Center klar von bisherigen Cloud-Phone-Plattformen wie RedFinger, Alibabas Wuying oder Tencent Cloud Phone ab. Diese führen den Agenten in einer virtualisierten Android-Instanz im Rechenzentrum aus und kommen so nicht an lokale Sensoren, Kameras oder private Daten heran.
X-OmniClaw läuft stattdessen direkt auf dem physischen Android-Gerät. Die Kernlogik für Wahrnehmung, Steuerung und App-Interaktion liegt lokal auf dem Smartphone; ein Cloud-Sprachmodell wird laut Bericht nur bei Bedarf als "Treibstoff" für übergeordnetes Reasoning zugeschaltet. Welche konkreten lokalen Modelle dabei zum Einsatz kommen, nennt der Bericht nicht. Erwähnt werden lediglich lokale Komponenten wie ein On-Device-Grounding-Modell und OCR zur Erkennung anklickbarer UI-Elemente.
Die Gesamtarchitektur von X-OmniClaw läuft auf dem Gerät. Cloud-Modelle liefern laut Oppo nur den "Treibstoff" für komplexes Reasoning. | Bild: OppoKamera, Bildschirm und Sprache als gemeinsamer Eingang
Der Agent bündelt drei Wahrnehmungskanäle in einer Pipeline. Ein Vision-Language-Modell interpretiert zunächst die Szene zusammen mit der Nutzeranfrage, bevor eine Aktion ausgelöst wird.
Der Wahrnehmungs-Stack bündelt Text-, Sprach-, Kamera- und Bildschirmsignale, richtet sie zeitlich aus und übergibt eine strukturierte Absicht an das Sprachmodell. | Bild: OppoIm Beispiel der Forscher fragt der Nutzer "Wie viel kostet das?", während die Kamera auf ein Produkt gerichtet ist. Das System formuliert intern um zu "Preis dieses Produkts in der Shopping-App" und übergibt erst diese strukturierte Absicht an die Ausführung.
Galerie wird zum durchsuchbaren Gedächtnis
Für das Langzeitgedächtnis verdichtet X-OmniClaw lokale Daten zu semantischen Einträgen. Galeriefotos werden im Leerlauf zu kompakten Beschreibungen von Objekten, Szenen und Ereignissen verarbeitet und in einer Markdown-Datei abgelegt.
Das Gedächtnismodul fasst Galeriefotos im Leerlauf zu einer Markdown-Datei "image-memory.md" zusammen und filtert sensible Inhalte vor dem Speichern. | Bild: OppoVor dem Speichern läuft jeder Eintrag durch einen Filter, der sensible Informationen aussortieren soll. Der Bericht verweist dabei auf Upload-Risiken im Zusammenhang mit Cloud-Vision. Die Verlagerung auf geräteinterne Modelle nennt der Bericht als nächsten Schritt, damit Rohbilder das Handy nicht mehr verlassen müssen.
Geklonte Klickpfade statt Schritt-für-Schritt-Wiederholung
Statt jede Aktion neu zu planen, klont der Agent Nutzerverhalten als wiederverwendbare Skills. Er extrahiert dabei den vollständigen Startbefehl einer App-Seite und springt beim nächsten Mal per Deeplink direkt dorthin, anstatt den ursprünglichen Klickpfad nachzuspielen.
Statt Klickpfade nachzuspielen, klont X-OmniClaw die Startaktivität einer App-Seite und springt beim nächsten Mal per Deeplink direkt dorthin. | Bild: OppoSchlägt das fehl, fällt das System schrittweise auf einfachere Startmethoden zurück. Für die Erkennung anklickbarer Elemente kombiniert X-OmniClaw XML-Strukturinformationen mit einem Grounding-Modell und Texterkennung. Das soll bei werbelastigen Oberflächen helfen, wo XML allein keine präzise Klickposition liefert.
Vom Preisvergleich bis zum Hausaufgabenhelfer
In einem ersten Szenario zielt der Nutzer mit der Kamera auf ein Produkt und fragt nach dem Preis. Der Agent springt in die Shopping-App, scrollt, macht Screenshots und liest Preise und Verkaufszahlen über ein Vision-Sprachmodell aus. Eine Folgeäußerung wie "öffne den zweiten Eintrag" funktioniert ohne erneutes Grounding.
Der Nutzer hält die Kamera auf eine Flasche und fragt "Wie viel kostet das?". Der Agent öffnet Taobao, scrollt durch die Treffer und liest Preise sowie Verkaufszahlen aus. | Bild: OppoIn einem weiteren Beispiel agiert X-OmniClaw als "ScreenAvatar", ein schwebendes Begleitelement, das auf Zuruf eine Reihe von Aufgaben auf dem Bildschirm löst, etwa mehrere Übungsaufgaben hintereinander.
Als "ScreenAvatar" bearbeitet X-OmniClaw eine Reihe von Übungsaufgaben in Folge und tippt die korrekten Antworten selbstständig an. | Bild: OppoEine dritte Demo zeigt, wie das System auf die Anfrage, alle Papageien-Fotos zu einem Highlight-Album zu machen, passende Dateien sammelt, per Deeplink in die Ein-Klick-Komposition einer Videoschnitt-App springt und die Bilder per Multi-Tap auswählt.
Aus der Sprachanfrage nach einem Papageien-Album sucht der Agent passende Fotos im verdichteten Galerie-Gedächtnis und übergibt sie an CapCut. | Bild: OppoIm vierten Beispiel klont der Nutzer einmal den Weg zu einer tief verschachtelten Rabattseite. Beim nächsten Mal reicht eine Sprachanfrage, um die exakte Unterseite wieder zu öffnen, auch wenn die App keine öffentlichen Deeplinks bereitstellt.
Einmal vorgeführter Weg in eine tief verschachtelte Meituan-Rabattseite genügt. Beim nächsten Mal reicht ein Sprachbefehl, auch ohne öffentlichen Deeplink. | Bild: OppoDie Implementierung baut auf der quelloffenen HermesApp-Codebasis auf und positioniert sich zwischen OpenClaw, das stärker auf PCs zielt, und dem auf emergente Fähigkeiten setzenden Hermes Agent von Nous Research. Code und Assets sind auf GitHub verfügbar.
Vor kurzem hatte Google mit Gemma 4 gezeigt, dass auch ein rein lokal laufendes Modell auf dem Smartphone bereits agentisch agieren kann. In der Demo-App "Google AI Edge Gallery" nutzt das Modell sogenannte Agent Skills, um etwa Wikipedia abzufragen, QR-Codes zu erzeugen oder Mood-Tracker mit Verlaufsdiagrammen zu öffnen.
Methodisch knüpft das System dabei an ByteDances UI-TARS an, einen rein visuell arbeitenden GUI-Agenten, der allein auf Screenshots und Koordinaten setzt. X-OmniClaw kombiniert diesen Ansatz aber mit struktureller XML-Information und geräteinterner Ausführung, um die Fehleranfälligkeit reiner Vision-Pipelines bei dynamischen Oberflächen zu reduzieren.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



