VisionClaw macht Smart Glasses zu Always-on-Agenten für den Alltag

2 days ago 3

Ein Forscherteam hat einen OpenClaw-Agenten für Smart Glasses entwickelt, um herauszufinden, wie sich kontinuierlich wahrnehmende KI auf die Nutzung agentischer KI-Systeme auswirkt.

Ein Team aus Forschern der University of Colorado, des Gwangju Institute of Science and Technology und von Google hat VisionClaw vorgestellt: eine agentische Always-on-KI, die kontinuierliche Wahrnehmung aus der Ich-Perspektive mit der eigenständigen Ausführung digitaler Aufgaben verbindet.

Damit wollen die Forscher eine grundlegende Lücke schließen: Bisher konnten KI-Agenten zwar Programme bedienen und Aufgaben im Web ausführen, hatten aber keinen Zugang zur realen Umgebung, während Smart Glasses zwar die Welt über Kamera und Mikrofone erfassen, bislang aber kaum selbstständig handeln können.

Mit VisionClaw untersuchten sie, ob und wie sich eine solche Always-on-KI im Alltag nutzen lässt und wie sie reale Interaktionen verändert, wenn Wahrnehmung und Handlung in einem System zusammenkommen.

So funktioniert VisionClaw

VisionClaw koppelt eine displaylose Ray-Ban Meta-Brille über eine eigens entwickelte Smartphone-App an Gemini Live und OpenClaw. Die Brille streamt dafür laufend Audio und einzelne Bilder aus der Umgebung an Gemini, das die multimodalen Eingaben verarbeitet und entweder direkt per Sprache antwortet oder Aufgaben über OpenClaw anstößt.

Der Agent greift dafür auf Werkzeuge wie Browser, Mail, Kalender oder Websuche zu und spielt die Ergebnisse wieder an das Sprachmodell zurück. So verbindet das System kontinuierliche Wahrnehmung aus der Ich-Perspektive mit agentischer Ausführung digitaler Aufgaben.

 Audio/Video-Streaming von Meta Ray-Ban über Mobile App zu Gemini Live und OpenClawVisionClaw kombiniert Audio-/Video-Streaming von Meta Ray-Ban-Brille über eine Mobile App mit Gemini Live zur Echtzeit-Verarbeitung multimodaler Eingaben. Tool-Aufrufe werden über den OpenClaw-Agenten an Anwendungen wie Browser, Kalender und HomeKit zur automatischen Ausführung weitergeleitet. | Bild: Xiaoan Liu et al.

Die Forscher haben zwei Studien durchgeführt, die zeigen sollten, wie gut VisionClaw in der Praxis funktioniert und wie Menschen ein solches System tatsächlich nutzen.

In der ersten Studie verglichen die Forscher VisionClaw mit zwölf Teilnehmern gegen zwei reduzierte Vergleichssysteme: einer Always-on-KI auf der Ray-Ban Meta-Brille, die die Umgebung wahrnimmt, aber keine allgemeinen Agentenaktionen ausführen kann, sowie einer OpenClaw-Version auf dem Smartphone, die agentische Aufgaben erledigt, aber keine kontinuierliche Wahrnehmung der Umgebung hat. Die Probanden mussten dabei vier Aufgaben lösen, die reale Objekte oder physische Dokumente einbezogen, etwa Notizen aus Unterlagen erstellen, E-Mails verfassen, Produkte recherchieren oder Geräte steuern.

Erste Ergebnisse: Vorteile bei Tempo und Aufwand

Dabei war VisionClaw laut Paper je nach Aufgabe 13 bis 37 Prozent schneller und wurde als 7 bis 46 Prozent weniger anstrengend wahrgenommen. Zugleich sank die empfundene Belastung etwa bei mentaler Anstrengung, Zeitdruck und Frustration. Bei der Erfolgsquote gab es insgesamt keine signifikanten Unterschiede. Bei der Notizaufgabe fiel VisionClaw jedoch auf rund 58 Prozent zurück, was daran lag, dass die Brillenkamera kleine oder visuell eingeschränkte Objekte wie Kassenbons nicht zuverlässig erfassen konnte.

"Die Ergebnisse zeigen, dass die Verbindung von Wahrnehmung und Ausführung Aufgaben schneller erledigen lässt und den Interaktionsaufwand im Vergleich zu Baselines ohne Always-on-Funktion oder agentische Ausführung verringert", schreiben die Forscher.

 Kommunikation, Abruf, Speichern, Erinnerung, Einkaufen und Gerätesteuerung in physischen Kontexten.In einer Deployment-Studie veranschaulichen sechs Szenarien, wie das System per Sprachbefehl in realen Umgebungen Aktionen wie Kommunikation, Abruf, Speichern, Erinnerung, Einkaufen und Steuerung autonom ausführt. | Bild: Xiaoan Liu et al.

In einer zweiten, autobiografischen Alltagsstudie prüften die Forscher, wie sich VisionClaw im täglichen Gebrauch bewährt. Vier Autoren des Papers nutzten das System über einen längeren Zeitraum selbst und kamen zusammen auf 55 aktive Teilnehmertage. In dieser Zeit entstanden 555 sprachgestartete Interaktionen mit einer Gesamtnutzungsdauer von 25,8 Stunden. Die Forscher werteten aus, wofür VisionClaw tatsächlich zum Einsatz kam, und identifizierten sechs Nutzungskategorien. Auf den Informationsabruf entfielen 30 Prozent, auf das Einkaufen 19 Prozent und auf das Speichern von Inhalten 16 Prozent. Die Kommunikation machte 14 Prozent aus, das Erinnern zwölf Prozent und die Steuerung 9 Prozent.

Neben diesen sechs Nutzungskategorien identifizierten die Forscher in der Alltagsstudie auch vier emergente Interaktionsmuster: offene, mehrstufige Gespräche mit dem KI-Agenten, spontanes Erfassen und späteres Erinnern von Informationen, eine unaufdringlichere, aber teils weniger verlässliche, bildschirmlose KI-Nutzung, sowie einen im Zeitverlauf wachsenden Nutzen durch mehr persönliche Daten. Insgesamt deutet das laut Paper auf eine Verschiebung von einzelnen Sprachbefehlen hin zu kontinuierlicher, kontextgetriebener Nutzung.

 Multi-Turn-Konversation, opportunistisches Speichern, screenlose Nutzung, datengestützte AnpassungVier wiederkehrende Interaktionsmuster einer AR-Brille in einer Langzeitstudie verdeutlichen, wie Nutzer offene Mehrstufen-Gespräche führen, Content opportunistisch speichern, auf eine ruhige, screenlose Interaktion setzen und das System mit persönlichen Daten anreichern. Diese Erkenntnisse liefern praxisnahe Vorgaben für die benutzerzentrierte Weiterentwicklung von AR-Interfaces. | Bild: Xiaoan Liu et al.

"Die Ergebnisse der Alltagsstudie zeigen einen Wandel in der Interaktion: Aufgaben werden spontan während laufender Tätigkeiten angestoßen, und ihre Ausführung wird zunehmend delegiert statt manuell gesteuert. Die Resultate deuten auf ein neues Paradigma für tragbare KI-Agenten hin, bei dem Wahrnehmung und Handlung kontinuierlich gekoppelt sind, um situative, freihändige Interaktion zu ermöglichen", schreiben die Forscher.

VisionClaw: Open Source auf Github verfügbar

Die Autoren kommen zu dem Schluss, dass VisionClaw über einzelne Anwendungsfälle hinaus auf eine neue Form der Mensch-KI-Interaktion hindeutet. Statt wie klassische Sprachassistenten nur auf einzelne Befehle zu reagieren, entwickle sich ein Always-on-System eher zu einem fortlaufenden, kontextabhängigen Begleiter, bei dem Wahrnehmung, Erinnerung und Handlung eng zusammenwirken. Zugleich verweisen sie auf offene Herausforderungen, etwa beim Datenschutz durch permanente Erfassung, beim Umgang mit großen Mengen persönlicher Daten sowie bei der Gestaltung von Systemen, die unaufdringlich im Hintergrund unterstützen.

Technisch fällt auf, dass die Forscher eine Ray-Ban Meta-Brille ohne Display nutzten, obwohl Meta in den USA bereits eine Version mit integrierter Anzeige anbietet. Eine Anzeige könnte die KI-Nutzung deutlich erweitern und erleichtern: Ergebnisse ließen sich direkt im Sichtfeld anzeigen und leichter überprüfen. Erste Entwicklerexperimente in diese Richtung gibt es bereits, doch sie stehen wegen eingeschränkter APIs noch am Anfang.

Methodisch ist die Aussagekraft der Arbeit durch die kleinen Stichproben begrenzt: Die erste Studie umfasst nur zwölf Teilnehmer, die zweite sogar nur vier. Besonders problematisch ist, dass die Alltagsstudie ausschließlich mit vier Autoren des Papers durchgeführt wurde, also mit Personen, die das System selbst entwickelt haben und seine Funktionsweise genau kennen.

Hinzu kommt, dass an der Arbeit auch Google-Forscher beteiligt sind. Google selbst wird laut eigenen Angaben noch in diesem Jahr KI-Brillen auf Basis von Android XR und Gemini auf den Markt bringen. Die Studie sollte vor diesem Hintergrund nicht als völlig unvoreingenommene Evaluation gelesen werden.

Das Paper mit dem Titel "VisionClaw: Always-On AI Agents Through Smart Glasses" ist frei im Netz verfügbar. Auch VisionClaw selbst ist als Open-Source-Projekt auf Github zugänglich.

Read Entire Article