Wissenschaftler des Massachusetts Institute of Technology (MIT) haben eine Art räumliches Langzeitgedächtnis für KI-gestützte Roboter entwickelt. Die Roboter sind damit in der Lage, sich an Objekte und wo sie sich befinden, zu erinnern.
Die Wissenschaftler des MIT verknüpfen in ihrem Gedächtnis-Framework die beiden Techniken Computer Vision und robotisches Kartieren miteinander. Multimodale Computer-Vision-Modelle beschreiben Objekte in einer Szene und verstehen deren Bedeutung. Robotische Kartierungssysteme überführen reale Räume in die digitale Welt, indem sie 3D-Karten einer Umgebung erstellen. Das können etwa Wohnräume oder die Umgebung eines Hauses sein. Sie haben den Nachteil, dass sie keine detaillierten Objektbeschreibungen zulassen oder rechenintensiv sind.
Die MIT-Forscher haben eine Methode mit der Bezeichnung „Describe Anything, Anywhere, Anytime, at Any Moment“ (DAAAM) entwickelt, die Computer Vision und robotische Kartierung miteinander verknüpft, damit ein Roboter versteht, wo welches Objekt in einer Umgebung positioniert ist. Das DAAAM-System beschreiben die Forscher in dem wissenschaftlichen Paper „Describe Anything Anywhere At Any Moment” (PDF), das im Preprint auf Arxiv veröffentlicht ist.
Gedächtnis aufbauen
In der Praxis versieht ein Roboter beim Herumfahren oder -laufen mithilfe von DAAAM von ihm erfasste Objekte mit detaillierten Beschreibungen – etwa wie ein Gebäude heißt, welche Architektur es hat oder dass ein Fahrradständer fünf Fahrräder aufnehmen kann und das blaue Fahrrad darin einen defekten Reifen hat. Die Objekte werden in bestimmte Bereiche gruppiert und in einer räumlichen 3D-Karte abgespeichert. Herkömmliche Techniken zur Erfassung solcher detaillierten Beschreibungen benötigen oft jedoch mehrere Sekunden, um nur wenige Objekte zu annotieren. Das ist für die Echtzeit-Nutzung aber zu langsam.
„Je schneller der Roboter dieses räumliche Gedächtnis aufbauen kann, desto effizienter kann er Aktionen in seiner Umgebung ausführen“, erklärt Luca Carlone, Professor für Luft- und Raumfahrttechnik am MIT, Leiter des Laboratory for Information and Decision Systems (LIDS) und Direktor des Spark Laboratory.
Die Forscher erhöhten die Erfassungsgeschwindigkeit, indem das DAAAM mehrere Objekte zugleich aggregiert und Schlüsselbilder mit mehreren Objekten mittels eines Optimierungsverfahrens für die Annotation auswählt. Das System kann so mehrere Objekte parallel detailliert beschreiben. Die Berechnung erfolgt bis zu zehnmal schneller als mit einem herkömmlichen System, heißt es von den Wissenschaftlern. Der Roboter verknüpft dann die Annotationen mehrerer Objekte an einer Stelle in der 3D-Karte.
„Wir annotieren jedes Objekt nur ein einziges Mal, sodass unser System auch in sehr weitläufigen Umgebungen in Echtzeit arbeiten kann. Durch die Gruppierung von Objekten in Regionen lassen sich zudem vielfältige Fragen zu Objekten und Orten in der Umgebung beantworten“, sagt Nicolas Gorlo, Doktorand am MIT.
Abfrage auf Zuruf
Der Zugriff auf das räumliche Gedächtnis, bestehend aus einer riesigen Objektdatenbank mit Beschreibungen, erfolgt über ein Large Language Model (LLM). Die Forscher sagen, dass Benutzeranfragen darüber in wenigen Sekunden und bei geringem Risiko von Halluzinationen abgerufen werden können.
Benutzer können so gezielt einen KI-Roboter mit DAAAM etwa nach einer speziellen Skulptur in der Nähe eines spezifischen Gebäudes fragen. Durch den Einsatz semantischer Suchtools kann über den Begriff „Skulptur“ und den Standort des Gebäudes die Skulptur gefunden und der Roboter Informationen über sie ausgeben.
Das von den MIT-Wissenschaftlern entwickelte DAAAM-Verfahren soll in Abhängigkeit von der Fragestellung zwischen 21 und 53 präziser arbeiten als herkömmliche Systeme.
Die Forscher beabsichtigen, das räumliche Langzeitgedächtnis künftig um eine weitere Komponente zu erweitern, die dann wichtige Ereignisse in der Umgebung erfassen können soll. Die Wissenschaftler des MIT wollen mit dem Gedächtnis-Framework Roboter ermöglichen, die als universell einsetzbare Agenten agieren und so jede gewünschte Aufgabe erledigen können.
Die Forschungen wurden vom U.S. Army Research Laboratory und dem Office of Naval Research finanziert.
(olb)



