Google Deepmind hat Gemini Robotics-ER 1.6 vorgestellt, eine verbesserte Version seines Modells für verkörpertes Denken in Robotern. Es fungiert als übergeordnete Denkebene, die Robotern hilft, ihre Umgebung präziser zu erfassen und Aufgaben eigenständig zu planen, und ruft bei Bedarf Werkzeuge wie Google Search oder Vision-Language-Action-Modelle auf. Laut Deepmind übertrifft die neue Version sowohl Gemini Robotics-ER 1.5 als auch Gemini 3.0 Flash, etwa beim Zeigen auf Objekte, Zählen und Erkennen erfolgreicher Aufgabenausführung.
Deutlich verbessert ist das Ablesen von Messinstrumenten wie Druckanzeigen oder Schaugläsern, das in Zusammenarbeit mit Boston Dynamics entwickelt wurde. Deren Roboter Spot nutzt die Funktion zur Anlageninspektion. Für hohe Genauigkeit kombiniert das Modell agentische Bildverarbeitung mit Code-Ausführung: Es zoomt zunächst in ein Bild hinein, um kleine Details einer Anzeige besser zu erfassen, nutzt dann Zeigefunktionen und Code, um Proportionen und Skalenabstände zu berechnen, und wendet schließlich Weltwissen an, um die Bedeutung des Messwerts zu interpretieren.
Das Modell ist ab sofort über die Gemini-API und Google AI Studio verfügbar, ergänzt durch ein Colab-Beispiel für Entwickler.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



