Gemini 2.5 Computer Use: Googles KI steuert jetzt Browser und Apps

3 months ago 4

Google möchte Gemini zu einem noch besseren Helfer in puncto Automation machen. Mit dem Gemini 2.5 Computer Use-Modell bekommt die KI die Fähigkeit, eigenständig Web- und Mobilanwendungen zu bedienen und das laut Google mit schneller Antwortzeit und hoher Treffsicherheit. Während klassische Automatisierung auf APIs setzt, „bedient“ Gemini 2.5 dank Bild- und Kontextverständnis echte Oberflächen per Klicken, Scrollen, Texteingabe oder Drag & Drop.

Entwickler binden die KI über den neuen Modus in der Gemini-API ein. Dazu gehören ein eigener Screenshot-Loop und eine Action-History. Was genau damit erledigt werden kann? Formulare automatisch ausfüllen, Recherche-Websites durchsuchen, Inhalte kategorisieren oder Aufgaben für Nutzer übernehmen. Quasi das, was GPT mit dem Agent-Modus tut. Die Sicherheit bleibt laut Google dabei ein wichtiger Punkt. Jeder Schritt läuft über externe Prüfmechanismen, sensible Aktionen benötigen außerdem eine explizite Bestätigung.

Erste Beta-User setzen Gemini 2.5 Computer Use schon für UI-Tests, persönliche Agenten, Workflows oder komplexe Automatisierungen ein. Die Vorschau kann ab sofort im Google AI Studio und Vertex AI gefunden werden.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Read Entire Article