Wer Siri bisher nach etwas gefragt hat, musste immer alles erklären. Die Software-Assistenz wusste nicht einmal, was auf ihrem eigenen Bildschirm steht. Das ändert sich mit iOS 27 grundlegend: Die neue Siri weiß, was der Nutzer gerade vor sich sieht – und handelt entsprechend. Sebastien Marineau-Mes, Apples Vice President of Software, demonstrierte die Funktion live in einem Tech-Talk im Zuge der Entwicklerkonferenz WWDC am Apple-Hauptsitz in Cupertino.
Die neue Siri analysiert in Echtzeit drei Arten von Bildschirminhalt: Text – etwa in Webseiten, Notizen oder Dokumenten –, App-Oberflächen mit Buttons, Beschriftungen und Grafiken sowie Bilder. Daraus entsteht ein Kontextbild, das Siri bei jeder Anfrage automatisch mitbekommt. Neben ihrer neuen Fähigkeit, natürliche Sprache zu verstehen, soll dies Nutzereingaben immens erleichtern.
Marineau-Mes zeigte das anhand eines Fotos, das eine ungewöhnliche Wolkenformation zeigte. Ohne jede Erklärung, was auf dem Bild zu sehen war, fragte er: „Warum sehen die Wolken so aus und wo kann man sie in der Bucht sehen?“ Siri erkannte die Wolken als marine Inversion, wie sie in Meeresnähe vorkommt, lieferte eine Erklärung – und erstellte auf Nachfrage direkt eine Notiz mit einem Tagesplan für einen Ausflug zum erkannten Mount Tamalpais in Kalifornien.
Nutzer müssen nicht mehr die Sprache von Siri sprechen
Was technisch unspektakulär klingt, ist konzeptionell ein Bruch mit der bisherigen Funktionsweise von Sprachassistenten. Marineau-Mes nannte zwei Alltagsbeispiele: Schickt ein Freund eine Nachricht mit einem Konzerttermin, reicht die Frage „Habe ich heute Zeit?“ – Siri liest Datum und Uhrzeit aus der Nachricht auf dem Bildschirm. Schreibt die Ehefrau beim Heimfahren, wo sie ihren Ehemann spontan auf einen Kaffee treffen möchte, genügt „Wie weit ist das entfernt?“ – ohne Adresse, ohne App-Wechsel.
„Man muss Siri diesen Kontext nicht mitteilen, da Siri ihn bereits kennt“, sagte Marineau-Mes. Der Nutzer soll nicht mehr darüber nachdenken müssen, was und wie er es Siri erklären muss – der Assistent soll einfach verstehen, womit man gerade beschäftigt ist.
Die Datenschutzfrage
On-Screen Awareness wirft gleichwohl eine offensichtliche Frage auf: Was passiert mit dem, was Siri sieht? Im Prinzip könnte das System jeden Bildschirminhalt erfassen – Bankdaten, private Nachrichten, vertrauliche Dokumente. Marineau-Mes sprach das direkt an: „Man kann Siri über alles befragen, was auf dem Bildschirm zu sehen ist“ – und genau deshalb sei Private Cloud Compute hier zentral, Apples Ansatz für besonders datenschutzsichere Cloud-Server. Was Siri auf dem Bildschirm sieht, wird wie alle anderen Anfragen behandelt: nur temporär verarbeitet, nicht gespeichert, nicht geloggt. Apple selbst habe keinen Zugriff darauf.
Ob das Versprechen hält, soll sich technisch überprüfen lassen – Apple hat PCC für externe Sicherheitsforscher geöffnet. Dies soll auch weiterhin gelten, wenn PCC-Server in Googles Rechenzentren stehen und Apple dabei Technologien aus Googles Gemini-Familie für seine eigenen Apple Foundation Models einsetzt. Für Nutzer bleibt es letztlich eine Vertrauensfrage.
Wie Siri aufgerufen wird
On-Screen-Awareness ist nicht auf eine bestimmte Eingabemethode beschränkt. Die neue Siri lässt sich per Sprache, per Seitentaste, durch Herunterziehen der Dynamic Island, über Kontextmenüs oder über Schaltflächen in App-Oberflächen aufrufen – und hat in jedem Fall Zugriff auf den aktuellen Bildschirminhalt.
Damit die neuen On-Screen-Awareness-Fähigkeiten auch in Dritt-Apps funktionieren, nimmt Apple die Entwickler mit ins Boot: Für sie wurden zwei Schnittstellen (APIs) bereitgestellt. UserActivity eignet sich, wenn ein einzelnes primäres Element im Vordergrund steht, etwa ein geöffnetes Dokument. View Annotations hingegen kommen zum Einsatz, wenn mehrere Elemente gleichzeitig sichtbar sind – zum Beispiel Nachrichten in einer Liste.
Ein Vorteil: Wer seine App bereits mit App Entities und App Intents ausgestattet hat, muss nur noch die Views entsprechend annotieren. Der zusätzliche Aufwand hält sich damit in Grenzen. Noch mächtiger wird On-Screen-Awareness in Kombination mit Content Transfer – dann kann Siri erkannte Inhalte direkt an andere Apps weitergeben, etwa eine angezeigte Nachricht an die Mail-App übergeben, um sie dort weiterzuleiten.
Was noch fehlt
On-Screen-Awareness klingt nach dem, was Google mit Android schon länger unter dem Begriff „Now on Tap“ versucht hat. Der Unterschied liegt im Anspruch: Apples Ansatz ist tiefer ins System integriert, verarbeitet Bilder nativ auf dem Gerät dank des neuen KI-Modells AFM 3 Core Advanced – und ist, zumindest dem Versprechen nach, vollständig privat. Ob das im Alltag so funktioniert wie in der kuratierten Demo, wird sich in den kommenden Monaten zeigen und spätestens im Herbst, wenn die finalen Versionen die Nutzer erreichen – im Falle der Europäischen Union leider noch mit ungewissem Ausgang: Apple hat angekündigt, Siri AI vorerst nicht für EU-iPhones und iPads freizugeben. Auf dem Mac soll Siri AI aber auch in die EU kommen. Vorerst allerdings weltweit zunächst in englischer Sprache.
(mki)



