Warum ihr in Copilot, Gemini und Co. die Modellwahl nicht auf "Auto" stellen solltet

2 weeks ago 8

Ein Experiment zeigt, wie Microsofts KI-Assistent Copilot bei der Datenanalyse Stereotypen anwendet, anstatt die Daten tatsächlich auszuwerten. Thinking-Modelle lösen die Aufgabe, setzen aber mitunter voraus, dass Nutzende ihre Tools kennen.

Microsoft Copilot hat sich in vielen Unternehmen als Standardwerkzeug für schnelle Datenanalysen etabliert. Doch ein Experiment des Mathematikers Adam Kucharski zeigt, dass das Tool bei der Analyse von Textdaten Ergebnisse produzieren kann, die nichts mit den tatsächlichen Daten zu tun haben, sondern auf Stereotypen des zugrundeliegenden Sprachmodells basieren.

Für den Test erstellte Kucharski zunächst 2000 simulierte Freitext-Antworten zu Emotionen und versah sie mit dem Label "UK". Anschließend kopierte er exakt dieselben 2000 Antworten und kennzeichnete sie als "US". Die kombinierten 4000 Einträge wurden durchmischt und Copilot im "Auto"-Modus zur Analyse vorgelegt.

Das Ergebnis: Copilot lieferte laut Kucharski eine detaillierte Zusammenfassung darüber, wie sich US- und UK-Befragte angeblich unterschieden. "US- und UK-Antworten unterscheiden sich hauptsächlich in Ton, Intensität und Wortwahl, auch wenn sie ähnliche emotionale Zustände ausdrücken", lautete die Schlussfolgerung des Tools. Die Daten waren jedoch identisch. Es gab schlicht keine Unterschiede.

Copilot sieht Italiener als Künstler und Amerikaner als Geschäftsleute

In einem zweiten Experiment verschärfte Kucharski den Test. Er ließ ein Sprachmodell 200 Aussagen über Karrierewünsche generieren und duplizierte den Datensatz fünfmal für die Länder USA, Großbritannien, Frankreich, Deutschland und Italien.

Copilot produzierte erneut länderspezifische Unterschiede: Italiener seien demnach dreimal häufiger an einer Karriere in der Kunst interessiert als Briten, Amerikaner 1,5-mal geschäftsorientierter als Franzosen. Obwohl alle fünf Gruppen exakt dieselben Aussagen enthielten.

Als Kucharski Copilot bat, tiefer in die Daten einzusteigen, führte das Tool zunächst eine einfache keyword-basierte Zählung durch, die erwartungsgemäß identische Ergebnisse für alle Länder lieferte. Copilot ignorierte diesen eigenen Befund jedoch und bot stattdessen eine "tiefere", quantifizierte Analyse an, die erneut fiktive Unterschiede auswies.

97 Prozent der Nutzer verwenden die betroffene Standardversion

Die Analyse lief im "Auto"-Modus, der laut Microsoft automatisch das optimale Modell auswählen soll. Die meisten Nutzer dürften diese Standardeinstellung verwenden, auch bei anderen Tools. Kucharskis Experiment zeigt: Sie funktioniert nicht zuverlässig. Bei der getesteten Version handelt es sich um den Standard-Copilot, der mit einem Microsoft-365-Business-Account geliefert wird. Ein Großteil der Copilot-Nutzer dürfte diese Version nutzen.

"Es besteht ein reales Risiko, dass Menschen derzeit KI nutzen, um Analysen zu produzieren, die keinerlei Ähnlichkeit mit dem haben, was die Befragten tatsächlich gesagt haben", schreibt Kucharski. Wenn solche Analysen auf echte Datensätze angewendet würden, könnten Gruppen ohne erkennbare Unterschiede als grundverschieden dargestellt werden, basierend auf den Vorannahmen des Sprachmodells über demografische Gruppen.

Thinking-Modelle können die Aufgabe lösen

Ich habe den Karrierewunsch-Test mit Microsoft Copilot und Googles neuem Gemini-Modell Flash 3.5 wiederholt. In beiden Fällen antworteten die herkömmlichen, schnellen Modelle ("Instant" / Auto, Flash 3.5) mit Länderklischees, anstatt zu erkennen, dass die Daten identisch sind.

ChatGPT Instant und Claude Opus 4.7 schalteten automatisch in einen längeren Nachdenkmodus, schrieben Python-Code, um die Datenbank auszuwerten, und erkannten die Dupletten. Stellt man Copilot und Gemini auf die leistungsfähigeren Thinking-Modelle um, erkennen auch sie die Duplikation.

Allerdings sind auch die Thinking-Modelle kein Freifahrtschein für die Datenanalyse. Die Erkennung identischer Daten funktioniert vor allem dann, wenn die Duplikation offensichtlich ist, so Kucharski. Bei echten Datensätzen mit natürlicher sprachlicher Variation, wo etwa britische und amerikanische Befragte ähnliche, aber nicht wortgleiche Antworten geben, greifen die Zählwerkzeuge der Thinking-Modelle nicht mehr zuverlässig.

Die eigentliche Gefahr liegt also weniger im trivialen Fall exakter Kopien als in der Grauzone, in der ein Sprachmodell subtile Muster in den Daten mit seinen eigenen kulturellen Vorannahmen auffüllt.

Wer sich bei der Wahl von Prompt oder Modell auf seine Intuition verlässt, läuft zudem Gefahr, dem sogenannten Hindsight-Bias zu erliegen: Im Nachhinein erscheint es immer naheliegend, dass ein anderes Modell das Problem gelöst hätte. Kucharski empfiehlt deshalb, vor jedem Modellwechsel schriftlich festzuhalten, welches Ergebnis man erwartet, und einfache Kontrollexperimente durchzuführen, bevor man den Ergebnissen einer KI-Analyse vertraut.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article