Wer Sprachmodelle als nützliche Assistenten trainiert, macht sie weniger menschlich

1 week ago 8

Eine großangelegte Studie zeigt, dass das Training, das aus rohen Sprachmodellen hilfreiche Chatbots macht, zugleich ihre Fähigkeit schwächt, menschliches Verhalten nachzubilden. Der Effekt verstärkt sich in neueren Modellgenerationen.

Sprachmodelle werden zunehmend als Stellvertreter für menschliche Versuchspersonen eingesetzt, etwa um Reaktionen auf politische Maßnahmen vorherzusagen, klinische Trainings für Psychiater zu simulieren oder Lernverläufe von Schülern zu modellieren.

Eine neue Studie eines internationalen Forschungsverbunds, an dem unter anderem Forschende von Helmholtz Munich beteiligt sind, kommt zu einem unpraktischen Befund: Ausgerechnet jene Trainingsschritte, die Sprachmodelle in nützliche Assistenten verwandeln, machen sie als Modelle menschlichen Verhaltens schlechter.

Grundlage der Untersuchung ist Psych-201, ein neuer Datensatz mit Transkripten aus Verhaltensexperimenten. Er umfasst laut Studie rund 208.000 Teilnehmer und etwa 26 Millionen einzelne Reaktionen aus Hunderten Experimenten und ist damit mehrfach größer als vergleichbare bisherige Sammlungen.

Jeder Datenpunkt entspricht dem kompletten Ablauf einer Versuchsperson durch ein Experiment, ergänzt um detaillierte Metadaten wie Alter, Nationalität, Fragebogenantworten und weitere Merkmale. Gesammelt wurde der Datensatz durch eine offene Forschungskollaboration, an der Forschende von mehr als 35 Institutionen beteiligt waren.

Basismodell schlägt Assistent

Die Forscher verglichen Modelle aus den Familien Qwen3, Llama3 und OLMo 3 jeweils als Basismodelle und in verschiedenen post-trainierten Varianten. Basismodelle sind nur darauf trainiert, das nächste Wort in Texten vorherzusagen.

Aus ihnen werden durch zusätzliches Training jene Versionen abgeleitet, die auf Anweisungsbefolgung, schrittweises Schlussfolgern oder Bildverarbeitung spezialisiert sind. Gemessen wurde, wie gut die jeweiligen Modelle die tatsächlichen Antworten menschlicher Teilnehmer vorhersagen.

Drei Liniendiagramme für Qwen3, Olmo3.X und Llama3.X zeigen die Negative Log-Likelihood gegen die Modellgröße; die blaue Basismodell-Linie liegt durchgehend unter den nachtrainierten Varianten.

Das Ergebnis ist über alle Familien und Größen hinweg konsistent. Die Basismodelle treffen menschliches Verhalten besser als ihre weiter trainierten Nachfolger. Der Effekt zeigt sich für alle gängigen Trainingsziele, am stärksten bei Reasoning-Modellen, gefolgt von Instruction-Tuning und Vision-Erweiterungen. In nahezu jedem direkten Vergleich schneidet das Basismodell besser ab als seine spezialisierte Variante.

Eine naheliegende Gegenerklärung wäre, dass Assistenten-Modelle einfach deterministischer antworten und so die natürliche Streuung menschlichen Verhaltens nicht abbilden. Die Forscher prüfen diese Erklärung zusätzlich mit einer Accuracy-Analyse auf einem Teil der Aufgaben mit diskreten Antwortmöglichkeiten. Auch dort schneiden post-trainierte Modelle schlechter ab, was erhöhte Deterministik als alleinige Erklärung unwahrscheinlich macht.

Der Abstand wächst mit jeder Generation

Während Basismodelle sich von Qwen2 über Qwen2.5 bis Qwen3 kontinuierlich verbessern und menschliches Verhalten zunehmend besser treffen, vergrößert sich die Lücke zu den daraus abgeleiteten Assistenten-Modellen. Laufende Fortschritte im Post-Training verstärken die Divergenz zu menschlichem Verhalten also, statt sie zu schließen.

Links eine Linienkurve sinkender Negative Log-Likelihood von Qwen2 bis Qwen3.5, rechts ein Boxplot der Post-Training-Verzerrung, die von Qwen2 bis Qwen3.5 ansteigt.

Die stärkste Verzerrung tritt bei sprachlichen Aufgaben und beim Schlussfolgern auf. Die Forscher liefern dazu eine plausible Erklärung: Basismodelle sind im Kern Modelle menschlicher Sprache und damit gut auf sprachverarbeitende Aufgaben kalibriert. Post-Training-Techniken wie Reinforcement Learning from Human Feedback verschieben sie weg von diesem ursprünglichen Ziel, etwa hin zu stärker nutzerorientierten oder normativ korrekten Antworten.

Ähnlich läuft es beim Schlussfolgern. Menschliche Entscheidungen sind von Faustregeln und systematischen Verzerrungen geprägt, die Basismodelle offenbar erfassen. Reasoning-Training optimiert dagegen auf logisch korrekte Antworten und überschreibt damit genau jene menschlichen Eigenheiten, die für eine Verhaltenssimulation wichtig wären.

Heatmap der Post-Training-Verzerrung nach Versuchsdomäne; die Durchschnittswerte steigen von Wirtschaftsspielen mit 0,06 bis zu Psycholinguistik mit 0,18 und Schlussfolgern mit 0,12.

Eine populäre Abkürzung funktioniert nicht

Eine zweite Erkenntnis betrifft die verbreitete Technik, Sprachmodelle durch teilnehmerspezifische Informationen in eine bestimmte Rolle zu versetzen. In der Studie geschah dies in einem Interviewformat, bei dem dem Modell vor dem Experiment Angaben zur jeweiligen Person vorangestellt wurden. Berücksichtigt wurden, soweit verfügbar, etwa Alter, Geschlecht, Nationalität, Bildung, klinische Diagnosen und Fragebogenstatistiken.

Zwei Streudiagramme für Basis- und Instruct-Modelle zeigen den Meta-Data-Benefit der Persona-Prompts; die Werte clustern bei nahezu null.

Der Effekt lag praktisch bei null, auch wenn die Analyse auf entwicklungspsychologische Experimente beschränkt wurde, in denen altersabhängige Unterschiede eigentlich informativ sein müssten. Frühere Arbeiten hatten gezeigt, dass solche Persona-Prompts auf Populationsebene menschenähnliche Antwortverteilungen erzeugen können. Die neue Studie stellt aber infrage, ob sie tatsächlich das Verhalten einzelner Personen vorhersagen oder nur an der Oberfläche plausibel wirken.

Centaur als Gegenbeispiel

Die Autoren sehen ihre Befunde als Spielart eines bekannten Problems. Zusätzliches Training auf bestimmte Ziele kann andere Fähigkeiten degradieren, die im Grundtraining erworben wurden. Ob das eine grundsätzliche Grenze ist, prüften sie an Centaur, einem Modell, das gezielt auf einen Teil der Verhaltensdaten feingetunt wurde.

Centaur zeigte auch auf neuen, im Training nicht enthaltenen Aufgaben eine deutlich höhere Übereinstimmung mit menschlichem Verhalten. Zusätzliches Training kann also helfen, wenn es gezielt auf Verhaltensmodellierung statt auf logische Korrektheit ausgerichtet wird.

Für die wissenschaftliche Praxis folgt daraus, dass die bequem zugänglichen Assistentenmodelle nicht automatisch die beste Wahl für Verhaltenssimulationen sind. Sinnvoller sind laut den Forschern entweder die rohen Basismodelle oder eigens für Verhaltenssimulation trainierte Varianten. Code und Daten sind auf Hugging Face und GitHub verfügbar.

Dass Chatbot-Modelle als digitale Versuchspersonen ihre Tücken haben, zeigte zuletzt schon eine Untersuchung von neun offenen Sprachmodellen, wonach ausgerechnet die Optimierung auf menschlicheren Klang inhaltliche Präzision kostet und ein Klassifikator die KI-Antworten mit 70 bis 80 Prozent Genauigkeit enttarnte. Der Persona-Trick funktionierte ebenfalls schlechter als gedacht.

Eine andere Arbeit fand heraus, dass sich Modelle per Anweisung kaum glaubhaft als schwache oder starke Lernende ausgeben können, weil sich ihre Trefferquote dabei um weniger als einen Prozentpunkt bewegt. Und beim Schlussfolgern klafft ohnehin eine tiefe Lücke, wie eine Analyse von mehr als 170.000 Denkspuren zeigte, der zufolge Reasoning-Modelle anders ticken als Menschen und in eine Art sequenziellen Autopiloten verfallen.

Read Entire Article