OpenAI will mit "Beneficial RL" KI-Modelle breit und dauerhaft auf gutes Verhalten trimmen

2 hours ago 1

Laut einem Blogbeitrag auf OpenAIs Alignment-Seite ist die Antwort ja. Das Forschungsteam trainierte ein Modell per Reinforcement Learning auf realistische Konversationen, die bestimmte erwünschte Eigenschaften testen: Wahrhaftigkeit, epistemische Demut, Korrigierbarkeit, Transparenz im Denkprozess, Fairness und Sorge um menschliches Wohlergehen. Die Szenarien stammen aus Bereichen wie Gesundheit, Bildung, Wissenschaft, Recht und Ingenieurwesen.

Gutes Verhalten überträgt sich auf fremde Domänen

Nur ein kleiner Anteil dieser "Beneficial Trait"-Daten wurde in die reguläre RL-Post-Training-Mischung eingespeist. Trotzdem verbesserte sich das Modell laut dem Paper auf 44 von 53 unabhängigen Benchmarks, die Täuschung, Ehrlichkeit, Sycophancy, Reward Hacking sowie Gesundheits- und Mental-Health-Szenarien messen.

Training ausschließlich auf Gesundheitsdaten verbesserte auch Nicht-Gesundheits-Evaluierungen wie Reward Hacking und Täuschungserkennung. Umgekehrt verbesserte Training ohne jegliche Gesundheits- und Wissenschaftsdaten trotzdem die Leistung auf Gesundheits-Benchmarks. Die Forscher schließen daraus, dass das RL-Training grundlegende Verhaltensmuster verstärkt, die domänenübergreifend wirken.

Modelle werden resistent gegen schädliche Steuerung

Das Team testete auch, ob die Verbesserungen unter Druck standhalten. Adversariale Prompts, die das Baseline-Modell erheblich destabilisierten, hatten auf das Beneficial-Trait-Modell deutlich weniger Einfluss. Auch schädliches Fine-Tuning konnte die trainierten Eigenschaften weniger stark untergraben.

Dabei blieb das Modell für hilfreiche Anweisungen genauso steuerbar wie zuvor. Die Forscher sprechen von "selektiver Persistenz": Das Modell widersteht schädlicher Steuerung, ohne an nützlicher Flexibilität zu verlieren.

Ein anderer Weg als Anthropic

IOpenAIs Methode unterscheidet sich grundlegend von Anthropics Alignment-Ansatz. Erstens setzt OpenAI auf empirisch messbare Verhaltenseigenschaften, die per RL in realistischen Szenarien verstärkt werden. Anthropic arbeitet dagegen mit einer expliziten "Claude-Verfassung", einem schriftlichen Wertedokument, das als oberste Orientierung für Training und Verhalten dient.

Zweitens argumentiert OpenAI stark benchmark-orientiert: 44 von 53 Evaluierungen zeigen Verbesserungen, die über Domänen und Bewertungsverfahren hinweg generalisieren. Anthropic verfolgt dagegen einen stärker prinzipienbasierten Ansatz, bei dem das Modell verstehen soll, warum bestimmte Verhaltensweisen erwünscht sind, gestützt auf Verfassungstexte und hochwertige Trainingsbeispiele. Laut dem Unternehmen sind die Modelle so resistenter gegenüber Angriffen. Einen direkten Vergleich beider Ansätze gibt es aber bisher nicht.

Read Entire Article