OpenAI stellt mit ChatGPT for Clinicians eine kostenlose KI-Version für Ärzte vor. Ein neuer Benchmark soll zeigen, dass GPT-5.4 menschliche Mediziner bei klinischen Aufgaben übertrifft, selbst wenn diese unbegrenzt Zeit und Internetzugang haben.
OpenAI hat eine speziell für klinische Arbeit entwickelte Version von ChatGPT vorgestellt. Sie steht verifizierten Ärztinnen und Ärzten, Pflegefachpersonen mit erweiterter klinischer Qualifikation, ärztlichen Assistenzfachkräften sowie Apothekerinnen und Apothekern in den USA kostenlos zur Verfügung.
Parallel veröffentlicht das Unternehmen mit HealthBench Professional einen neuen Benchmark für klinische KI-Aufgaben. Darauf übertrifft GPT-5.4 laut OpenAI menschliche Ärzte.
Eigener Benchmark mit eingebauter Härteprüfung
HealthBench Professional misst die Leistung von KI-Systemen in drei klinischen Anwendungsbereichen: Beratungsgespräche, Schreiben und Dokumentation und medizinische Recherche. Der Benchmark baut auf dem bereits existierenden HealthBench auf und nutzt von Ärzten verfasste Konversationen, mehrstufige ärztliche Bewertung und gezielte Datenfilterung.
Laut OpenAI wurde der Benchmark bewusst schwierig gestaltet: Etwa ein Drittel der Beispiele stammt aus gezieltem "Red Teaming", bei dem Ärzte versuchten, Schwächen der Modelle zu finden. Die schwierigsten Konversationen seien um den Faktor 3,5 überrepräsentiert.
GPT-5.4 im ChatGPT-for-Clinicians-Workspace erreicht auf HealthBench Professional einen Gesamtscore von 59,0. Von Ärzten verfasste Antworten kommen auf 43,7, obwohl die Mediziner unbegrenzt Zeit und Internetzugang hatten. Auch alle anderen getesteten Modelle liegen deutlich darunter. Das Basis-GPT-5.4 erreicht 48,1, Anthropics Claude Opus 4.7 kommt auf 47,0, Googles Gemini 3.1 Pro auf 43,8 und xAIs Grok 4.2 auf 36,1.
Im HealthBench Professional Benchmark übertrifft GPT-5.4 in der Clinicians-Version mit 59,0 Punkten sowohl andere KI-Modelle als auch die Antworten menschlicher Ärzte (43,7 Punkte). | Bild: OpenAIAuffällig in den Benchmark-Ergebnissen ist der große Abstand zwischen GPT-5.4 im Clinicians-Workspace (59,0) und dem Basis-GPT-5.4 (48,1). Das deutet darauf hin, dass die klinische Konfiguration, die spezialisierten Suchfunktionen und die kuratierten Workflows einen erheblichen Leistungsunterschied ausmachen. Ob dieser Vorsprung in der täglichen klinischen Praxis ebenso deutlich ausfällt wie auf dem Benchmark, bleibt abzuwarten.
99,6 Prozent der Antworten als sicher bewertet
Dass OpenAI seinen eigenen Benchmark erstellt und darauf die eigenen Modelle testet, ist methodisch nicht unproblematisch. Das Unternehmen verweist ergänzend auf Drittanbieter-Evaluierungen wie Stanfords MedHELM und MedMarks, auf denen OpenAI-Modelle ebenfalls Spitzenpositionen belegen sollen. Benchmark und Datensatz sind offen verfügbar.
Laut OpenAI wurde ChatGPT for Clinicians gemeinsam mit Hunderten ärztlichen Beratern entwickelt. Vor der Veröffentlichung testeten Ärzte 6.924 Konversationen in ihrem klinischen Alltag. 99,6 Prozent der Antworten seien dabei als sicher und genau bewertet worden, schreibt Karan Singhal aus OpenAIs Health-Einheit.
Bei einer Teilmenge von 355 Beispielen, für die jeweils drei unabhängige Ärzte korrekte Quellenangaben spezifizierten, habe ChatGPT for Clinicians diese Quellen häufiger zitiert als menschliche Ärzte. Insgesamt seien bislang über 700.000 Modellantworten von Ärzten überprüft worden. OpenAI betont, dass das Tool Kliniker unterstützen, nicht deren Urteil ersetzen soll.
Klinische Suche, wiederverwendbare Workflows und CME-Credits
ChatGPT for Clinicians umfasst laut OpenAI kostenlosen Zugang zu den aktuellen Frontier-Modellen des Unternehmens, eine klinische Suchfunktion über Millionen peer-reviewter medizinischer Quellen mit Quellenangaben in Echtzeit sowie eine Deep-Research-Funktion für medizinische Fachliteratur.
Hinzu kommen sogenannte "Skills", mit denen Kliniker wiederkehrende Arbeitsabläufe wie Überweisungsschreiben, Vorabgenehmigungen oder Patientenanweisungen als wiederverwendbare Vorlagen anlegen können. Ein ungewöhnliches Feature: Klinische Recherchen in ChatGPT können in den USA als Fortbildungspunkte (CME-Credits) angerechnet werden.
Auf der Datenschutzseite bietet OpenAI an, dass Konversationen nicht für das Modelltraining verwendet werden. Optionale HIPAA-Konformität über ein Business Associate Agreement ist verfügbar, falls geschützte Gesundheitsinformationen verarbeitet werden müssen.
Zunächst nur in den USA, globale Expansion geplant
ChatGPT for Clinicians ist vorerst nur für verifizierte Kliniker in den USA verfügbar. OpenAI plant eine Expansion in weitere Länder und will dafür mit dem Better Evidence Network zusammenarbeiten, um Pilotprojekte außerhalb der Vereinigten Staaten zu starten. Parallel veröffentlicht das Unternehmen ein Health Blueprint mit Empfehlungen für die verantwortungsvolle Integration von KI im US-Gesundheitswesen.
Der Hintergrund für den Vorstoß: Laut einer Umfrage der American Medical Association von 2026 nutzen inzwischen 72 Prozent der US-Ärzte KI in der klinischen Praxis, ein Anstieg von 48 Prozent im Vorjahr. Millionen von Klinikern weltweit greifen laut OpenAI bereits wöchentlich auf ChatGPT zurück, die Nutzung habe sich im vergangenen Jahr mehr als verdoppelt.
Anfang des Jahres hatte OpenAI bereits ChatGPT for Healthcare für Organisationen eingeführt, das Gesundheitssystemen Compliance- und Verwaltungskontrollen auf institutioneller Ebene bietet. Auch Anthropic, Microsoft und Google wollen mit ihren KI-Modellen in den medizinischen Markt vordringen. Google hat durch Google Deepmind hierbei einen besonderen Fokus auf die Medikamentenentwicklung.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



