Forscher finden tausende erfundene KI-Quellen in biomedizinischen Fachartikeln und warnen vor Gefahr für klinische Leitlinien

1 week ago 9

Ein Audit von 2,5 Millionen biomedizinischen Papieren zeigt, dass erfundene Literaturangaben in der Peer-reviewed-Forschung inzwischen systematisch auftreten. Seit 2023 hat sich die Rate mehr als zwölffach erhöht.

Forscher der Columbia University haben in einer im Fachjournal The Lancet veröffentlichten Studie die bislang größte Prüfung von Literaturangaben in biomedizinischen Papieren vorgelegt. Das Team um Maxim Topaz durchsuchte 2,47 Millionen Papiere aus dem offenen PubMed-Central-Bestand zwischen Januar 2023 und Februar 2026.

Von 97,1 Millionen geprüften Referenzen wurden 4.046 als fabriziert eingestuft, verteilt auf 2.810 Papiere. Eine Referenz galt als fabriziert, wenn der angegebene Titel in keiner von vier großen Literaturdatenbanken auffindbar war: PubMed, Crossref, OpenAlex und Google Scholar.

Stabiles 2023, dann steiler Anstieg

Auffällig ist vor allem die zeitliche Entwicklung. Im gesamten Jahr 2023 lag die Rate bei rund vier fabrizierten Referenzen pro 10.000 Papieren und blieb stabil. Ab Mitte 2024 stieg sie dann deutlich an, erreichte Ende 2025 bereits 51,3 pro 10.000 und kletterte in den ersten sieben Wochen 2026 auf 56,9 pro 10.000. Das ist mehr als das Zwölffache des Ausgangswerts.

Die Autoren vermuten einen - naheliegenden - Zusammenhang mit dem breiten Einsatz von Sprachmodellen wie ChatGPT, der ab Ende 2022 einsetzte. Da Papiere nach der Einreichung typischerweise 100 bis 200 Tage bis zur Veröffentlichung brauchen, würden KI-gestützte Texte erst ab Mitte 2024 in größerer Zahl in PubMed Central auftauchen. Die Autoren schließen aber auch andere Ursachen nicht aus, etwa verstärkte Paper-Mill-Aktivität oder veränderte Indexierungspraktiken.

Das Problem dabei: Die erfundenen Referenzen sind auf den ersten Blick nicht erkennbar. Sie passen thematisch zum jeweiligen Papier, sind korrekt formatiert, echten Forschern zugeschrieben und tragen plausible Jahreszahlen. In einem urologischen Fachartikel etwa waren 18 von 30 geprüften Referenzen erfunden, alle passend zum engen chirurgischen Thema.

Daneben fanden die Forscher Muster, die auf koordinierte Paper-Mill-Aktivität hindeuten: Zwei Autoren tauchten in elf Papieren desselben chirurgischen Journals auf, mit insgesamt 15 erfundenen Referenzen zu Themen wie CRISPR-Diagnostik und Darmmikrobiom.

Die wissenschaftliche Infrastruktur muss auf KI reagieren

Zum Zeitpunkt des Audits hatten 98,4 Prozent der betroffenen Papiere keine Reaktion des jeweiligen Verlags erhalten. Besonders betroffen sind Übersichtsartikel, die eine um 57 Prozent höhere Fabrikationsrate aufweisen als andere Papiertypen. Das ist laut den Autoren deshalb problematisch, weil solche Reviews häufig als Grundlage für klinische Leitlinien dienen. Wenn eine Leitlinie ein Papier mit teilweise erfundenen Quellen zitiert, ist die gesamte Evidenzkette für Behandlungsentscheidungen kompromittiert.

Die wissenschaftliche Infrastruktur hat bereits damit begonnen, sich an das wachsende Problem anzupassen, bislang aber uneinheitlich: Arxiv verschärfte die Sanktionen für ungeprüfte LLM-Ausgaben in Manuskripten, darunter halluzinierte Quellen, und droht betroffenen Autoren mit einem einjährigen Ausschluss. Eine Analyse akzeptierter NeurIPS-2025-Paper hatte zuvor gezeigt, dass selbst führende KI-Konferenzen erfundene Zitationen nicht zuverlässig herausfiltern. Einen möglichen Gegenansatz liefert CiteAudit, ein Open-Source-System zur automatisierten Zitationsprüfung, das aber zugleich zeigt, wie schwer sich kommerzielle Sprachmodelle damit tun, ihr eigenes Referenzproblem verlässlich zu erkennen.

Die Forschenden empfehlen vier Maßnahmen: automatische Referenzprüfung bereits vor dem Peer Review, Integritäts-Metadaten in Artikeldatensätzen, nachträgliches Screening bereits veröffentlichter Papiere sowie eine eigene Kategorie "fabrizierte Referenzen" in Forschungsintegritätsdatenbanken. Die Autoren nutzten für die Studie selbst Claude zur Code-Entwicklung und Grammatikkorrektur.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article