In der KI-Entwicklung klaut scheinbar jeder bei jedem. Bezeichnend ist aber, wer sich darüber beschwert. Google, Meta und Open AI treten Urheberrechte mit Füssen. Ausser es geht um ihr geistiges Eigentum.

Illustration Simon Tanner / NZZ
Der chinesische Chatbot Deepseek muss erst überlegen, wer ihn entwickelt hat. Auf die Frage, ob es das amerikanische KI-Unternehmen Open AI war, antwortet Deepseek erst mit Ja, dann mit Nein. Im «Deepthink»-Modus, der die Gedankengänge des Modells offenlegt, schreibt die KI, sie sei von Open AI entwickelt worden. Danach konsultiert sie die eigenen Richtlinien und korrigiert sich. Schliesslich einigt sich Deepseek im Selbstgespräch darauf: «Ich bin von Deepseek entwickelt worden, basiere aber auf der GPT-Architektur. Wie kann ich dir heute helfen?»
Optimieren Sie Ihre Browsereinstellungen
NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.
Bitte passen Sie die Einstellungen an.
Deepseek im Modus, der die Gedankengänge offenlegt. Test der NZZ.
Deepseek
Bei anderen Chatbots würde man das vermutlich als Halluzination abtun. KI erfindet manchmal eben Dinge, die nicht stimmen. Doch Deepseek scheint gute Gründe für diese Antwort zu haben. Schliesslich beklagten sich Open AI und Microsoft diese Woche darüber, dass Deepseek Daten von Chat-GPT geklaut habe.
Demnach hätten die Deepseek-Ingenieure einen Trick angewandt, um über eine Programmierschnittstelle in Chat-GPT Daten im grossen Stil zu «destillieren». Entgegen den Nutzungsbedingungen von Open AI habe Deepseek so Chat-GPT genutzt, um darauf sein eigenes Modell zu trainieren. Dies berichteten Bloomberg und die «Financial Times» übereinstimmend nach Gesprächen mit anonymen Quellen innerhalb der Firmen.
Open AI galt bisher als Vorreiter in der Entwicklung von KI. Bis sie mit der Veröffentlichung von Deepseek R1 Mitte Januar jäh entthront wurde. Nun versucht Open AI die öffentliche Wahrnehmung von Deepseek zu beeinflussen. Denn Deepseek mag als der neue KI-Star gefeiert werden – doch basiert sein Erfolg nur auf geklauten Daten der angeblich viel innovativeren amerikanischen Open AI?
Dass sich Deepseek tatsächlich einiges von Chat-GPT abgeschaut hat, halten Experten für wahrscheinlich. Gregory C. Allen, Direktor einer KI-Forschungsgruppe am Center for Strategic and International Studies (CSIS) in den USA, sagte in einem Podcast, Deepseek habe es geschafft, mit den richtigen Prompts die Trainingsdaten hinter Chat-GPT abzugreifen. Damit sparte sich die chinesische Firma den aufwendigen Prozess, mit dem amerikanische Tech-Firmen ihre KI trainiert hatten: nämlich Millionen von Webseiten zu analysieren und deren Texte, Musik, Bilder, Videos abzugreifen.
Spott in den sozialen Netzwerken
Dass sich Open AI öffentlich darüber beschwert, dass ihre Daten, also ihr geistiges Eigentum, abgegriffen würden, ruft Spott in den sozialen Netzwerken und Schadenfreude bei Verlagen und Medienhäusern hervor. «Oh, Dear», titelt das «Wall Street Journal», «hat jemand etwas von Open AI gestohlen?»
Schliesslich war es Open AI, die ohne Einwilligung der Urheber Daten von Millionen von Webseiten in ihre Modelle einspeiste. Weil Dienste wie der Bildgenerator Dall-E als Resultat davon Bilder im Stil einzelner Künstler nachmachen können, fürchten manche Künstler nun, dass die KI ihre Arbeit automatisiert und ihnen langfristig die Lebensgrundlage entzieht.
Auch Medienunternehmen wehren sich gegen die Verwendung ihrer Inhalte durch Open AI. Neben der «New York Times» klagten acht weitere amerikanische Zeitungen gegen Open AI, weil das Unternehmen ihre Artikel mutmasslich für das Training der KI verwendet hatte, ohne die Verlage dafür zu entschädigen.
Derweil weichen Tech-Konzerne Fragen nach ihren Trainingsdaten immer wieder aus. In einem Interview mit dem «Wall Street Journal» behauptete Mira Murati, ehemalige Technologie-Chefin von Open AI, sie wisse nicht, ob der Videogenerator Sora mit Daten von Youtube, Instagram und Facebook trainiert worden sei. Dabei sind die Ähnlichkeiten zwischen Videos von Sora und jenen von urheberrechtlich geschützten Quellen so offensichtlich, dass jeder Versuch, sie wegzureden, kläglich scheitert.
Die ehemalige Technologie-Chefin von Open AI im Interview mit Joanna Stern vom «Wall Street Journal».
WSJ
Jeder klaut bei jedem
Wie gerne sich die Tech-Konzerne gegenseitig beklauen, zeigen interne Informationen von Open AI, die der «New York Times» zugetragen wurden. Demnach nutzte Open AI die Software Whisper, um mehr als eine Million Stunden Youtube-Videos zu transkribieren. Die Texte nutzte Open AI wiederum als Trainingsmaterial, obwohl das den Nutzungsbedingungen von Youtube widerspricht.
Alphabet, der Konzern, zu dem Youtube gehört, wehrte sich allerdings nicht öffentlich. Das hatte gute Gründe, schliesslich bediente sich die Alphabet-Tochter Google ebenfalls bei Youtube als Quelle für Trainingsdaten.
Aufzeichnungen interner Meetings von Meta zeigen ausserdem, wie weit der Mutterkonzern von Facebook und Instagram für mehr Trainingsdaten zu gehen bereit war. Die «New York Times» berichtete, dass Manager, Anwälte und Ingenieure von Meta erst überlegt hätten, den renommierten Verlag Simon & Schuster zu kaufen, um die Bücher des Verlags als Trainingsdaten zu nutzen. Meta entschied sich dann dagegen.
Stattdessen sammelte Meta die teilweise urheberrechtlich geschützten Bücher, Zeitschriften und Hörbücher des Verlags im Internet zusammen. Das erschien Meta einfacher und schneller, als Lizenzvereinbarungen mit dem Verlag, seinen Künstlern und Autoren zu schliessen. Die Kosten und den Zeitaufwand für Rechtsstreitigkeiten mit den Urhebern hatte Meta dabei einkalkuliert.
Gegenseitiges Abschreiben und Abgreifen von Daten anderer scheint in der KI-Szene also gängige Praxis. Aber von chinesischen Unternehmen mögen sich das Open AI und Microsoft offenbar nur ungern gefallen lassen. Insbesondere, weil Deepseek ähnliche Services wie Open AI bietet, zu einem Bruchteil des Preises.


