Analyse: KI-Modelle auch als Gruppe weniger kreativ als viele Menschen

5 hours ago 1

Kreative Ausgaben von verschiedenen KI-Textgeneratoren unterscheiden sich weniger voneinander als Inhalte von Menschen, denen dieselben Aufgaben gegeben wurden. Das hat eine Forschungsgruppe der Duke University aus Durham im US-Bundesstaat North Carolina herausgefunden. Sollten sich Menschen also fragen, ob verschiedene KI-Chatbots sie mit denselben Prompts in unterschiedliche kreative Richtungen führen können, so sei die Antwort „im Prinzip nein“: „Als Gruppe sind LLMs [große Sprachmodelle] weniger kreativ als Menschen“, fasst Studienleiterin Emily Wenger die Studienergebnisse zusammen. Für die menschliche Kreativität könnte das langfristig negative Folgen haben.

In der Masse sind Menschen kreativer

Für die Forschungsarbeit hat die Gruppe 22 LLMs in drei standardisierten Tests zur Ermittlung von Kreativität gegen mehr als 100 Menschen antreten lassen. Im ersten ging es darum, möglichst viele unterschiedliche Nutzungsmöglichkeiten für ein Objekt aufzuzählen, erläutert die Universität. Dabei soll beispielsweise aufgezählt werden, dass man ein Buch auch als Türstopper, Fliegenklatsche oder Feueranzünder verwenden kann. Im zweiten sollten die Teilnehmenden und die KI-Modelle 10 verschiedene Wörter aufzählen, die sich jeweils so stark wie möglich voneinander unterscheiden sollen. Schließlich sollten alle zu einem Wort aufschreiben, welches ihnen dazu in den Sinn kommt. Das musste dann so lange wiederholt werden, bis eine Reihe von 20 Wörtern entstanden ist.

Zusammen sollen diese Übungen „divergente und dissoziative Denkfähigkeiten“ messen, die Kreativität fördern, heißt es weiter, mit eindeutigem Resultat: Während einzelne LLMs einzelne Individuen in Bezug auf ihre Kreativität überflügeln können, sei die Gesamtheit der KI-generierten Antworten einander viel ähnlicher gewesen als jene der Menschen. Beim Alternativen-Nutzungstest und beim Assoziationstest lagen einzelne LLMs sogar leicht vor einzelnen Menschen, beim Assoziationsketten-Test (Forward Flow) schnitten Menschen hingegen besser ab. Habe man die Prompts angepasst, um aus der Technik kreativere Antworten herauszukitzeln, habe das die Varianz nur geringfügig geändert. Auch dann hätten die Menschen gewonnen. Wenger ergänzt noch, dass sie das vermutet hat, immerhin werden alle KI-Modelle in etwa mit demselben Datenmaterial trainiert – der Gesamtheit des Internets – was ihre Ausgaben nivellieren dürfte.

„Diese Studie hat weitreichende Auswirkungen, da Menschen LLMs zunehmend in ihren Alltag integrieren“, meint Wenger. Eine übermäßige Abhängigkeit von diesen Werkzeugen werde dazu führen, „dass sich die weltweite Sprache immer mehr auf denselben Wortschatz und dieselbe Grammatik eingrenzt, was dazu führt, dass Texte immer ähnlicher werden“. Wer ein originelles Konzept oder Produkt entwickeln wolle, sollte laut der Analyse „eine vielfältige Gruppe von Menschen zum Brainstorming zusammenbringen, anstatt sich auf KI zu verlassen“. Die komplette Forschungsarbeit wurde jetzt im Fachjournal PNAS Nexus veröffentlicht.

(mho)

Read Entire Article