Deutsche Forscher zeigen, wie KI-Modelle effizienter und günstiger werden können

2 months ago 12

10. Februar 2026 Bernd Müller

KI-Gehirnschaltung als Symbol für maschinelles Lernen, Automatisierung, Datenverarbeitung und fortschrittliche Analytik, die moderne Unternehmensinnovation fördert Parse

Forscher entdecken überraschenden Trick: KI-Modelle brauchen das Gegenteil von dem, was alle dachten.

Viele werden die Situation kennen: Bevor man zum Spaziergang aufbricht, schaut man aus dem Fenster und fragt sich, ob man vielleicht einen Regenschirm mitnehmen sollte. Solche und ähnliche Fragen lassen sich heute Millionen Menschen von einem KI-Chatbot beantworten.

Wie gut die Antwort ausfällt, hängt nicht nur damit zusammen, auf welche Daten der KI-Chatbot zugreifen kann, sondern auch von der Qualität des eigenen KI-Modells. Besonders wichtig ist hier die Balance zwischen linearen und nichtlinearen Komponenten.

Was bedeutet Linearität bei KI-Modellen?

Ein lineares Modell reagiert proportional auf seine Eingaben. Verdoppelt sich der Input, verdoppelt sich auch der Output. Das funktioniert wie bei einer einfachen Formel.

Nichtlineare Modelle arbeiten anders. Sie können die gleiche Information unterschiedlich verarbeiten. Das hängt davon ab, in welchem Zusammenhang sie auftritt.

Ein Beispiel dafür ist das Wort "Bank", an dem sich der Unterschied gut darstellen lässt. Es kann ein Finanzinstitut bezeichnen, aber auch eine Sitzgelegenheit. Welche Bedeutung gemeint ist, erschließt sich aus dem Kontext.

Doch lineare Systeme verstehen solche Unterschiede nicht. Soll nun Sprache verarbeitet oder sollen Muster erkannt werden, sind deshalb nichtlineare Fähigkeiten unverzichtbar.

Das Problem der Trainingskosten

Allerdings verursacht Nichtlinearität hohe Kosten. Große Transformer-Modelle benötigen beim Training enorme Rechenkapazitäten. Weltweit entstehen deshalb Rechenzentren mit gigantischem Stromverbrauch.

Lineare Modelle lassen sich deutlich günstiger trainieren. Aber sie können eben keine komplexen Kontexte verarbeiten.

Gesucht wird also ein Kompromiss. Ein System, das kontextabhängig arbeiten kann, ohne die vollen Ressourcen zu verschlingen. Sowohl lineare als auch Transformer-Modelle unterstützen paralleles Training. Das ermöglicht die Verarbeitung großer Datenmengen.

Die Frage lautet: Wie viel Nichtlinearität benötigt ein Modell wirklich?

Tests an verschiedenen Aufgaben

Forscher aus Frankfurt und Heidelberg sind dieser Frage nachgegangen. Sie testeten verschiedene Modelle an unterschiedlichen Problemen. Dazu gehörten Textklassifizierung, Bilderkennung und kognitive Tests.

Diese Bandbreite half dabei, herauszufinden, wo Nichtlinearität tatsächlich nötig ist. Und wo lineare Verarbeitung ausreicht.

Das Ergebnis überraschte. Modelle mit dosierter Nichtlinearität schnitten in vielen Fällen am besten ab. Sie übertrafen sowohl rein lineare als auch komplett nichtlineare Varianten.

Besonders deutlich zeigte sich das bei kleinen Datenmengen. Aber auch bei größeren Datensätzen blieben diese Hybridmodelle konkurrenzfähig.

Nichtlineare Einheiten als Schalter

Wie funktioniert das? Die nichtlinearen Komponenten wirken wie Weichen im System. Sie schalten zwischen verschiedenen linearen Wegen um. Das geschieht abhängig vom jeweiligen Kontext.

Für die Untersuchung nutzten die Wissenschaftler sogenannte Almost Linear Recurrent Neural Networks. Diese Architektur erlaubt es, den nichtlinearen Anteil gezielt zu verändern. Und die Auswirkungen zu messen.

Die stufenweise lineare Struktur macht sichtbar, welche Mechanismen ablaufen. Funktionen wie Gating oder regelbasierte Integration lassen sich direkt erkennen. Das ist ein großer Vorteil gegenüber undurchsichtigen Modellen.

Mehrfacher Nutzen für die Praxis

Weil Nichtlinearität auf wenige Stellen konzentriert ist, kann nachvollzogen werden, wo das Modell sie einsetzt. Das verbessert die Interpretierbarkeit erheblich.

Zudem sinken die Rechenkosten. Denn es sind weniger nichtlineare Operationen nötig. In Szenarien mit mehreren Aufgaben fördert sparsame Nichtlinearität zudem gemeinsame Muster. Statt stark verteilter Repräsentationen.

Ein weiterer Vorteil zeigt sich bei begrenzten Trainingsdaten. Hier wirkt die dosierte Nichtlinearität als hilfreiche Vorannahme. Wenn Aufgaben diskretes Umschalten zwischen Modi erfordern, erreichen dosiert nichtlineare Modelle oft bessere Ergebnisse. Sie übertreffen dann ihre vollständig nichtlinearen Gegenstücke.

Erkenntnisse für die Hirnforschung

So wie sich in den Experimenten zeigte, können dosiert nichtlineare Systeme auch in den Neurowissenschaften hilfreich sein. Die Modelle können nicht nur neuronale Aufzeichnungen analysieren, sondern sie helfen auch dabei, die Funktionsprinzipien des Gehirns zu verstehen.

So konnten sie zeigen, dass das Gehirn ähnlich funktioniert, wie die hybriden KI-Modelle: Das Gedächtnis arbeitet demnach mit linearen Prozessen. Gerechnet wird dagegen durch gezielt nichtlineare Mechanismen.

Ein Bauplan für künftige Entwicklungen

Die Forscher empfehlen, dosierte Nichtlinearität als Gestaltungsprinzip von neuen KI-Modellen zu etablieren. Statt reflexartig auf maximale Nichtlinearität zu setzen, sollten Entwickler bewusst abwägen: Wo ist sie wirklich nötig?

Das spart Ressourcen. Und hilft dabei, die Systeme besser nachvollziehen zu können.

Read Entire Article