Forscher haben ein KI-Modell für Herzultraschall vorgestellt, das auf Metas JEPA-Architektur basiert und laut ihren Benchmarks gängige Verfahren wie Masked Autoencoder oder kontrastives Lernen übertrifft.
Die meisten KI-Modelle für Bild- und Videoanalyse rekonstruieren entweder verdeckte Pixel oder lernen durch den Abgleich von Bild-Text-Paaren. Beide Ansätze dominieren die Computer Vision. Ein internationales Forscherteam unter anderem von der University of Toronto, dem Vector Institute und der University of Chicago will nun gezeigt haben, dass eine dritte Methode beiden überlegen sein kann: die von Yann LeCun und seinem Team in seiner Zeit bei Meta vorgeschlagene JEPA-Architektur.
Ihr Modell EchoJEPA wurde laut dem Paper auf 18 Millionen Ultraschallvideos von 300.000 Patienten trainiert. Gängige Verfahren wie Masked Autoencoder verdecken Teile eines Bildes und zwingen das Modell, die fehlenden Pixel möglichst originalgetreu zu rekonstruieren. Das Modell muss also lernen, wie das Bild genau aussieht, inklusive aller Störungen und Artefakte. JEPA verfolgt einen anderen Ansatz: Es verdeckt ebenfalls Teile des Bildes, versucht aber nicht, die konkreten Pixel wiederherzustellen. Stattdessen sagt es eine abstrakte Repräsentation des verdeckten Bereichs vorher, eine Art komprimierte Zusammenfassung dessen, was dort inhaltlich zu sehen ist. Das Modell muss also nicht wissen, wie ein Bildausschnitt exakt aussieht, sondern nur, was er bedeutet.
Ultraschall als Härtetest für Bildverfahren
Ultraschallbilder sind voller Rauschen. Sogenannte Speckle-Muster, Schatten und Intensitätsschwankungen überlagern die eigentliche Herzanatomie. Ein Modell, das Pixel rekonstruieren muss, lernt zwangsläufig auch dieses Rauschen mit. JEPA soll das umgehen, weil das Verfahren laut den Forschern stärker zeitlich stabile Strukturen wie Herzkammern und Wandbewegungen erfasst.
Um den Effekt der Architektur zu isolieren, trainierten die Forscher ein JEPA-Modell und ein Pixel-Rekonstruktionsmodell mit identischen Daten, identischer Größe und identischem Rechenbudget. Das JEPA-Modell schnitt laut dem Paper bei der Schätzung der Herzpumpleistung um 27 Prozent besser ab. Bei der Erkennung von Ultraschall-Ansichten erreichte es mit nur einem Prozent der gelabelten Daten 79 Prozent Genauigkeit, während die beste Alternative mit sämtlichen gelabelten Daten bei 42 Prozent blieb. Unter simulierten Bildstörungen verschlechterte sich EchoJEPA um 2,3 Prozent, Konkurrenzmodelle um bis zu 16,8 Prozent.
Ohne jegliches Training auf Kinderherzen übertraf das Modell nach Angaben der Forscher alle Baselines, die explizit dafür feinabgestimmt worden waren.
Ein Datenpunkt, kein Beweis
Die Ergebnisse stammen aus den Benchmarks der Forscher selbst. Das stärkste Modell basiert auf proprietären Daten und ist nicht öffentlich verfügbar. Veröffentlicht wird lediglich eine kleinere Variante auf Basis öffentlicher Daten. Die Robustheitstests nutzen synthetische Störungen, keine realen klinischen Bedingungen. Ob sich die teils drastischen Vorsprünge dort bestätigen, muss sich also erst zeigen.
Gleichzeitig ist der kontrollierte Vergleich mit identischer Architektur, identischen Daten und identischem Rechenbudget methodisch sauber angelegt und liefert damit mehr als ein anekdotisches Ergebnis. Das Paper ist damit einer der ersten groß angelegten Praxistests für die JEPA-Architektur außerhalb von Metas eigenen Benchmarks. Ob sich der Ansatz auch in anderen Domänen als überlegen erweist oder ob Herzultraschall mit seinem hohen Rauschanteil ein besonders günstiger Sonderfall ist, bleibt vorerst eine offene Frage. Mit V-JEPA 2 gibt es allerdings ein weitere Modell, dass positive Ergebnisse vorweisen konnte.
LeCun ist nicht an EchoJEPA beteiligt, will mit den Ideen hinter JEPA aber nun in seinem neuen KI-Startup AMI Labs Weltmodelle bauen und sammelte kürzlich in Europas größter Seed-Finanzierungsrunde knapp eine Milliarde US-Dollar ein.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



