
Apple hat gemeinsam mit der University of Wisconsin-Madison eine neue Methode für die Bildbeschreibung von KI-Modellen vorgestellt. Konkret geht es um sogenanntes Dense Image Captioning, also sehr detaillierte Beschreibungen einzelner Bildbereiche statt nur einer groben Zusammenfassung des gesamten Motivs. Das ist etwa für Barrierefreiheit, Bildsuche oder auch das Training anderer multimodaler Modelle spannend.

Der Ansatz nennt sich RubiCap (Paper) und setzt auf eine Mischung aus mehreren bestehenden Modellen sowie Reinforcement Learning. Laut Studie werden Bilder mit verschiedenen KI-Modellen beschrieben, anschließend bewertet ein weiteres System die Ergebnisse anhand klar definierter Kriterien. So soll das trainierte Modell gezielter lernen, was fehlt oder falsch dargestellt wurde.
Am Ende kamen Modelle mit 2, 3 und 7 Milliarden Parametern heraus. Schon das 3B-Modell soll in einzelnen Benchmarks größere Konkurrenz hinter sich lassen. Es braucht also nicht immer die ganz großen Modelle. Wer tiefer einsteigen will, findet die komplette Studie bei Apple. Wann und ob das Ganze mal in Apples Software Benutzung findet, wird sich zeigen.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

3 weeks ago
20


