KI-Modell "Count Anything" löst ein Problem, an dem multimodale KI-Modelle bisher scheitern

2 hours ago 2

Große Sprachmodelle können längst Bilder beschreiben, Diagramme interpretieren und Texte aus Fotos extrahieren. Multimodalität gilt als selbstverständliche Fähigkeit moderner KI-Systeme. Doch eine scheinbar simple Aufgabe bleibt überraschend schwierig: zuverlässig Objekte in einem Bild zu zählen.

Die Antworten darauf haben handfeste Konsequenzen, etwa für medizinische Diagnostik, landwirtschaftliche Ertragsschätzungen, Verkehrsanalysen oder die Überwachung von Großveranstaltungen. Bisher braucht es für jede dieser Aufgaben ein eigenes, spezialisiertes System.

Hier setzt "Count Anything" an, ein neues KI-Modell von Forschern unter anderem der Tsinghua-Universität. Es soll Objekte in sehr unterschiedlichen Bildtypen zählen können, etwa Köpfe in Menschenmengen, Autos auf Satellitenbildern, Zellen in medizinischen Aufnahmen oder Bakterienkolonien im Labor.

Das Grundproblem ist bekannt. Ein KI-System, das zuverlässig Köpfe in einer Menschenmenge zählt, scheitert oft an dicht gedrängten Zellen unter dem Mikroskop oder an kleinen Fahrzeugen aus der Vogelperspektive. Die Forscher wollen ein System bauen, das per Texteingabe gesteuert wird, jedes gezählte Objekt im Bild markiert und mit ganz verschiedenen Bildtypen umgehen kann.

Zwei Zähler statt einem

Die zentrale Idee ist die Kombination zweier sich ergänzender Ansätze. Der eine ist auf große, klar erkennbare Objekte spezialisiert und zeichnet Rahmen um sie herum. Der andere ist auf kleine, dicht gedrängte Objekte ausgelegt und setzt einfach Punkte auf jedes erkannte Ziel.

Architekturdiagramm des Count-Anything-Frameworks mit Text-conditioned Encoder, Region-level Sparse Counter, Pixel-level Dense Counter und Complementary Count Fusion zur Verschmelzung beider Zähl-Pfade.

Am Ende werden beide Vorhersagen zusammengeführt. Eine simple Regel sorgt dafür, dass dasselbe Objekt nicht doppelt gezählt wird. Wenn beide Zähler dasselbe Ziel erfasst haben, bleibt nur die Vorhersage mit der höheren Sicherheit.

Als Grundlage dient ein vortrainiertes Modell von Meta namens SAM3, das Bilder und Texte gemeinsam verarbeiten kann. Count Anything baut darauf auf und wird mit kleinen Zusatzkomponenten an die Zählaufgabe angepasst, statt das ganze Modell neu zu trainieren.

Ein Datensatz für sechs Bildbereiche

Damit das Modell so breit lernen kann, mussten die Forscher zuerst einen passenden Datensatz bauen. Bestehende öffentliche Datensätze waren meist auf einen einzigen Zweck zugeschnitten, etwa Tumorzellen oder Satellitenbilder. Die Forscher führten sie zusammen, bereinigten widersprüchliche Markierungen und veröffentlichten das Ergebnis als CLOC, nach eigenen Angaben der bislang größte Datensatz für textgesteuertes Zählen.

General Scene, Remote Sensing, Histopathology, Cellular Microscopy, Agriculture und Microbiology.

Er umfasst rund 220.000 Bilder, 619 Kategorien und 15 Millionen markierte Objekte aus sechs Bereichen: Alltagsfotos, Satelliten- und Drohnenbilder, Gewebeaufnahmen aus der Medizin, Mikroskopaufnahmen von Zellen, landwirtschaftliche Bilder etwa von Weizenähren sowie Bilder von Bakterienkulturen.

Liniendiagramm mit MAE und RMSE über die CLOC-Trainingsdatenmenge von 10 bis 100 Prozent, beide Fehlerwerte sinken mit mehr Daten von 14,81 auf 9,34 MAE und von 83,46 auf 33,34 RMSE.

Klarer Vorsprung auf eigenem Testfeld

Im eigenen Vergleichstest liegt Count Anything laut Paper deutlich vor konkurrierenden Systemen wie CountGD, CLIP-Count oder Grounding DINO. Im Durchschnitt verzählt sich das Modell pro abgefragter Objektkategorie in einem Bild um etwa neun Objekte. Das beste Konkurrenzmodell liegt bei mehr als doppelt so vielen Fehlern. Beim reinen Crowd-Counting, also dem Zählen von Menschen in Menschenmengen, bleibt Count Anything konkurrenzfähig, erreicht aber nicht ganz die besten spezialisierten Systeme.

Vergleichsraster der Zählvorhersagen von Count Anything, CLIP-Count, CountGD++ und SAM3 gegen die Ground Truth für die Anfragen people's heads, apples, tennis courts, cars und microbial colonies.

Die Forscher räumen weitere Grenzen ein. Bei mehrdeutigen Begriffen oder seltenen Fachausdrücken kann das Modell Objekte übersehen oder falsch einordnen. In extrem dichten Szenen mit starken Verdeckungen lässt sich zudem oft nicht mehr unterscheiden, ob zwei Vorhersagen dasselbe Objekt meinen oder zwei verschiedene. Der Code für "Count Anything" ist auf GitHub verfügbar.

Wie schwer sich aktuelle KI-Systeme mit grundlegenden visuellen Aufgaben tun, zeigte zuletzt der BabyVision-Benchmark. In Tests mit 80 Kindern lagen die meisten Frontier-Modelle unter dem Durchschnitt Dreijähriger. Selbst Spitzenmodelle wie Gemini 3 Pro erreichten dort nur knapp 50 Prozent, während Erwachsene auf über 94 Prozent kamen. Besonders deutlich war die Schwäche beim Zählen verdeckter 3D-Blöcke, wo das beste Modell nur 20,5 Prozent schaffte. Menschen lösten die Aufgabe fehlerfrei.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article