Große Sprachmodelle können längst Bilder beschreiben, Diagramme interpretieren und Texte aus Fotos extrahieren. Multimodalität gilt als selbstverständliche Fähigkeit moderner KI-Systeme. Doch eine scheinbar simple Aufgabe bleibt überraschend schwierig: zuverlässig Objekte in einem Bild zu zählen.
Die Antworten darauf haben handfeste Konsequenzen, etwa für medizinische Diagnostik, landwirtschaftliche Ertragsschätzungen, Verkehrsanalysen oder die Überwachung von Großveranstaltungen. Bisher braucht es für jede dieser Aufgaben ein eigenes, spezialisiertes System.
Hier setzt "Count Anything" an, ein neues KI-Modell von Forschern unter anderem der Tsinghua-Universität. Es soll Objekte in sehr unterschiedlichen Bildtypen zählen können, etwa Köpfe in Menschenmengen, Autos auf Satellitenbildern, Zellen in medizinischen Aufnahmen oder Bakterienkolonien im Labor.
Das Grundproblem ist bekannt. Ein KI-System, das zuverlässig Köpfe in einer Menschenmenge zählt, scheitert oft an dicht gedrängten Zellen unter dem Mikroskop oder an kleinen Fahrzeugen aus der Vogelperspektive. Die Forscher wollen ein System bauen, das per Texteingabe gesteuert wird, jedes gezählte Objekt im Bild markiert und mit ganz verschiedenen Bildtypen umgehen kann.
Zwei Zähler statt einem
Die zentrale Idee ist die Kombination zweier sich ergänzender Ansätze. Der eine ist auf große, klar erkennbare Objekte spezialisiert und zeichnet Rahmen um sie herum. Der andere ist auf kleine, dicht gedrängte Objekte ausgelegt und setzt einfach Punkte auf jedes erkannte Ziel.
Count Anything kombiniert einen regionsbasierten und einen pixelbasierten Zähler, deren Ergebnisse zu einer finalen Punktmenge zusammengeführt werden. | Bild: Lei et al.Am Ende werden beide Vorhersagen zusammengeführt. Eine simple Regel sorgt dafür, dass dasselbe Objekt nicht doppelt gezählt wird. Wenn beide Zähler dasselbe Ziel erfasst haben, bleibt nur die Vorhersage mit der höheren Sicherheit.
Als Grundlage dient ein vortrainiertes Modell von Meta namens SAM3, das Bilder und Texte gemeinsam verarbeiten kann. Count Anything baut darauf auf und wird mit kleinen Zusatzkomponenten an die Zählaufgabe angepasst, statt das ganze Modell neu zu trainieren.
Ein Datensatz für sechs Bildbereiche
Damit das Modell so breit lernen kann, mussten die Forscher zuerst einen passenden Datensatz bauen. Bestehende öffentliche Datensätze waren meist auf einen einzigen Zweck zugeschnitten, etwa Tumorzellen oder Satellitenbilder. Die Forscher führten sie zusammen, bereinigten widersprüchliche Markierungen und veröffentlichten das Ergebnis als CLOC, nach eigenen Angaben der bislang größte Datensatz für textgesteuertes Zählen.
Der CLOC-Datensatz bündelt sechs sehr unterschiedliche Bilddomänen von Alltagsfotos über Satellitenaufnahmen bis zu Mikroskopie und Histopathologie. | Bild: Lei et al.Er umfasst rund 220.000 Bilder, 619 Kategorien und 15 Millionen markierte Objekte aus sechs Bereichen: Alltagsfotos, Satelliten- und Drohnenbilder, Gewebeaufnahmen aus der Medizin, Mikroskopaufnahmen von Zellen, landwirtschaftliche Bilder etwa von Weizenähren sowie Bilder von Bakterienkulturen.
Mit wachsender Menge an CLOC-Trainingsdaten sinken beide Fehlermaße deutlich, was den Nutzen großer domänenübergreifender Zähldaten unterstreicht. | Bild: Lei et al.Klarer Vorsprung auf eigenem Testfeld
Im eigenen Vergleichstest liegt Count Anything laut Paper deutlich vor konkurrierenden Systemen wie CountGD, CLIP-Count oder Grounding DINO. Im Durchschnitt verzählt sich das Modell pro abgefragter Objektkategorie in einem Bild um etwa neun Objekte. Das beste Konkurrenzmodell liegt bei mehr als doppelt so vielen Fehlern. Beim reinen Crowd-Counting, also dem Zählen von Menschen in Menschenmengen, bleibt Count Anything konkurrenzfähig, erreicht aber nicht ganz die besten spezialisierten Systeme.
Im direkten Vergleich liegt Count Anything bei den getesteten Anfragen durchgängig näher an der echten Objektzahl als CLIP-Count, CountGD++ und SAM3. | Bild: Lei et al.Die Forscher räumen weitere Grenzen ein. Bei mehrdeutigen Begriffen oder seltenen Fachausdrücken kann das Modell Objekte übersehen oder falsch einordnen. In extrem dichten Szenen mit starken Verdeckungen lässt sich zudem oft nicht mehr unterscheiden, ob zwei Vorhersagen dasselbe Objekt meinen oder zwei verschiedene. Der Code für "Count Anything" ist auf GitHub verfügbar.
Wie schwer sich aktuelle KI-Systeme mit grundlegenden visuellen Aufgaben tun, zeigte zuletzt der BabyVision-Benchmark. In Tests mit 80 Kindern lagen die meisten Frontier-Modelle unter dem Durchschnitt Dreijähriger. Selbst Spitzenmodelle wie Gemini 3 Pro erreichten dort nur knapp 50 Prozent, während Erwachsene auf über 94 Prozent kamen. Besonders deutlich war die Schwäche beim Zählen verdeckter 3D-Blöcke, wo das beste Modell nur 20,5 Prozent schaffte. Menschen lösten die Aufgabe fehlerfrei.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



