Apple veröffentlicht Leistungsdaten seiner beiden KI-Modelle und öffnet das kleinere System für Entwickler. Die Benchmarks werfen kein gutes Licht auf die LLM-Technik des iPhone-Herstellers.
Das Unternehmen entwickelte zwei Modelle: ein kompaktes 3-Milliarden-Parameter-Modell für Geräte und ein größeres Server-basiertes System. In Apples Benchmarks übertrifft das 3-Milliarden-Parameter-Modell das ähnlich große Qwen-2.5-3B und konkurriert mit den größeren Modellen Qwen-3-4B und Gemma-3-4B.
Das zeigt laut Apple, dass Effizienz-Optimierungen die geringere Modellgröße kompensieren können. Der Unterschied in der Parameterzahl fällt jedoch nur klein aus, weshalb die Behauptungen nicht sonderlich aussagekräftig sind.
Menschliche Bewertungen zeigen, dass Apples Foundation-Modelle (On-Device/Server) deutlich hinter OpenAIs GPT-4o-Modellen liegen; das erklärt die Partnerschaft mit OpenAI für eine ChatGPT-Integration. | Bild: AppleDas Server-basierte Modell erreicht eine ähnliche Leistung wie Llama-4-Scout. Apple hatte bislang keine Parameterzahl offiziell bekannt gegeben, es ähnele in der Größe jedoch Metas Scout-Modell, das insgesamt 109 Milliarden Parameter und 17 Milliarden aktive Parameter vorweist.
Anzeige
THE DECODER Newsletter
Die wichtigen KI-News direkt ins E-Mail-Postfach.
✓ 1x wöchentlich
✓ kostenlos
✓ jederzeit kündbar
Apple nutzt eine spezielle Architektur namens "parallel track mixture-of-experts", die mehrere kleinere KI-Systeme parallel arbeiten lässt. Gegen deutlich größere Systeme wie Qwen-3-235B und GPT-4o kann es dennoch nicht mithalten.
Apple nutzt für sein Servermodell eine Parallel-Track-MoE-Architektur, die die Kommunikation zwischen aktiven Parametern reduziert, die Leistung aber gut skalieren lässt. | Bild: AppleBildverständnis mit effizienterem Ansatz
Bei der Bilderkennung konkurriert Apples Gerät-Modell mit InternVL-2.5-4B, Qwen-2.5-VL-3B-Instruct und Gemma-3-4B. Laut Apple schneidet es besser ab als die InternVL- und Qwen-Modelle, kann mit Gemma-3-4B aber nur mithalten. Das Server-Modell übertrifft Qwen-2.5-VL-32B bei weniger als der Hälfte der Rechenoperationen, liegt aber wieder hinter Llama-4-Scout und GPT-4o.
Die Diagramme zeigen menschliche Bewertungen der Bildverständnisfähigkeiten von Apples KI-Modellen (On-Device und Server) im direkten Vergleich mit Konkurrenzmodellen. | Bild: AppleApple nutzt unterschiedliche Bilderkennungs-Systeme je nach Einsatzbereich. Das Server-Modell verwendet eine KI mit einer Milliarde Parametern, während das Gerät-Modell eine effizientere Version mit 300 Millionen Parametern einsetzt. Beide wurden mit mehr als zehn Milliarden Bild-Text-Kombinationen und 175 Millionen Dokumenten mit eingebetteten Bildern trainiert.
Entwickler erhalten nur Zugang zum kleineren Modell
Apple stellt das 3-Milliarden-Parameter-Modell über ein neues Foundation Models Framework für App-Entwickler:innen zur Verfügung. Das Modell eignet sich laut Apple für Zusammenfassungen, Informationsextraktion und Textverständnis, sei aber nicht als Chatbot für allgemeine Fragen konzipiert.
Das Framework bietet kostenlose KI-Nutzung und ist in Apples Programmiersprache Swift integriert. Entwickler:innen können ihre Datenstrukturen markieren, um automatisch passende Ausgaben zu erhalten. Eine Werkzeug-Funktion ermöglicht die Erweiterung der Modell-Fähigkeiten.
Empfehlung
Das leistungsstärkere Server-Modell bleibt hingegen Apple vorbehalten und wird ausschließlich für Apple-Intelligence-Features verwendet. Entwickler haben keinen direkten Zugang zu diesem rechenintensiveren System.
Starke Komprimierung für den Einsatz auf Geräten
Apple komprimierte das Gerät-Modell stark für iPhones und iPads, während das Server-Modell eine spezielle Kompressionstechnik aus der Grafikverarbeitung nutzt. Für die Mehrsprachigkeit erweiterte das Unternehmen das Vokabular von 100.000 auf 150.000 Begriffe.
Das Unternehmen führte kulturspezifische Tests in 15 Sprachen durch, um angemessene Antworten für verschiedene Regionen zu gewährleisten. Trainingsdaten stammen von "Hunderten Milliarden Seiten", die Apple über den Web-Crawler Applebot gesammelt hat, respektiert nach eigenen Angaben aber robots.txt-Dateien zum Ausschluss vom Training und verwende keine Daten von Nutzer:innen.
Wie sich schon im Vorfeld der diesjährigen WWDC abzeichnete, fielen Apples KI-Neuerungen etwa im Vergleich zu Konkurrent Google eher überschaubar aus. Die jetzt veröffentlichten Leistungsvergleiche bestätigen die These, dass Apples Modelle technisch nicht mit denen von Wettbewerbern wie OpenAI mithalten können.



