
Google Research hat mit TurboQuant eine neue Komprimierungstechnik für KI-Modelle vorgestellt, die vor allem ein bekanntes Problem angehen soll: den hohen Speicherbedarf von Vektoren im sogenannten Key-Value-Cache. Gerade dort wird es bei großen Sprachmodellen schnell eng, wenn viele Informationen parallel vorgehalten werden müssen.
TurboQuant soll die benötigte Speichermenge dabei stark reduzieren, ohne die Genauigkeit der Modelle nennenswert zu verschlechtern. Zum Einsatz kommen dabei mit QJL und PolarQuant noch zwei weitere Verfahren, die zusammenarbeiten. Im besten Fall lassen sich KV-Caches auf 3 Bit herunterbrechen, bei gleichzeitig höherer Geschwindigkeit.
In Benchmarks mit Gemma, Mistral und Llama 3.1 soll TurboQuant teils eine mehr als sechsfache Speicherersparnis bringen. Bei 4-Bit-Komprimierung spricht Google auf H100-GPUs sogar von bis zu 8x mehr Leistung bei Berechnungen. Die zugrundeliegenden Papers will Google im Rahmen von ICLR 2026 und AISTATS 2026 vorstellen.
Das Thema ist vor allem deshalb wichtig, weil Speicher gerade extrem teuer und knapp geworden ist und man mit derlei Techniken größere Modelle in wesentlich weniger RAM pressen kann.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

3 weeks ago
8


