TurboQuant

TurboQuant ist eine von Together AI entwickelte Quantisierungstechnik, die nahezu verlustfreie INT4-Gewichtskompression für große Sprachmodelle durch strukturierte, hardwarealignierte Quantisierung mit minimalem Kalibrierungsaufwand erreicht.

TurboQuant ist eine Post-Training-Quantisierungsmethode (PTQ) von Together AI, die Gewichte großer Sprachmodelle auf INT4-Präzision komprimiert und dabei die Modellqualität nahe am FP16-Niveau hält. Das Verfahren ist darauf ausgelegt, schnell anwendbar zu sein (kleines Kalibrierungsdatensatz genügt), die Tensor-Core-Durchsatzkapazität moderner GPUs vollständig zu nutzen und über ein breites Spektrum von Modellfamilien ohne modellspezifische Anpassung zu funktionieren.

Kernziele

Nahezu verlustfreie INT4-Kompression
TurboQuant zielt auf die W4A16-Konfiguration (INT4-Gewichte, FP16-Aktivierungen). Bei INT4 belegen Gewichte 4 statt 16 Bits, was den Gewichtsspeicher um den Faktor 4 reduziert und einen entsprechenden Durchsatzgewinn bei speicherbandbreitenbegrenzter Inferenz ermöglicht.

Hardware-Alignment
Quantisierungsgruppen und Kachelgrößen werden so gewählt, dass sie den Speicherzugriffsmustern von GPU-Tensor-Cores entsprechen und der Dequantisierungsaufwand zur Inferenzzeit minimiert wird.

Schnelle Kalibrierung
Im Gegensatz zu Methoden, die kostspielige schichtweise Optimierung oder gradientenbasiertes Feintuning erfordern, lässt sich TurboQuant mit einem kleinen ungelabelten Kalibrierungskorpus (typischerweise 512–1024 Samples) in Minuten statt Stunden anwenden.

Funktionsweise der INT4-Quantisierung

LLM-Gewichte werden mittels Gruppenquantisierung komprimiert:

Gewichte werden in Gruppen von g Elementen eingeteilt (üblicherweise g = 128).
Für jede Gruppe werden Skalierungsfaktor und Nullpunkt aus Min-/Max-Werten berechnet.
Jeder Gewichtswert wird auf die nächste ganze Zahl in [0, 15] (unsigned INT4) abgebildet.
Zur Inferenzzeit werden Gewichte on-the-fly vor der Matrixmultiplikation dequantisiert.

Leistungsmerkmale

Speichereinsparungen
Ein 70B-Modell in FP16 benötigt ca. 140 GB Speicher. In W4A16 INT4 sinkt dies auf ~40 GB – ausreichend für eine einzelne A100 oder H100 mit 80 GB.

Durchsatzgewinn
Da Transformer-Inferenz während des autoregressiven Decodings oft speicherbandbreitenbegrenzt ist, kann eine 4-fache Reduktion der Gewichtsgröße nahezu einen 4-fachen Tokengenerierungsdurchsatz auf derselben Hardware ergeben – vorausgesetzt, der Dequantisierungskernel ist effizient.

Genauigkeit
Auf Standardbenchmarks (MMLU, HellaSwag, GSM8K) zeigt gut implementierte W4A16-Quantisierung typischerweise eine Verschlechterung von weniger als 1–2 Prozentpunkten gegenüber FP16, wobei größere Modelle robuster gegenüber Quantisierung sind.

Anwendungsfälle

Große Modelle auf weniger GPUs betreiben: Reduziert Hardware-Kosten und Deployment-Komplexität.
Größere Batch-Größen: Geringerer Speicherbedarf pro Token ermöglicht größere Batches.
Edge- und On-Device-Inferenz: Macht Modelle auf Consumer-Hardware ausführbar.
Kosteneffizientes API-Serving: Höherer Durchsatz pro GPU reduziert die Kosten pro Token.

TurboQuant steht für den branchenweiten Trend zur Produktion quantisierter LLMs, bei dem das Ziel ist, FP16-Qualität möglichst genau zu erreichen und gleichzeitig die Effizienzgewinne niedrigerer Präzision auf modernen Beschleunigern zu maximieren.

Kernziele

Verwandte Quantisierungsmethoden

Funktionsweise der INT4-Quantisierung

Leistungsmerkmale

Anwendungsfälle

Chat with 100+ AI Models in one App.