KI-Begriff 3 Min. Lesezeit

TurboQuant

TurboQuant ist eine von Together AI entwickelte Quantisierungstechnik, die nahezu verlustfreie INT4-Gewichtskompression für große Sprachmodelle durch strukturierte, hardwarealignierte Quantisierung mit minimalem Kalibrierungsaufwand erreicht.


TurboQuant ist eine Post-Training-Quantisierungsmethode (PTQ) von Together AI, die Gewichte großer Sprachmodelle auf INT4-Präzision komprimiert und dabei die Modellqualität nahe am FP16-Niveau hält. Das Verfahren ist darauf ausgelegt, schnell anwendbar zu sein (kleines Kalibrierungsdatensatz genügt), die Tensor-Core-Durchsatzkapazität moderner GPUs vollständig zu nutzen und über ein breites Spektrum von Modellfamilien ohne modellspezifische Anpassung zu funktionieren.

Kernziele

Nahezu verlustfreie INT4-Kompression
TurboQuant zielt auf die W4A16-Konfiguration (INT4-Gewichte, FP16-Aktivierungen). Bei INT4 belegen Gewichte 4 statt 16 Bits, was den Gewichtsspeicher um den Faktor 4 reduziert und einen entsprechenden Durchsatzgewinn bei speicherbandbreitenbegrenzter Inferenz ermöglicht.

Hardware-Alignment
Quantisierungsgruppen und Kachelgrößen werden so gewählt, dass sie den Speicherzugriffsmustern von GPU-Tensor-Cores entsprechen und der Dequantisierungsaufwand zur Inferenzzeit minimiert wird.

Schnelle Kalibrierung
Im Gegensatz zu Methoden, die kostspielige schichtweise Optimierung oder gradientenbasiertes Feintuning erfordern, lässt sich TurboQuant mit einem kleinen ungelabelten Kalibrierungskorpus (typischerweise 512–1024 Samples) in Minuten statt Stunden anwenden.

Verwandte Quantisierungsmethoden

TurboQuant gehört zur Familie der gewichtsexklusiven PTQ-Verfahren, darunter:

  • GPTQ: Iterative Gewichtsaktualisierungen zweiter Ordnung pro Schicht; präzise, aber bei sehr großen Modellen langsam.
  • AWQ: Aktivierungsbewusste Gewichtsquantisierung über kanalweise Skalierung.
  • QuIP#: Incoherence-Processing via zufällige orthogonale Transformationen für nahezu verlustfreie INT2–INT4-Kompression.

TurboQuant fokussiert sich auf die Kombination von hardwarealigniertem INT4-Durchsatz mit einer praktischen Kalibrierungspipeline und positioniert sich damit als produktionsreife Option.

Funktionsweise der INT4-Quantisierung

LLM-Gewichte werden mittels Gruppenquantisierung komprimiert:

  1. Gewichte werden in Gruppen von g Elementen eingeteilt (üblicherweise g = 128).
  2. Für jede Gruppe werden Skalierungsfaktor und Nullpunkt aus Min-/Max-Werten berechnet.
  3. Jeder Gewichtswert wird auf die nächste ganze Zahl in [0, 15] (unsigned INT4) abgebildet.
  4. Zur Inferenzzeit werden Gewichte on-the-fly vor der Matrixmultiplikation dequantisiert.

Leistungsmerkmale

Speichereinsparungen
Ein 70B-Modell in FP16 benötigt ca. 140 GB Speicher. In W4A16 INT4 sinkt dies auf ~40 GB – ausreichend für eine einzelne A100 oder H100 mit 80 GB.

Durchsatzgewinn
Da Transformer-Inferenz während des autoregressiven Decodings oft speicherbandbreitenbegrenzt ist, kann eine 4-fache Reduktion der Gewichtsgröße nahezu einen 4-fachen Tokengenerierungsdurchsatz auf derselben Hardware ergeben – vorausgesetzt, der Dequantisierungskernel ist effizient.

Genauigkeit
Auf Standardbenchmarks (MMLU, HellaSwag, GSM8K) zeigt gut implementierte W4A16-Quantisierung typischerweise eine Verschlechterung von weniger als 1–2 Prozentpunkten gegenüber FP16, wobei größere Modelle robuster gegenüber Quantisierung sind.

Anwendungsfälle

  • Große Modelle auf weniger GPUs betreiben: Reduziert Hardware-Kosten und Deployment-Komplexität.
  • Größere Batch-Größen: Geringerer Speicherbedarf pro Token ermöglicht größere Batches.
  • Edge- und On-Device-Inferenz: Macht Modelle auf Consumer-Hardware ausführbar.
  • Kosteneffizientes API-Serving: Höherer Durchsatz pro GPU reduziert die Kosten pro Token.

TurboQuant steht für den branchenweiten Trend zur Produktion quantisierter LLMs, bei dem das Ziel ist, FP16-Qualität möglichst genau zu erreichen und gleichzeitig die Effizienzgewinne niedrigerer Präzision auf modernen Beschleunigern zu maximieren.

← Zurück zum Glossar
EU Made in Europe

Chat with 100+ AI Models in one App.

Use Claude, ChatGPT, Gemini alongside with EU-Hosted Models like Deepseek, GLM-5, Kimi K2.5 and many more.

Kundensupport