Quantisierung - KI & ML Glossar

Quantisierung reduziert die numerische Präzision eines Modells, um Speicher und Rechenaufwand zu sparen.

Bei der Quantisierung werden Gewichte und Aktivierungen von Float32 auf Float16, INT8 oder noch niedrigere Formate projiziert. Moderne Techniken erhalten die Modellqualität durch Skalenfaktoren, Per-Channel-Statistiken oder Nachkalibrierung. So lassen sich große Sprachmodelle auf kleinere GPUs oder Edge-Geräte bringen.

Varianten

Post-Training-Quantization: Nachträgliche Umwandlung mit Kalibrier-Daten.
Quantization-Aware-Training: Modell lernt bereits während des Trainings mit reduzierter Präzision.
Hybrid: Kritische Layer bleiben in höherer Präzision, andere werden aggressiv quantisiert.