Teraflops (TFLOPS) messen Gleitkommaoperationen pro Sekunde im Billionen-Maßstab und sind die wichtigste Kennzahl zum Vergleich der Rechenleistung von KI-Beschleunigern und GPUs.
Teraflops (TFLOPS, 10¹² Gleitkommaoperationen pro Sekunde) ist eine Einheit für den Rechendurchsatz, mit der die Spitzenrechenleistung von Prozessoren, GPUs und KI-Beschleunigern quantifiziert wird. Im Bereich des maschinellen Lernens sind TFLOPS-Werte die primäre Benchmark zum Hardwarevergleich und zur Abschätzung der Trainingskosten großer Modelle.
Definition und Maßstab
| Einheit | Operationen pro Sekunde |
|---|---|
| GFLOPS (Gigaflops) | 10⁹ |
| TFLOPS (Teraflops) | 10¹² |
| PFLOPS (Petaflops) | 10¹⁵ |
| EFLOPS (Exaflops) | 10¹⁸ |
Moderne KI-Beschleuniger werden typischerweise mit Dutzenden bis Hunderten von TFLOPS bei Standardpräzisionen bewertet, bei ganzzahligen oder spärlichen Operationen auch mit tausenden TFLOPS.
Präzision und TFLOPS
Hardware-Hersteller veröffentlichen mehrere TFLOPS-Werte je nach numerischem Format:
FP64 (doppelte Genauigkeit)
Für wissenschaftliche Simulationen; typischerweise der niedrigste Wert.
FP32 (einfache Genauigkeit)
Traditionelles Standardformat für neuronales Netzwerktraining.
BF16 / FP16 (halbe Genauigkeit)
Das dominante Format für LLM-Training. Tensor Cores erreichen hier den 2–4-fachen FP32-Durchsatz.
INT8 / FP8 (quantisiert)
Primär für Inferenz verwendet. Moderne Beschleuniger erreichen den 4–8-fachen FP16-Durchsatz bei INT8/FP8.
Sparse TFLOPS
Einige Hersteller (z. B. NVIDIA mit A100/H100) werben mit doppeltem Durchsatz durch strukturierte Dünnbesetzung, sofern ≥ 50 % der Gewichte Null sind.
TFLOPS und Trainingskosten
Der Rechenaufwand für das Training neuronaler Netze wird oft mit folgender Formel abgeschätzt:
C ≈ 6 × N × D
wobei C die Gesamt-FLOPs, N die Modellparameter und D die Trainingstokens sind. Division durch die tatsächlich erzielte TFLOPS-Leistung (unter Berücksichtigung der MFU) ergibt die geschätzte Trainingszeit.
Peak vs. tatsächliche Leistung
Die Spitzen-TFLOPS sind theoretische Maximalwerte, die in der Praxis selten erreicht werden:
- Speicherbandbreite als Engpass: Viele Operationen sind speicherbegrenzt, nicht rechenbegrenzt.
- Kernel-Effizienz: Unoptimierte Kernels nutzen oft weniger als 30 % der Spitzen-TFLOPS.
- Kommunikations-Overhead: Bei Multi-GPU-Training beanspruchen All-Reduce-Operationen Wanduhrzeit ohne Rechenleistung zu nutzen.
Model FLOP Utilization (MFU) ist die praxisrelevantere Kennzahl: Sie misst den tatsächlich genutzten Anteil der Spitzen-TFLOPS.
Teraflops vs. Tokens pro Sekunde
Für Inferenz-Workloads ist Tokens pro Sekunde oft die praktischere Kennzahl, da sie die für Nutzer relevante Latenz und den Durchsatz direkt widerspiegelt. TFLOPS bleiben jedoch unverzichtbar für Kapazitätsplanung und Hardware-Vergleiche vor der Inbetriebnahme.
Teraflops sind die gemeinsame Sprache des KI-Hardware-Vergleichs – ihre korrekte Interpretation erfordert jedoch Beachtung des Präzisionsformats, von Annahmen zur Dünnbesetzung und der Lücke zwischen Spitzen- und Dauerleistung in realen Workloads.