Teraflops

Teraflops (TFLOPS) messen Gleitkommaoperationen pro Sekunde im Billionen-Maßstab und sind die wichtigste Kennzahl zum Vergleich der Rechenleistung von KI-Beschleunigern und GPUs.

Teraflops (TFLOPS, 10¹² Gleitkommaoperationen pro Sekunde) ist eine Einheit für den Rechendurchsatz, mit der die Spitzenrechenleistung von Prozessoren, GPUs und KI-Beschleunigern quantifiziert wird. Im Bereich des maschinellen Lernens sind TFLOPS-Werte die primäre Benchmark zum Hardwarevergleich und zur Abschätzung der Trainingskosten großer Modelle.

Definition und Maßstab

Einheit	Operationen pro Sekunde
GFLOPS (Gigaflops)	10⁹
TFLOPS (Teraflops)	10¹²
PFLOPS (Petaflops)	10¹⁵
EFLOPS (Exaflops)	10¹⁸

Moderne KI-Beschleuniger werden typischerweise mit Dutzenden bis Hunderten von TFLOPS bei Standardpräzisionen bewertet, bei ganzzahligen oder spärlichen Operationen auch mit tausenden TFLOPS.

Präzision und TFLOPS

Hardware-Hersteller veröffentlichen mehrere TFLOPS-Werte je nach numerischem Format:

FP64 (doppelte Genauigkeit)
Für wissenschaftliche Simulationen; typischerweise der niedrigste Wert.

FP32 (einfache Genauigkeit)
Traditionelles Standardformat für neuronales Netzwerktraining.

BF16 / FP16 (halbe Genauigkeit)
Das dominante Format für LLM-Training. Tensor Cores erreichen hier den 2–4-fachen FP32-Durchsatz.

INT8 / FP8 (quantisiert)
Primär für Inferenz verwendet. Moderne Beschleuniger erreichen den 4–8-fachen FP16-Durchsatz bei INT8/FP8.

Sparse TFLOPS
Einige Hersteller (z. B. NVIDIA mit A100/H100) werben mit doppeltem Durchsatz durch strukturierte Dünnbesetzung, sofern ≥ 50 % der Gewichte Null sind.

TFLOPS und Trainingskosten

Der Rechenaufwand für das Training neuronaler Netze wird oft mit folgender Formel abgeschätzt:

C ≈ 6 × N × D

wobei C die Gesamt-FLOPs, N die Modellparameter und D die Trainingstokens sind. Division durch die tatsächlich erzielte TFLOPS-Leistung (unter Berücksichtigung der MFU) ergibt die geschätzte Trainingszeit.

Peak vs. tatsächliche Leistung

Die Spitzen-TFLOPS sind theoretische Maximalwerte, die in der Praxis selten erreicht werden:

Speicherbandbreite als Engpass: Viele Operationen sind speicherbegrenzt, nicht rechenbegrenzt.
Kernel-Effizienz: Unoptimierte Kernels nutzen oft weniger als 30 % der Spitzen-TFLOPS.
Kommunikations-Overhead: Bei Multi-GPU-Training beanspruchen All-Reduce-Operationen Wanduhrzeit ohne Rechenleistung zu nutzen.

Model FLOP Utilization (MFU) ist die praxisrelevantere Kennzahl: Sie misst den tatsächlich genutzten Anteil der Spitzen-TFLOPS.

Teraflops vs. Tokens pro Sekunde

Für Inferenz-Workloads ist Tokens pro Sekunde oft die praktischere Kennzahl, da sie die für Nutzer relevante Latenz und den Durchsatz direkt widerspiegelt. TFLOPS bleiben jedoch unverzichtbar für Kapazitätsplanung und Hardware-Vergleiche vor der Inbetriebnahme.

Teraflops sind die gemeinsame Sprache des KI-Hardware-Vergleichs – ihre korrekte Interpretation erfordert jedoch Beachtung des Präzisionsformats, von Annahmen zur Dünnbesetzung und der Lücke zwischen Spitzen- und Dauerleistung in realen Workloads.

Definition und Maßstab

Präzision und TFLOPS

TFLOPS und Trainingskosten

Peak vs. tatsächliche Leistung

Teraflops vs. Tokens pro Sekunde

Chat with 100+ AI Models in one App.