MFU zeigt, wie viel Prozent der theoretischen Rechenleistung ein KI-Job tatsächlich nutzt.
MFU vergleicht die gemessenen FLOPs eines Modells mit dem Peak-Wert der Hardware.
MFU = (erreichte FLOPs / theoretische FLOPs) × 100 %
Liegt der Wert deutlich unter 100 %, verschenkt das System Potenzial – meist wegen Speicherlimits, kleiner Batches oder ineffizienter Kernels.
Optimierungshebel
- Batch-Größe & Sequenzlänge erhöhen Parallelität.
- Kernel-Fusion & Compiler-Optimierungen reduzieren Overhead.
- Präzision anpassen: FP16 oder INT8 steigern nutzbare FLOPs.