MBU misst, wie effizient ein System die verfügbare Speicherbandbreite während KI-Workloads ausnutzt.
MBU berechnet das Verhältnis aus erreichter Speichertransferrate und theoretischem Maximum. Liegt der Wert niedrig, wartet die Hardware häufig auf Daten; bei hohen Werten wird die Bandbreite optimal genutzt. Für Training wie Inferenz liefert MBU daher eine klar nachvollziehbare Kennzahl, ob Modelle durch Speicher oder Rechenleistung limitiert sind.
Berechnung
MBU = (gemessener Durchsatz / maximale Bandbreite) × 100 %
Optimierung
- Zugriffsmuster: Lineare Loads, Prefetching und Blocking erhöhen räumliche sowie zeitliche Lokalität.
- Datenformate: Mixed Precision und Quantisierung reduzieren Datenvolumen.
- Systemdesign: Mehr Speicherkanäle, HBM und NUMA-Awareness vermeiden Bottlenecks.