GPUs sind massiv parallele Prozessoren, die KI-Training und -Inference beschleunigen.
Die GPU entstand ursprünglich für Grafikberechnung, hat sich aber zum Standardbeschleuniger für Deep Learning entwickelt. Tausende Kerne, hohe Speicherbandbreite und spezielle Tensor-Einheiten ermöglichen riesige Matrixmultiplikationen. Dank Ökosystemen wie CUDA, ROCm oder Vulkan lässt sich nahezu jedes moderne ML-Framework auf GPUs betreiben.
Gründe für den Einsatz
- Training: Großmodelle werden über mehrere GPUs per Data- oder Model-Parallelismus trainiert.
- Inference: Batch-Verarbeitung und niedrige Latenzen für Produktion.
- Flexibilität: Cloud-Instanzen und On-Prem-Racks erlauben bedarfsorientierte Skalierung.