KI-Begriff 1 Min. Lesezeit

LPU (Language Processing Unit)

LPUs sind Spezialchips, die Transformer-Inferenz extrem effizient verarbeiten und Tokens pro Sekunde maximieren.


Eine Language Processing Unit ist auf Sprachmodelle zugeschnitten. Aufmerksamkeit, Matrixmultiplikationen und Speicherzugriffe werden in Hardware gegossen, damit große LLMs mit minimaler Latenz antworten können. Im Gegensatz zu universellen GPUs konzentriert sich die Architektur ausschließlich auf Autoregression und Token-Streaming.

Kernideen

  • Aufmerksamkeitskerne: Dedizierte logische Einheiten berechnen Self- und Cross-Attention.
  • Speicheroptimierung: Mehrstufige Caches halten Gewichte und KV-Cache in Reichweite.
  • Inference-first: LPUs sind für Produktion gedacht, weniger für langes Training.

Vorteil für Unternehmen

Wer viele gleichartige Inferenzanfragen beantwortet, kann mit LPUs Kosten pro Anfrage und Energieverbrauch drastisch senken und gleichzeitig durch höhere Tokens-per-Second bessere Nutzererlebnisse liefern.

← Zurück zum Glossar