KI-Begriff 1 Min. Lesezeit

Multi-Head Attention

Multi-Head Attention zerlegt Aufmerksamkeit in mehrere parallele Projektionen, um verschiedene Beziehungsmuster gleichzeitig zu erfassen.


Bei Multi-Head Attention berechnet ein Transformer mehrere Attention-Köpfe parallel. Jeder Kopf fokussiert andere Aspekte – z. B. Syntax, Langstreckenbeziehungen oder Entitäten. Nach der parallelen Verarbeitung werden die Ergebnisse concateniert und erneut projiziert.

Vorteile

  • Reichere Repräsentationen: Unterschiedliche Subräume lernen unterschiedliche Muster.
  • Stabilität: Aufteilung verhindert, dass ein einzelner Kopf dominiert.
  • Interpretierbarkeit: Attention-Maps pro Kopf helfen beim Debuggen.
← Zurück zum Glossar