Multi-Head Attention zerlegt Aufmerksamkeit in mehrere parallele Projektionen, um verschiedene Beziehungsmuster gleichzeitig zu erfassen.
Bei Multi-Head Attention berechnet ein Transformer mehrere Attention-Köpfe parallel. Jeder Kopf fokussiert andere Aspekte – z. B. Syntax, Langstreckenbeziehungen oder Entitäten. Nach der parallelen Verarbeitung werden die Ergebnisse concateniert und erneut projiziert.
Vorteile
- Reichere Repräsentationen: Unterschiedliche Subräume lernen unterschiedliche Muster.
- Stabilität: Aufteilung verhindert, dass ein einzelner Kopf dominiert.
- Interpretierbarkeit: Attention-Maps pro Kopf helfen beim Debuggen.