KI-Begriff 1 Min. Lesezeit

Self-Attention

Self-Attention erlaubt einem Modell, bei jeder Position dynamisch zu gewichten, wie wichtig andere Positionen derselben Sequenz sind.


Self-Attention vergleicht jedes Token mit allen anderen Tokens einer Sequenz (Query, Key, Value) und errechnet, wie stark Informationen miteinander verknüpft werden sollen. Dadurch versteht ein Transformer sowohl lokale als auch entfernte Beziehungen ohne rekursive Strukturen.

Vorteile

  • Globaler Kontext: Jedes Token sieht die Gesamteingabe.
  • Parallelisierbar: Alle Positionen werden gleichzeitig berechnet.
  • Flexibel: Durch Maskierung lassen sich kausale oder bidirektionale Modelle realisieren.
← Zurück zum Glossar