Softmax wandelt Logits in Wahrscheinlichkeiten um, indem es exponentiell gewichtet und normalisiert.
Die Softmax-Funktion transformiert ein Vektor von Logits in eine Verteilung, deren Summe eins ergibt. Größere Logits erhalten exponentiell höheren Anteil, wodurch eindeutige Entscheidungen getroffen werden können. Sprachmodelle nutzen Softmax, um das nächste Token zu bestimmen.
Eigenschaften
- Temperatur: Über einen Temperaturparameter lässt sich die Verteilung schärfen oder abflachen.
- Numerische Stabilität: Implementierungen subtrahieren den Maximalwert, um Überläufe zu vermeiden.
- Backprop: Softmax bildet mit Kreuzentropie ein effizientes Loss-Duo.