GELU (Gaussian Error Linear Unit) ist eine Aktivierungsfunktion, die glatte Übergänge zwischen linearer und nichtlinearer Verarbeitung schafft.
GELU ersetzt harte Schwellwerte durch eine probabilistische Aktivierung. Statt Werte einfach bei Null zu kappen, wie bei ReLU, gewichtet GELU Eingaben anhand einer Gaußschen CDF. Dadurch bleiben mehr Informationen erhalten, was Transformer-Modelle wie BERT oder GPT stabiler trainieren lässt.
Vorteile
- Sanfte Kurve: Keine abrupten Sprünge, wodurch Gradienten stabil bleiben.
- Bessere Genauigkeit: Besonders bei großen Sprachmodellen empirisch bewährt.
- Implementierung: In gängigen Frameworks als Standardaktivierung verfügbar.