Residualverbindungen überspringen Layer und addieren Eingabe und Ausgabe, um tiefe Netze stabil zu halten.
Eine Residualverbindung führt das Eingangssignal einer Schicht unverändert weiter und addiert es zur transformierten Ausgabe. Dadurch müssen Layer nur die Abweichung („Residual“) lernen. Dieses Prinzip verhindert degradierende Genauigkeit in sehr tiefen Netzen und ist das Fundament von ResNets und Transformern.
Vorteile
- Bessere Gradientenweitergabe: Verhindert vanishing gradients.
- Schnelleres Training: Layer können leichter identitätsnahe Funktionen lernen.
- Flexibilität: Erlaubt, beliebige Blöcke zu stapeln, ohne Performanceeinbruch.