RoBERTa ist eine von Meta optimierte Variante des BERT-Modells mit besserem Training und größeren Datenmengen.
RoBERTa (Robustly Optimized BERT Approach) verbessert BERT durch längeres Training, größere Batchgrößen und die Entfernung der Next-Sentence-Prediction-Aufgabe. Dadurch entstehen leistungsfähigere Encoder-Modelle für Klassifikation, NER oder Suchanwendungen.
Highlights
- Datenbasis: 160 GB hochwertiger Text sorgen für breitere Sprachabdeckung.
- Hyperparameter: Dynamische Maskierung und größere Sequenzlängen erhöhen Kontext.
- Einsatz: Häufig als Ausgangspunkt für deutschsprachige Finetunes und Downstream-Tasks.