Tokenisierung zerlegt Text in Tokens, damit Sprachmodelle ihn verarbeiten können.
Tokenisierung konvertiert Zeichenketten in eine Sequenz von IDs aus einem definierten Vokabular. Verfahren wie Byte-Pair-Encoding, SentencePiece oder WordPiece entscheiden, wie grob oder fein der Text segmentiert wird. Eine gute Tokenisierung reduziert die Sequenzlänge und erhält dennoch Semantik.
Aspekte
- Sprachabhängig: Morphologisch komplexe Sprachen profitieren von subword-basierten Tokenizern.
- Sonderzeichen: Steuerzeichen wie BOS/EOS strukturieren Sequenzen.
- Retrofit: Beim Wechsel des Tokenizers braucht es meist erneutes Training oder sorgfältiges Mapping.