Tokenisierung - KI & ML Glossar

Tokenisierung zerlegt Text in Tokens, damit Sprachmodelle ihn verarbeiten können.

Tokenisierung konvertiert Zeichenketten in eine Sequenz von IDs aus einem definierten Vokabular. Verfahren wie Byte-Pair-Encoding, SentencePiece oder WordPiece entscheiden, wie grob oder fein der Text segmentiert wird. Eine gute Tokenisierung reduziert die Sequenzlänge und erhält dennoch Semantik.

Aspekte

Sprachabhängig: Morphologisch komplexe Sprachen profitieren von subword-basierten Tokenizern.
Sonderzeichen: Steuerzeichen wie BOS/EOS strukturieren Sequenzen.
Retrofit: Beim Wechsel des Tokenizers braucht es meist erneutes Training oder sorgfältiges Mapping.