KI-Begriff 1 Min. Lesezeit

Tokenisierung

Tokenisierung zerlegt Text in Tokens, damit Sprachmodelle ihn verarbeiten können.


Tokenisierung konvertiert Zeichenketten in eine Sequenz von IDs aus einem definierten Vokabular. Verfahren wie Byte-Pair-Encoding, SentencePiece oder WordPiece entscheiden, wie grob oder fein der Text segmentiert wird. Eine gute Tokenisierung reduziert die Sequenzlänge und erhält dennoch Semantik.

Aspekte

  • Sprachabhängig: Morphologisch komplexe Sprachen profitieren von subword-basierten Tokenizern.
  • Sonderzeichen: Steuerzeichen wie BOS/EOS strukturieren Sequenzen.
  • Retrofit: Beim Wechsel des Tokenizers braucht es meist erneutes Training oder sorgfältiges Mapping.
← Zurück zum Glossar