KI-Begriff 1 Min. Lesezeit

Tokenizer

Ein Tokenizer ist das Modul, das Text in Token-IDs übersetzt und wieder zurück verwandelt.


Der Tokenizer definiert, wie Sprachmodelle Texte wahrnehmen. Er enthält ein Vokabular, Regeln zur Segmentierung und Mapping-Funktionen. Unterschiedliche Modelle nutzen verschiedene Tokenizer, weshalb Prompts nicht immer 1:1 übertragbar sind.

Funktionen

  • Encoding & Decoding: Strings ↔️ Token-IDs.
  • Sondertokens: BOS/EOS, System, User oder Tool-Tokens.
  • Anpassung: Eigene Tokens für Produktnamen oder Domänenbegriffe verbessern Hits in Retrieval-Setups.
← Zurück zum Glossar