Ein Tokenizer ist das Modul, das Text in Token-IDs übersetzt und wieder zurück verwandelt.
Der Tokenizer definiert, wie Sprachmodelle Texte wahrnehmen. Er enthält ein Vokabular, Regeln zur Segmentierung und Mapping-Funktionen. Unterschiedliche Modelle nutzen verschiedene Tokenizer, weshalb Prompts nicht immer 1:1 übertragbar sind.
Funktionen
- Encoding & Decoding: Strings ↔️ Token-IDs.
- Sondertokens: BOS/EOS, System, User oder Tool-Tokens.
- Anpassung: Eigene Tokens für Produktnamen oder Domänenbegriffe verbessern Hits in Retrieval-Setups.