KI-Begriff 1 Min. Lesezeit

Tokenizer

Ein Tokenizer ist das Modul, das Text in Token-IDs übersetzt und wieder zurück verwandelt.


Der Tokenizer definiert, wie Sprachmodelle Texte wahrnehmen. Er enthält ein Vokabular, Regeln zur Segmentierung und Mapping-Funktionen. Unterschiedliche Modelle nutzen verschiedene Tokenizer, weshalb Prompts nicht immer 1:1 übertragbar sind.

Funktionen

  • Encoding & Decoding: Strings ↔️ Token-IDs.
  • Sondertokens: BOS/EOS, System, User oder Tool-Tokens.
  • Anpassung: Eigene Tokens für Produktnamen oder Domänenbegriffe verbessern Hits in Retrieval-Setups.
← Zurück zum Glossar
EU Made in Europe

Chat with 100+ AI Models in one App.

Use Claude, ChatGPT, Gemini alongside with EU-Hosted Models like Deepseek, GLM-5, Kimi K2.5 and many more.

Kundensupport