KI-Begriff 1 Min. Lesezeit

Vokabular

Das Vokabular ist die Menge aller Tokens, die ein Sprachmodell kennt und erzeugen kann.


Das Vokabular eines Tokenizers enthält jedes Symbol, das in Tokens umgewandelt wird. Dazu zählen Buchstaben, Silben, Emojis, Steuerzeichen oder firmenspezifische Begriffe. Die Größe des Vokabulars beeinflusst die Tokenlänge, Modellgröße und Speicherbedarf von Einbettungsmatrizen.

Verwaltung

  • Anpassung: Eigene Tokens verbessern Trefferquote bei Markennamen oder Produkten.
  • Versionierung: Änderungen am Vokabular erfordern neues Training oder Mappings.
  • Analyse: Häufigkeiten zeigen, welche Begriffe dominieren und wo Bias entstehen kann.
← Zurück zum Glossar