Perplexity misst, wie gut ein Sprachmodell die nächste Token-Sequenz vorhersieht – je niedriger, desto besser.
Perplexity ist ein Exponentialmaß der Cross-Entropy und spiegelt wider, wie „verwirrt“ ein Modell beim Vorhersagen des nächsten Tokens ist. Niedrige Werte bedeuten, dass die Wahrscheinlichkeit auf das richtige Token hoch war. Perplexity dient daher als Standardmetrik, um Sprachmodelle über Datensätze hinweg vergleichbar zu evaluieren.
Hinweise
- Domänenspezifisch: Werte sind nur im Kontext des Datensatzes aussagekräftig.
- A/B-Tests: Kleine Verbesserungen können große Qualitätsunterschiede bedeuten.
- Grenzen: Gute Perplexity garantiert nicht automatisch faktentreue Antworten.