Similarity-Metriken bestimmen, wie ähnlich zwei Vektoren oder Dokumente sind und steuern somit Such- und Empfehlungssysteme.
Similarity ist das Gegenstück zur Distanz. Typische Maße sind Kosinus-Ähnlichkeit, Dot Product oder Jaccard-Index. Je höher der Wert, desto ähnlicher sind zwei Datenpunkte. Vektorbasierte Suche, Empfehlungsmaschinen und RAG-Workflows nutzen Similarity, um relevante Ergebnisse zu reihen.
Best Practices
- Normalisierung: Einheitliche Längen verhindern verzerrte Werte.
- Schwellwerte: Definierte Cut-offs trennen relevante von irrelevanten Treffern.
- Monitoring: Similarity-Distributionen zeigen an, ob Embeddings driften oder unbrauchbar werden.