Cache - KI & ML Glossar

Ein Cache speichert häufig benötigte Daten oder Berechnungen zwischen, um Zugriffe drastisch zu beschleunigen.

Ein Cache ist eine Zwischenspeicherschicht, die heiß genutzte Daten näher an die Recheneinheit bringt. In KI-Systemen gibt es mehrere Ebenen: CPU- und GPU-Caches, dedizierte Embedding-Caches für Retrieval sowie CDN-ähnliche Caches auf API-Ebene. Durch lokale Kopien sinken Latenzen, und wiederholte Berechnungen wie Tokenisierung oder Vektorabfragen müssen nicht jedes Mal neu ausgeführt werden.

Typische Strategien

LRU und LFU: Steuerung, welche Inhalte im Cache verbleiben.
Warmstarts: Trainingsjobs laden häufig benötigte Gewichtsmatrizen vor.
Edge-Caching: Modelle bedienen Nutzer näher an deren Standort und reduzieren Netzwerklast.