Ein Cache speichert häufig benötigte Daten oder Berechnungen zwischen, um Zugriffe drastisch zu beschleunigen.
Ein Cache ist eine Zwischenspeicherschicht, die heiß genutzte Daten näher an die Recheneinheit bringt. In KI-Systemen gibt es mehrere Ebenen: CPU- und GPU-Caches, dedizierte Embedding-Caches für Retrieval sowie CDN-ähnliche Caches auf API-Ebene. Durch lokale Kopien sinken Latenzen, und wiederholte Berechnungen wie Tokenisierung oder Vektorabfragen müssen nicht jedes Mal neu ausgeführt werden.
Typische Strategien
- LRU und LFU: Steuerung, welche Inhalte im Cache verbleiben.
- Warmstarts: Trainingsjobs laden häufig benötigte Gewichtsmatrizen vor.
- Edge-Caching: Modelle bedienen Nutzer näher an deren Standort und reduzieren Netzwerklast.