KI-Begriff 1 Min. Lesezeit

Datensatz

Ein Datensatz ist eine kuratierte Sammlung von Beispielen, auf deren Basis KI-Modelle lernen, validiert und getestet werden.


Der Datensatz liefert die Grundlage für jedes ML-Projekt. Er besteht aus Eingaben (z. B. Texte, Bilder, Sensorwerte) und optional Labels oder Zielwerten. Qualität, Vielfalt und Größe des Datensatzes bestimmen maßgeblich, wie robust, fair und leistungsfähig ein Modell später ist. Neben öffentlichen Benchmarks setzen Unternehmen auf proprietäre, domänenspezifische Daten, um Wettbewerbsvorteile aufzubauen.

Lebenszyklus

  • Sammeln: Datenquellen identifizieren, Rechte klären, Formate vereinheitlichen.
  • Bereinigen: Duplikate entfernen, Bias prüfen, Annotationen validieren.
  • Versionieren: Tools wie DVC oder Lakehouse-Ansätze stellen reproduzierbare Releases sicher.
← Zurück zum Glossar
EU Made in Europe

Chat with 100+ AI Models in one App.

Use Claude, ChatGPT, Gemini alongside with EU-Hosted Models like Deepseek, GLM-5, Kimi K2.5 and many more.

Kundensupport