KI-Begriff 1 Min. Lesezeit

Datensatz

Ein Datensatz ist eine kuratierte Sammlung von Beispielen, auf deren Basis KI-Modelle lernen, validiert und getestet werden.


Der Datensatz liefert die Grundlage für jedes ML-Projekt. Er besteht aus Eingaben (z. B. Texte, Bilder, Sensorwerte) und optional Labels oder Zielwerten. Qualität, Vielfalt und Größe des Datensatzes bestimmen maßgeblich, wie robust, fair und leistungsfähig ein Modell später ist. Neben öffentlichen Benchmarks setzen Unternehmen auf proprietäre, domänenspezifische Daten, um Wettbewerbsvorteile aufzubauen.

Lebenszyklus

  • Sammeln: Datenquellen identifizieren, Rechte klären, Formate vereinheitlichen.
  • Bereinigen: Duplikate entfernen, Bias prüfen, Annotationen validieren.
  • Versionieren: Tools wie DVC oder Lakehouse-Ansätze stellen reproduzierbare Releases sicher.
← Zurück zum Glossar