AI News

OpenAI GDPval: Benchmark misst KI-Leistung bei realen Wirtschaftsaufgaben

OpenAI führt GDPval ein, einen neuen Benchmark zur Bewertung der KI-Modell-Leistung bei wirtschaftlich wertvollen Aufgaben aus 44 Berufsfeldern. Der Benchmark testet realistische Arbeitsaufgaben statt akademischer Tests.

LLMBase Redaktion Aktualisiert 25. September 2025 2 Min. Lesezeit
OpenAI Benchmark KI-Bewertung Wirtschaft Arbeitsplatz-KI

GDPval umfasst 1.320 spezialisierte Aufgaben (220 im öffentlich verfügbaren Set), die von erfahrenen Fachkräften mit durchschnittlich über 14 Jahren Berufserfahrung entwickelt wurden. Diese Aufgaben basieren auf echten Arbeitsprodukten wie Rechtsdokumenten, Ingenieursplänen, Kundengesprächen oder Pflegeplänen.

Abkehr von akademischen Benchmarks

Bisherige KI-Bewertungen konzentrierten sich hauptsächlich auf akademische Tests wie MMLU oder Programmier-Challenges. GDPval hingegen evaluiert Modelle anhand von Aufgaben, die direkt aus der Arbeitswelt stammen. Die 44 ausgewählten Berufe verteilen sich auf neun Branchen, die jeweils über fünf Prozent zum US-amerikanischen BIP beitragen.

Der Benchmark unterscheidet sich von anderen wirtschaftsorientierten Bewertungen durch seine Vielfalt. Während SWE-Lancer sich auf Software-Entwicklung fokussiert, deckt GDPval Bereiche von Rechtswesen über Gesundheitswesen bis hin zum Ingenieurswesen ab. Die Aufgaben sind nicht einfache Textaufforderungen, sondern kommen mit Referenzdateien und Kontext - die erwarteten Ergebnisse umfassen Dokumente, Präsentationen, Diagramme und Multimedia-Inhalte.

Methodische Auswahl der Berufsfelder

OpenAI wählte die Branchen basierend auf Daten der US-Notenbank aus. Innerhalb jeder Branche identifizierte das Unternehmen die fünf Berufe mit dem höchsten Beitrag zu Löhnen und Gehältern, die primär Wissensarbeit umfassen. Die Klassifizierung als "Wissensarbeit" erfolgte über die O*NET-Datenbank des US-Arbeitsministeriums - Berufe qualifizierten sich, wenn mindestens 60 Prozent ihrer Aufgaben keine körperliche Arbeit erfordern.

Die resultierende Liste umfasst Software-Entwickler, Anwälte, Krankenschwestern, Maschinenbauingenieure, Finanzanalysten und weitere Berufsgruppen. Jede Aufgabe durchlief einen mehrstufigen Überprüfungsprozess mit durchschnittlich fünf Bewertungsrunden durch Fachexperten.

Implikationen für europäische Unternehmen

Für europäische Organisationen bietet GDPval einen praxisnahen Maßstab zur Bewertung von KI-Investitionen. Anders als abstrakte Benchmarks zeigt GDPval konkret, wo KI-Modelle bereits heute Fachkräfte unterstützen können. Dies ist besonders relevant für Unternehmen, die unter dem EU AI Act operieren und nachweisen müssen, wie KI-Systeme in kritischen Anwendungen funktionieren.

Die mehrsprachigen Teams europäischer Unternehmen sollten jedoch beachten, dass GDPval primär auf US-amerikanischen Arbeitsstrukturen basiert. Lokale Anpassungen könnten notwendig sein, um regulatorische Unterschiede und kulturelle Arbeitsweisen zu berücksichtigen.

OpenAI räumt ein, dass GDPval Limitationen aufweist. Der Benchmark erfasst nur einmalige Aufgaben und nicht die iterativen Arbeitsprozesse oder den Aufbau von Kontext über mehrere Interaktionen hinweg. Zukünftige Versionen sollen interaktive Arbeitsabläufe und kontextreichere Aufgaben einbeziehen, um die Komplexität realer Wissensarbeit besser abzubilden.

Ausblick für KI-Bewertung

GDPval zeigt eine Entwicklung hin zu praxisorientierten KI-Bewertungen auf. Für technische Teams und Führungskräfte bietet der Benchmark eine evidenzbasierte Grundlage zur Einschätzung von KI-Fähigkeiten jenseits von Laborumgebungen. Dies könnte die Diskussion über KI-Auswirkungen auf den Arbeitsmarkt auf eine faktische Basis stellen und Unternehmen bei strategischen Entscheidungen über KI-Implementierung unterstützen.

Die Veröffentlichung von GDPval signalisiert OpenAIs Fokus auf wirtschaftliche Anwendbarkeit und könnte andere Anbieter dazu veranlassen, ähnlich praxisnahe Bewertungsstandards zu entwickeln.

Die ursprüngliche Quelle zu GDPval ist auf der OpenAI-Website unter https://openai.com/index/gdpval verfügbar.

KI-News Updates

KI-News direkt ins Postfach

Wöchentliche Zusammenfassungen der neuesten KI-News. Jederzeit abmelden.

EU Made in Europe

Chat with 100+ AI Models in one App.

Use Claude, ChatGPT, Gemini alongside with EU-Hosted Models like Deepseek, GLM-5, Kimi K2.5 and many more.