AI News

OpenAI GDPval: Benchmark misst KI-Leistung bei realen Wirtschaftsaufgaben

OpenAI führt GDPval ein, einen neuen Benchmark zur Bewertung der KI-Modell-Leistung bei wirtschaftlich wertvollen Aufgaben aus 44 Berufsfeldern. Der Benchmark testet realistische Arbeitsaufgaben statt akademischer Tests.

LLMBase Redaktion 10. März 2026 Aktualisiert 25. September 2025 2 Min. Lesezeit

OpenAI Benchmark KI-Bewertung Wirtschaft Arbeitsplatz-KI

GDPval umfasst 1.320 spezialisierte Aufgaben (220 im öffentlich verfügbaren Set), die von erfahrenen Fachkräften mit durchschnittlich über 14 Jahren Berufserfahrung entwickelt wurden. Diese Aufgaben basieren auf echten Arbeitsprodukten wie Rechtsdokumenten, Ingenieursplänen, Kundengesprächen oder Pflegeplänen.

Abkehr von akademischen Benchmarks

Bisherige KI-Bewertungen konzentrierten sich hauptsächlich auf akademische Tests wie MMLU oder Programmier-Challenges. GDPval hingegen evaluiert Modelle anhand von Aufgaben, die direkt aus der Arbeitswelt stammen. Die 44 ausgewählten Berufe verteilen sich auf neun Branchen, die jeweils über fünf Prozent zum US-amerikanischen BIP beitragen.

Der Benchmark unterscheidet sich von anderen wirtschaftsorientierten Bewertungen durch seine Vielfalt. Während SWE-Lancer sich auf Software-Entwicklung fokussiert, deckt GDPval Bereiche von Rechtswesen über Gesundheitswesen bis hin zum Ingenieurswesen ab. Die Aufgaben sind nicht einfache Textaufforderungen, sondern kommen mit Referenzdateien und Kontext - die erwarteten Ergebnisse umfassen Dokumente, Präsentationen, Diagramme und Multimedia-Inhalte.

Methodische Auswahl der Berufsfelder

OpenAI wählte die Branchen basierend auf Daten der US-Notenbank aus. Innerhalb jeder Branche identifizierte das Unternehmen die fünf Berufe mit dem höchsten Beitrag zu Löhnen und Gehältern, die primär Wissensarbeit umfassen. Die Klassifizierung als "Wissensarbeit" erfolgte über die O*NET-Datenbank des US-Arbeitsministeriums - Berufe qualifizierten sich, wenn mindestens 60 Prozent ihrer Aufgaben keine körperliche Arbeit erfordern.

Die resultierende Liste umfasst Software-Entwickler, Anwälte, Krankenschwestern, Maschinenbauingenieure, Finanzanalysten und weitere Berufsgruppen. Jede Aufgabe durchlief einen mehrstufigen Überprüfungsprozess mit durchschnittlich fünf Bewertungsrunden durch Fachexperten.

Implikationen für europäische Unternehmen

Für europäische Organisationen bietet GDPval einen praxisnahen Maßstab zur Bewertung von KI-Investitionen. Anders als abstrakte Benchmarks zeigt GDPval konkret, wo KI-Modelle bereits heute Fachkräfte unterstützen können. Dies ist besonders relevant für Unternehmen, die unter dem EU AI Act operieren und nachweisen müssen, wie KI-Systeme in kritischen Anwendungen funktionieren.

Die mehrsprachigen Teams europäischer Unternehmen sollten jedoch beachten, dass GDPval primär auf US-amerikanischen Arbeitsstrukturen basiert. Lokale Anpassungen könnten notwendig sein, um regulatorische Unterschiede und kulturelle Arbeitsweisen zu berücksichtigen.

OpenAI räumt ein, dass GDPval Limitationen aufweist. Der Benchmark erfasst nur einmalige Aufgaben und nicht die iterativen Arbeitsprozesse oder den Aufbau von Kontext über mehrere Interaktionen hinweg. Zukünftige Versionen sollen interaktive Arbeitsabläufe und kontextreichere Aufgaben einbeziehen, um die Komplexität realer Wissensarbeit besser abzubilden.

Ausblick für KI-Bewertung

GDPval zeigt eine Entwicklung hin zu praxisorientierten KI-Bewertungen auf. Für technische Teams und Führungskräfte bietet der Benchmark eine evidenzbasierte Grundlage zur Einschätzung von KI-Fähigkeiten jenseits von Laborumgebungen. Dies könnte die Diskussion über KI-Auswirkungen auf den Arbeitsmarkt auf eine faktische Basis stellen und Unternehmen bei strategischen Entscheidungen über KI-Implementierung unterstützen.

Die Veröffentlichung von GDPval signalisiert OpenAIs Fokus auf wirtschaftliche Anwendbarkeit und könnte andere Anbieter dazu veranlassen, ähnlich praxisnahe Bewertungsstandards zu entwickeln.

Die ursprüngliche Quelle zu GDPval ist auf der OpenAI-Website unter https://openai.com/index/gdpval verfügbar.

KI-News Updates

KI-News direkt ins Postfach

Wöchentliche Zusammenfassungen der neuesten KI-News. Jederzeit abmelden.

Weitere Nachrichten

Weitere aktuelle Artikel, die Sie interessieren könnten.

Grammarly Expert Review KI-Funktion führt zu Sammelklage wegen Namensrechtsverletzung

Die Grammarly Expert Review Funktion nutzte ohne Zustimmung Namen bekannter Autoren und Journalisten für KI-generierte Schreibberatung. Superhuman hat die Funktion nach öffentlicher Kritik eingestellt.

11. März 2026 · Wired

OpenAI ChatGPT Prompt Injection Abwehr: Safe Url und Social Engineering Schutz

OpenAI erklärt neue Schutzmaßnahmen gegen Prompt Injection Angriffe in ChatGPT mit Safe Url System und Social Engineering Abwehr für KI-Agenten.

11. März 2026 · OpenAI

OpenAI Responses API mit Computer-Umgebung: Von KI-Modell zu Agent

OpenAI stattet seine Responses API mit Shell-Tool und Container-Workspace aus, um skalierbare Agenten-Workflows zu ermöglichen. Analyse der neuen Agent-Architektur für europäische Entwicklerteams.

11. März 2026 · OpenAI

Wayfair OpenAI-Integration steigert Katalog-Genauigkeit und Support-Geschwindigkeit

Wayfair nutzt OpenAI-Modelle zur Verbesserung der E-Commerce-Abläufe und Produktkatalog-Qualität durch automatisierte Ticket-Bearbeitung und Attribut-Verbesserung bei Millionen von Produkten.

11. März 2026 · OpenAI

Alle Nachrichten ansehen →

Made in Europe

Chat with 100+ AI Models in one App.

Use Claude, ChatGPT, Gemini alongside with EU-Hosted Models like Deepseek, GLM-5, Kimi K2.5 and many more.

Start for free View pricing