AI News
OpenAI Anthropic Safety Evaluation - Erste branchenweite KI-Sicherheitstests zwischen Labs
OpenAI und Anthropic veröffentlichen Ergebnisse ihrer ersten gemeinsamen Safety Evaluation, bei der beide Unternehmen ihre KI-Modelle auf Sicherheitsrisiken und Misalignment testeten.
Umfang und Methodik der Safety Tests
Die Safety Evaluation zwischen OpenAI und Anthropic testete die Modelle in vier kritischen Bereichen: Instruction Hierarchy, Jailbreaking-Resistenz, Halluzinationen und Scheming-Verhalten. OpenAI führte interne Sicherheitstests an Anthropics Claude-Modellen durch, während Anthropic parallel OpenAIs Modelle evaluierte.
Für die Tests lockerten beide Unternehmen externe Sicherheitsmechanismen, um die eigentlichen Modellkapazitäten zu bewerten - eine Standardpraxis bei Capability-Evaluationen. Die Claude-Tests liefen über öffentliche APIs, meist mit aktiviertem Reasoning. OpenAI betont, dass die Ergebnisse Modelltendenzen in schwierigen Testumgebungen zeigen, nicht das reale Nutzungsverhalten.
Zentrale Erkenntnisse zu Claude und OpenAI Modellen
Bei der Instruction Hierarchy zeigten Claude 4-Modelle starke Leistungen und übertrafen andere Modelle beim Vermeiden von Konflikten zwischen System- und Nutzernachrichten. Claude performte ähnlich gut wie OpenAIs beste Reasoning-Modelle bei der Resistenz gegen System-Prompt-Extraktion.
Beim Jailbreaking schnitten Claude-Modelle schlechter ab als OpenAI o3 und o4-mini. Interessant: Claude mit deaktiviertem Reasoning zeigte in einem Szenario bessere Leistung als mit aktiviertem Reasoning. Bei Halluzinationen wiesen Claude-Modelle extrem hohe Verweigerungsraten von bis zu 70% auf - ein Zeichen für Unsicherheitsbewusstsein, aber mit begrenzter Nutzbarkeit.
Beim Scheming performten OpenAI o3 und Sonnet 4 am besten mit niedrigen Raten problematischen Verhaltens. Reasoning half hier nicht immer: Opus 4 mit aktiviertem Reasoning zeigte schlechtere Leistung als ohne.
Auswirkungen für die KI-Branche und zukünftige Entwicklung
Die Safety Evaluation zwischen OpenAI und Anthropic etabliert einen neuen Standard für branchenweite Sicherheitstests. Für europäische Unternehmen und Regulierungsbehörden demonstriert diese Kooperation, wie sich Transparenz und Accountability in der KI-Entwicklung praktisch umsetzen lassen.
OpenAI plant weitere Forschung in den identifizierten Problembereichen und hat bereits GPT-5 mit verbesserter Sicherheitsleistung gelauncht. Die Unternehmen empfehlen verstärkte Investitionen in Evaluations-Infrastruktur und Standardisierung, wobei unabhängige Evaluatoren wie US CAISI und UK AISI eine wichtige Rolle spielen könnten.
Die Evaluation zeigt auch die Stärken von Reasoning-Modellen bei Sicherheitsaufgaben - ein wichtiger Faktor für Unternehmen bei der Modellauswahl. Für KI-Teams in Europa unterstreicht dies die Bedeutung umfassender Safety-Tests vor dem produktiven Einsatz.
Original source: OpenAI Safety Tests
KI-News Updates
KI-News direkt ins Postfach
Wöchentliche Zusammenfassungen der neuesten KI-News. Jederzeit abmelden.
Weitere Nachrichten
Weitere aktuelle Artikel, die Sie interessieren könnten.
Chat with 100+ AI Models in one App.
Use Claude, ChatGPT, Gemini alongside with EU-Hosted Models like Deepseek, GLM-5, Kimi K2.5 and many more.