AI News

OpenAI gpt-realtime Modell und Realtime API Updates für Sprach-Agenten

OpenAI veröffentlicht gpt-realtime, ein verbessertes Speech-to-Speech-Modell, und erweitert die Realtime API um MCP-Server, Bildeingabe und SIP-Telefonie für produktionsreife Sprach-Agenten.

LLMBase Redaktion 10. März 2026 Aktualisiert 28. August 2025 2 Min. Lesezeit

ai llm industry openai sprach-ki realtime-api

Die Realtime API steht nun allgemein zur Verfügung und zielt auf Unternehmen ab, die zuverlässige Sprach-Agenten für den Produktionseinsatz entwickeln möchten. Anders als traditionelle Pipelines, die separate Speech-to-Text- und Text-to-Speech-Modelle verketten, verarbeitet die API Audio direkt über ein einziges Modell.

Verbesserungen beim gpt-realtime Modell

Das neue gpt-realtime Modell zeigt deutliche Verbesserungen in mehreren Bereichen. Bei der Audioqualität erzeugt es natürlicheren Sprachklang und kann präzise Anweisungen wie "spreche schnell und professionell" oder "spreche empathisch mit französischem Akzent" befolgen.

OpenAI hat zwei neue Stimmen eingeführt: Marin und Cedar, die exklusiv über die Realtime API verfügbar sind. Die acht bestehenden Stimmen wurden ebenfalls überarbeitet.

Bei der Intelligenz erreicht gpt-realtime 82,8% Genauigkeit im Big Bench Audio Benchmark, verglichen mit 65,6% des Vorgängermodells. Das Modell erkennt non-verbale Signale wie Lachen, wechselt Sprachen mitten im Satz und passt den Tonfall an.

Neue API-Funktionen für Enterprise-Anwendungen

Die erweiterte Realtime API bringt mehrere Funktionen, die für europäische Unternehmen relevant sind. Die MCP-Server-Unterstützung ermöglicht es Entwicklern, externe Tools und Datenquellen direkt in Sprach-Agenten zu integrieren, ohne manuelle Verkabelung.

Die neue Bildeingabe-Funktion erlaubt es dem Modell, Screenshots und Fotos zu analysieren und darauf basierend zu antworten. Dies erweitert die Anwendungsmöglichkeiten für technischen Support und visuelle Assistenten erheblich.

Die SIP-Unterstützung verbindet Anwendungen direkt mit dem öffentlichen Telefonnetz und PBX-Systemen - eine wichtige Funktion für Unternehmen, die bestehende Telefonie-Infrastruktur nutzen möchten.

Auswirkungen für europäische KI-Teams

Für Entwicklerteams in Europa bietet die Realtime API neue Möglichkeiten, mehrsprachige Sprach-Agenten zu entwickeln. Das Modell zeigt verbesserte Genauigkeit bei der Erkennung alphanumerischer Sequenzen in Spanisch, Chinesisch, Japanisch und Französisch.

Die asynchrone Function-Calling-Funktion ermöglicht es dem Modell, flüssige Gespräche zu führen, während es auf Ergebnisse langwieriger API-Aufrufe wartet. Dies ist besonders relevant für Unternehmensanwendungen, die auf langsame Backend-Systeme zugreifen müssen.

Bei der Anweisungsbefolgung erreicht gpt-realtime 30,5% Genauigkeit im MultiChallenge Benchmark, verglichen mit 20,6% des Dezember-Modells. Für Function Calling steigt die Genauigkeit auf 66,5% im ComplexFuncBench Audio Test.

Die allgemeine Verfügbarkeit der Realtime API nach der öffentlichen Beta-Phase seit Oktober zeigt OpenAIs Fokus auf produktionsreife Enterprise-Lösungen. Unternehmen wie Zillow nutzen bereits die verbesserten Reasoning-Fähigkeiten für komplexe, mehrstufige Anfragen.

Original source: OpenAI veröffentlichte diese Informationen unter https://openai.com/index/introducing-gpt-realtime

KI-News Updates

KI-News direkt ins Postfach

Wöchentliche Zusammenfassungen der neuesten KI-News. Jederzeit abmelden.

Weitere Nachrichten

Weitere aktuelle Artikel, die Sie interessieren könnten.

Grammarly Expert Review KI-Funktion führt zu Sammelklage wegen Namensrechtsverletzung

Die Grammarly Expert Review Funktion nutzte ohne Zustimmung Namen bekannter Autoren und Journalisten für KI-generierte Schreibberatung. Superhuman hat die Funktion nach öffentlicher Kritik eingestellt.

11. März 2026 · Wired

OpenAI ChatGPT Prompt Injection Abwehr: Safe Url und Social Engineering Schutz

OpenAI erklärt neue Schutzmaßnahmen gegen Prompt Injection Angriffe in ChatGPT mit Safe Url System und Social Engineering Abwehr für KI-Agenten.

11. März 2026 · OpenAI

OpenAI Responses API mit Computer-Umgebung: Von KI-Modell zu Agent

OpenAI stattet seine Responses API mit Shell-Tool und Container-Workspace aus, um skalierbare Agenten-Workflows zu ermöglichen. Analyse der neuen Agent-Architektur für europäische Entwicklerteams.

11. März 2026 · OpenAI

Wayfair OpenAI-Integration steigert Katalog-Genauigkeit und Support-Geschwindigkeit

Wayfair nutzt OpenAI-Modelle zur Verbesserung der E-Commerce-Abläufe und Produktkatalog-Qualität durch automatisierte Ticket-Bearbeitung und Attribut-Verbesserung bei Millionen von Produkten.

11. März 2026 · OpenAI

Alle Nachrichten ansehen →

Made in Europe

Chat with 100+ AI Models in one App.

Use Claude, ChatGPT, Gemini alongside with EU-Hosted Models like Deepseek, GLM-5, Kimi K2.5 and many more.

Start for free View pricing