AI News

OpenAI gpt-realtime Modell und Realtime API Updates für Sprach-Agenten

OpenAI veröffentlicht gpt-realtime, ein verbessertes Speech-to-Speech-Modell, und erweitert die Realtime API um MCP-Server, Bildeingabe und SIP-Telefonie für produktionsreife Sprach-Agenten.

LLMBase Redaktion Aktualisiert 28. August 2025 2 Min. Lesezeit
ai llm industry openai sprach-ki realtime-api

Die Realtime API steht nun allgemein zur Verfügung und zielt auf Unternehmen ab, die zuverlässige Sprach-Agenten für den Produktionseinsatz entwickeln möchten. Anders als traditionelle Pipelines, die separate Speech-to-Text- und Text-to-Speech-Modelle verketten, verarbeitet die API Audio direkt über ein einziges Modell.

Verbesserungen beim gpt-realtime Modell

Das neue gpt-realtime Modell zeigt deutliche Verbesserungen in mehreren Bereichen. Bei der Audioqualität erzeugt es natürlicheren Sprachklang und kann präzise Anweisungen wie "spreche schnell und professionell" oder "spreche empathisch mit französischem Akzent" befolgen.

OpenAI hat zwei neue Stimmen eingeführt: Marin und Cedar, die exklusiv über die Realtime API verfügbar sind. Die acht bestehenden Stimmen wurden ebenfalls überarbeitet.

Bei der Intelligenz erreicht gpt-realtime 82,8% Genauigkeit im Big Bench Audio Benchmark, verglichen mit 65,6% des Vorgängermodells. Das Modell erkennt non-verbale Signale wie Lachen, wechselt Sprachen mitten im Satz und passt den Tonfall an.

Neue API-Funktionen für Enterprise-Anwendungen

Die erweiterte Realtime API bringt mehrere Funktionen, die für europäische Unternehmen relevant sind. Die MCP-Server-Unterstützung ermöglicht es Entwicklern, externe Tools und Datenquellen direkt in Sprach-Agenten zu integrieren, ohne manuelle Verkabelung.

Die neue Bildeingabe-Funktion erlaubt es dem Modell, Screenshots und Fotos zu analysieren und darauf basierend zu antworten. Dies erweitert die Anwendungsmöglichkeiten für technischen Support und visuelle Assistenten erheblich.

Die SIP-Unterstützung verbindet Anwendungen direkt mit dem öffentlichen Telefonnetz und PBX-Systemen - eine wichtige Funktion für Unternehmen, die bestehende Telefonie-Infrastruktur nutzen möchten.

Auswirkungen für europäische KI-Teams

Für Entwicklerteams in Europa bietet die Realtime API neue Möglichkeiten, mehrsprachige Sprach-Agenten zu entwickeln. Das Modell zeigt verbesserte Genauigkeit bei der Erkennung alphanumerischer Sequenzen in Spanisch, Chinesisch, Japanisch und Französisch.

Die asynchrone Function-Calling-Funktion ermöglicht es dem Modell, flüssige Gespräche zu führen, während es auf Ergebnisse langwieriger API-Aufrufe wartet. Dies ist besonders relevant für Unternehmensanwendungen, die auf langsame Backend-Systeme zugreifen müssen.

Bei der Anweisungsbefolgung erreicht gpt-realtime 30,5% Genauigkeit im MultiChallenge Benchmark, verglichen mit 20,6% des Dezember-Modells. Für Function Calling steigt die Genauigkeit auf 66,5% im ComplexFuncBench Audio Test.

Die allgemeine Verfügbarkeit der Realtime API nach der öffentlichen Beta-Phase seit Oktober zeigt OpenAIs Fokus auf produktionsreife Enterprise-Lösungen. Unternehmen wie Zillow nutzen bereits die verbesserten Reasoning-Fähigkeiten für komplexe, mehrstufige Anfragen.

Original source: OpenAI veröffentlichte diese Informationen unter https://openai.com/index/introducing-gpt-realtime

KI-News Updates

KI-News direkt ins Postfach

Wöchentliche Zusammenfassungen der neuesten KI-News. Jederzeit abmelden.

EU Made in Europe

Chat with 100+ AI Models in one App.

Use Claude, ChatGPT, Gemini alongside with EU-Hosted Models like Deepseek, GLM-5, Kimi K2.5 and many more.