OpenAI stellt drei neue Echtzeit-Audio-Modelle vor – darunter GPT-Realtime-2

OpenAI hat drei neue Echtzeit-Audiomodelle über seine API eingeführt. Damit soll sich Sprach-KI von einfachen Frage-Antwort-Interaktionen zu Agenten weiterentwickeln, die innerhalb einer einzigen Live-Konversation zuhören, schlussfolgern, übersetzen und handeln können. Gleichzeitig verlässt die Realtime API die Beta-Phase und ist damit erstmals allgemein für den Produktionseinsatz verfügbar.
Im Mittelpunkt der Veröffentlichung steht GPT-Realtime-2, OpenAIs erstes Sprachmodell mit Reasoning auf GPT-5-Niveau. Anders als viele bisherige Sprachsysteme verarbeitet GPT-Realtime-2 Audio als kontinuierlichen Stream. Dadurch kann das Modell Sprache bereits während des Sprechens interpretieren und ohne die Verzögerung reagieren, die sonst durch getrennte Transkriptions- und Sprachausgabeschritte entsteht. Das Modell unterstützt ein Kontextfenster von 128.000 Token statt 32.000 Token beim Vorgänger. Dadurch werden längere Sprachsitzungen und komplexe mehrstufige Agentenabläufe möglich, ohne dass eine externe Speicherlösung nötig ist.
Was GPT-Realtime-2 leisten kann
Das Modell wurde speziell für „Agentenverhalten“ während Sprachanrufen entwickelt. Über Präambeln kann es während der Ausführung von Tool-Aufrufen Sätze wie „Lassen Sie mich das überprüfen“ oder „Einen Moment“ sagen, damit Nutzer nicht mit Stille konfrontiert werden. Parallele Tool-Aufrufe ermöglichen es dem Modell, mehrere Backend-Anfragen gleichzeitig auszuführen und mitzuteilen, welche Anfrage gerade läuft. Eine verbesserte Fehlerbehandlung sorgt dafür, dass Probleme hörbar aufgefangen werden, statt dass das Gespräch mitten im Ablauf einfriert. Durch eine Anpassung des Gesprächstonfalls kann GPT-Realtime-2 je nach Kontext zwischen unterschiedlichen Stilen wechseln – etwa ruhiger bei Support-Anrufen und optimistischer bei Bestätigungen.
GPT-Realtime-2 schneidet bei Big Bench Audio, OpenAIs Benchmark für Audio-Reasoning, um 15,2 Prozent besser ab als GPT-Realtime-1.5. Bei Audio Multichallenger, einem Benchmark für das Befolgen von Anweisungen, liegt der Vorsprung bei 13,8 Prozent. In Praxistests berichtet Zillow von einer um 26 Prozentpunkte gestiegenen Anruferfolgsrate im härtesten adversarial Benchmark: Nach Prompt-Optimierung auf GPT-Realtime-2 stieg der Wert von 69 auf 95 Prozent. Der Preis des Modells liegt bei 32 US-Dollar pro Million Audio-Eingabe-Token und 64 US-Dollar pro Million Audio-Ausgabe-Token. Zwischengespeicherte Eingabe-Token kosten 0,40 US-Dollar pro Million Token.
GPT-Realtime-Translate und GPT-Realtime-Whisper
Das zweite Modell, GPT-Realtime-Translate, ist ein spezielles System für Live-Sprachübersetzungen. Es verarbeitet kontinuierlich gesprochene Eingaben und gibt Übersetzungen in Echtzeit aus, ohne dass Sprecher pausieren oder vollständige Sätze beenden müssen. Das Modell unterstützt mehr als 70 Eingabesprachen und 13 Ausgabesprachen und richtet sich an Einsatzbereiche wie Kundensupport, Bildung, Live-Events und grenzüberschreitende Vertriebsumgebungen. BolnaAI, ein Sprach-KI-Unternehmen mit Fokus auf indische Sprachmärkte, berichtet von 12,5 Prozent niedrigeren Wortfehlerraten bei Hindi, Tamil und Telugu im Vergleich zum bisherigen Übersetzungsansatz. GPT-Realtime-Translate kostet 0,034 US-Dollar pro Minute Audioverarbeitung.
GPT-Realtime-Whisper ist das dritte Modell und erweitert OpenAIs weit verbreitete Whisper-Spracherkennung zu einem Streaming-System. Während das ursprüngliche Whisper für Transkriptionen nach der Aufnahme entwickelt wurde, erzeugt diese Version Live-Untertitel in Echtzeit. Zu den Anwendungsbereichen gehören Live-Meetings, Gerichtsdokumentationen, Transkriptionen in Redaktionen und Zugangstools für hörgeschädigte Nutzer. Mit 0,017 US-Dollar pro Minute ist GPT-Realtime-Whisper das günstigste der drei Modelle. Alle drei Modelle sind ab sofort über die OpenAI API und den Developer Playground verfügbar.
Mit der Einführung erhält die Realtime API außerdem Unterstützung für MCP-Server, Bildeingaben und SIP-Telefonanrufe. Dadurch erweitert sich die Bandbreite an Unternehmenstelefonie- und Agenten-Workflows, die Entwickler innerhalb der API erstellen können.
Der Start neuer KI-Tools zeigt zugleich, wie stark Angreifer das Interesse an solchen Produkten ausnutzen. Notebookcheck berichtete gestern über eine gefälschte Claude-AI-Webseite, die über gesponserte Google-Suchergebnisse die Beagle-Windows-Backdoor verbreitete – mithilfe eines trojanisierten Claude-Pro-Relay-Installationsprogramms.









