Notebookcheck Logo

OpenAI stellt drei neue Echtzeit-Audio-Modelle vor – darunter GPT-Realtime-2

OpenAIs GPT-Realtime-2 bringt Reasoning auf GPT-5-Niveau zu Live-Sprachagenten und wird zusammen mit zwei weiteren Echtzeit-Audiomodellen über die OpenAI API eingeführt.
ⓘ Openai.com
OpenAIs GPT-Realtime-2 bringt Reasoning auf GPT-5-Niveau zu Live-Sprachagenten und wird zusammen mit zwei weiteren Echtzeit-Audiomodellen über die OpenAI API eingeführt.
OpenAI hat GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper über seine Realtime API veröffentlicht. Diese ist nun allgemein für Sprachagenten im produktiven Einsatz verfügbar.

OpenAI hat drei neue Echtzeit-Audiomodelle über seine API eingeführt. Damit soll sich Sprach-KI von einfachen Frage-Antwort-Interaktionen zu Agenten weiterentwickeln, die innerhalb einer einzigen Live-Konversation zuhören, schlussfolgern, übersetzen und handeln können. Gleichzeitig verlässt die Realtime API die Beta-Phase und ist damit erstmals allgemein für den Produktionseinsatz verfügbar.

Im Mittelpunkt der Veröffentlichung steht GPT-Realtime-2, OpenAIs erstes Sprachmodell mit Reasoning auf GPT-5-Niveau. Anders als viele bisherige Sprachsysteme verarbeitet GPT-Realtime-2 Audio als kontinuierlichen Stream. Dadurch kann das Modell Sprache bereits während des Sprechens interpretieren und ohne die Verzögerung reagieren, die sonst durch getrennte Transkriptions- und Sprachausgabeschritte entsteht. Das Modell unterstützt ein Kontextfenster von 128.000 Token statt 32.000 Token beim Vorgänger. Dadurch werden längere Sprachsitzungen und komplexe mehrstufige Agentenabläufe möglich, ohne dass eine externe Speicherlösung nötig ist.

Was GPT-Realtime-2 leisten kann

Das Modell wurde speziell für „Agentenverhalten“ während Sprachanrufen entwickelt. Über Präambeln kann es während der Ausführung von Tool-Aufrufen Sätze wie „Lassen Sie mich das überprüfen“ oder „Einen Moment“ sagen, damit Nutzer nicht mit Stille konfrontiert werden. Parallele Tool-Aufrufe ermöglichen es dem Modell, mehrere Backend-Anfragen gleichzeitig auszuführen und mitzuteilen, welche Anfrage gerade läuft. Eine verbesserte Fehlerbehandlung sorgt dafür, dass Probleme hörbar aufgefangen werden, statt dass das Gespräch mitten im Ablauf einfriert. Durch eine Anpassung des Gesprächstonfalls kann GPT-Realtime-2 je nach Kontext zwischen unterschiedlichen Stilen wechseln – etwa ruhiger bei Support-Anrufen und optimistischer bei Bestätigungen.

GPT-Realtime-2 schneidet bei Big Bench Audio, OpenAIs Benchmark für Audio-Reasoning, um 15,2 Prozent besser ab als GPT-Realtime-1.5. Bei Audio Multichallenger, einem Benchmark für das Befolgen von Anweisungen, liegt der Vorsprung bei 13,8 Prozent. In Praxistests berichtet Zillow von einer um 26 Prozentpunkte gestiegenen Anruferfolgsrate im härtesten adversarial Benchmark: Nach Prompt-Optimierung auf GPT-Realtime-2 stieg der Wert von 69 auf 95 Prozent. Der Preis des Modells liegt bei 32 US-Dollar pro Million Audio-Eingabe-Token und 64 US-Dollar pro Million Audio-Ausgabe-Token. Zwischengespeicherte Eingabe-Token kosten 0,40 US-Dollar pro Million Token.

GPT-Realtime-Translate und GPT-Realtime-Whisper

Das zweite Modell, GPT-Realtime-Translate, ist ein spezielles System für Live-Sprachübersetzungen. Es verarbeitet kontinuierlich gesprochene Eingaben und gibt Übersetzungen in Echtzeit aus, ohne dass Sprecher pausieren oder vollständige Sätze beenden müssen. Das Modell unterstützt mehr als 70 Eingabesprachen und 13 Ausgabesprachen und richtet sich an Einsatzbereiche wie Kundensupport, Bildung, Live-Events und grenzüberschreitende Vertriebsumgebungen. BolnaAI, ein Sprach-KI-Unternehmen mit Fokus auf indische Sprachmärkte, berichtet von 12,5 Prozent niedrigeren Wortfehlerraten bei Hindi, Tamil und Telugu im Vergleich zum bisherigen Übersetzungsansatz. GPT-Realtime-Translate kostet 0,034 US-Dollar pro Minute Audioverarbeitung.

GPT-Realtime-Whisper ist das dritte Modell und erweitert OpenAIs weit verbreitete Whisper-Spracherkennung zu einem Streaming-System. Während das ursprüngliche Whisper für Transkriptionen nach der Aufnahme entwickelt wurde, erzeugt diese Version Live-Untertitel in Echtzeit. Zu den Anwendungsbereichen gehören Live-Meetings, Gerichtsdokumentationen, Transkriptionen in Redaktionen und Zugangstools für hörgeschädigte Nutzer. Mit 0,017 US-Dollar pro Minute ist GPT-Realtime-Whisper das günstigste der drei Modelle. Alle drei Modelle sind ab sofort über die OpenAI API und den Developer Playground verfügbar.

Mit der Einführung erhält die Realtime API außerdem Unterstützung für MCP-Server, Bildeingaben und SIP-Telefonanrufe. Dadurch erweitert sich die Bandbreite an Unternehmenstelefonie- und Agenten-Workflows, die Entwickler innerhalb der API erstellen können.

Der Start neuer KI-Tools zeigt zugleich, wie stark Angreifer das Interesse an solchen Produkten ausnutzen. Notebookcheck berichtete gestern über eine gefälschte Claude-AI-Webseite, die über gesponserte Google-Suchergebnisse die Beagle-Windows-Backdoor verbreitete – mithilfe eines trojanisierten Claude-Pro-Relay-Installationsprogramms.

Quelle(n)

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!
Mail Logo
Google Logo Add as a preferred
source on Google

Keine Kommentare zum Artikel

Fragen, Anregungen, zusätzliche Informationen zu diesem Artikel? - Uns interessiert Deine Meinung (auch ohne Anmeldung möglich)!
Keine Kommentare zum Artikel / Antworten

static version load dynamic
Loading Comments
Diesen Artikel kommentieren / Antworten
> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2026-05 > OpenAI stellt drei neue Echtzeit-Audio-Modelle vor – darunter GPT-Realtime-2
Autor: Darryl Linington,  9.05.2026 (Update:  9.05.2026)