OpenAI stellt drei neue Echtzeit-Audio-Modelle vor – darunter GPT-Realtime-2

OpenAIs GPT-Realtime-2 bringt Reasoning auf GPT-5-Niveau zu Live-Sprachagenten und wird zusammen mit zwei weiteren Echtzeit-Audiomodellen über die OpenAI API eingeführt.

OpenAI hat GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper über seine Realtime API veröffentlicht. Diese ist nun allgemein für Sprachagenten im produktiven Einsatz verfügbar.

Darryl Linington (übersetzt von Marius Müller), Veröffentlicht am 09.05.2026 🇺🇸 🇪🇸 ...

AI Business Software Laptop / Notebook Desktop Android Apple

OpenAI hat drei neue Echtzeit-Audiomodelle über seine API eingeführt. Damit soll sich Sprach-KI von einfachen Frage-Antwort-Interaktionen zu Agenten weiterentwickeln, die innerhalb einer einzigen Live-Konversation zuhören, schlussfolgern, übersetzen und handeln können. Gleichzeitig verlässt die Realtime API die Beta-Phase und ist damit erstmals allgemein für den Produktionseinsatz verfügbar.

Im Mittelpunkt der Veröffentlichung steht GPT-Realtime-2, OpenAIs erstes Sprachmodell mit Reasoning auf GPT-5-Niveau. Anders als viele bisherige Sprachsysteme verarbeitet GPT-Realtime-2 Audio als kontinuierlichen Stream. Dadurch kann das Modell Sprache bereits während des Sprechens interpretieren und ohne die Verzögerung reagieren, die sonst durch getrennte Transkriptions- und Sprachausgabeschritte entsteht. Das Modell unterstützt ein Kontextfenster von 128.000 Token statt 32.000 Token beim Vorgänger. Dadurch werden längere Sprachsitzungen und komplexe mehrstufige Agentenabläufe möglich, ohne dass eine externe Speicherlösung nötig ist.

Was GPT-Realtime-2 leisten kann

Das Modell wurde speziell für „Agentenverhalten“ während Sprachanrufen entwickelt. Über Präambeln kann es während der Ausführung von Tool-Aufrufen Sätze wie „Lassen Sie mich das überprüfen“ oder „Einen Moment“ sagen, damit Nutzer nicht mit Stille konfrontiert werden. Parallele Tool-Aufrufe ermöglichen es dem Modell, mehrere Backend-Anfragen gleichzeitig auszuführen und mitzuteilen, welche Anfrage gerade läuft. Eine verbesserte Fehlerbehandlung sorgt dafür, dass Probleme hörbar aufgefangen werden, statt dass das Gespräch mitten im Ablauf einfriert. Durch eine Anpassung des Gesprächstonfalls kann GPT-Realtime-2 je nach Kontext zwischen unterschiedlichen Stilen wechseln – etwa ruhiger bei Support-Anrufen und optimistischer bei Bestätigungen.

GPT-Realtime-2 schneidet bei Big Bench Audio, OpenAIs Benchmark für Audio-Reasoning, um 15,2 Prozent besser ab als GPT-Realtime-1.5. Bei Audio Multichallenger, einem Benchmark für das Befolgen von Anweisungen, liegt der Vorsprung bei 13,8 Prozent. In Praxistests berichtet Zillow von einer um 26 Prozentpunkte gestiegenen Anruferfolgsrate im härtesten adversarial Benchmark: Nach Prompt-Optimierung auf GPT-Realtime-2 stieg der Wert von 69 auf 95 Prozent. Der Preis des Modells liegt bei 32 US-Dollar pro Million Audio-Eingabe-Token und 64 US-Dollar pro Million Audio-Ausgabe-Token. Zwischengespeicherte Eingabe-Token kosten 0,40 US-Dollar pro Million Token.

GPT-Realtime-Translate und GPT-Realtime-Whisper

Das zweite Modell, GPT-Realtime-Translate, ist ein spezielles System für Live-Sprachübersetzungen. Es verarbeitet kontinuierlich gesprochene Eingaben und gibt Übersetzungen in Echtzeit aus, ohne dass Sprecher pausieren oder vollständige Sätze beenden müssen. Das Modell unterstützt mehr als 70 Eingabesprachen und 13 Ausgabesprachen und richtet sich an Einsatzbereiche wie Kundensupport, Bildung, Live-Events und grenzüberschreitende Vertriebsumgebungen. BolnaAI, ein Sprach-KI-Unternehmen mit Fokus auf indische Sprachmärkte, berichtet von 12,5 Prozent niedrigeren Wortfehlerraten bei Hindi, Tamil und Telugu im Vergleich zum bisherigen Übersetzungsansatz. GPT-Realtime-Translate kostet 0,034 US-Dollar pro Minute Audioverarbeitung.

GPT-Realtime-Whisper ist das dritte Modell und erweitert OpenAIs weit verbreitete Whisper-Spracherkennung zu einem Streaming-System. Während das ursprüngliche Whisper für Transkriptionen nach der Aufnahme entwickelt wurde, erzeugt diese Version Live-Untertitel in Echtzeit. Zu den Anwendungsbereichen gehören Live-Meetings, Gerichtsdokumentationen, Transkriptionen in Redaktionen und Zugangstools für hörgeschädigte Nutzer. Mit 0,017 US-Dollar pro Minute ist GPT-Realtime-Whisper das günstigste der drei Modelle. Alle drei Modelle sind ab sofort über die OpenAI API und den Developer Playground verfügbar.

Mit der Einführung erhält die Realtime API außerdem Unterstützung für MCP-Server, Bildeingaben und SIP-Telefonanrufe. Dadurch erweitert sich die Bandbreite an Unternehmenstelefonie- und Agenten-Workflows, die Entwickler innerhalb der API erstellen können.

Der Start neuer KI-Tools zeigt zugleich, wie stark Angreifer das Interesse an solchen Produkten ausnutzen. Notebookcheck berichtete gestern über eine gefälschte Claude-AI-Webseite, die über gesponserte Google-Suchergebnisse die Beagle-Windows-Backdoor verbreitete – mithilfe eines trojanisierten Claude-Pro-Relay-Installationsprogramms.

Quelle(n)

OpenAI

⟨

Ältere News

Neues Steam-Client-Update behebt Trackpad- und Kompatibilitätsprobleme des Steam Controllers

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

Add as a preferred
source on Google

Keine Kommentare zum Artikel

Fragen, Anregungen, zusätzliche Informationen zu diesem Artikel? - Uns interessiert Deine Meinung (auch ohne Anmeldung möglich)!

Keine Kommentare zum Artikel / Antworten

Loading Comments

Diesen Artikel kommentieren / Antworten

Verwandte Artikel

Autor des Originals: Darryl Linington - Tech Writer - 253 Artikel auf Notebookcheck veröffentlicht seit 2025

I’m a tech editor and journalist with more than 20 years of experience covering smartphones, AI, gaming hardware, and emerging technology. I’m passionate about making complex topics clear, engaging, and relevant—especially when they shape how we live, work, and play. I’m also an author with a love for psychological thrillers, horror, and honest, emotionally driven storytelling. My books include Drowning, 3:33 a.m., The Midnight Murderer, Keystrokes of Vengeance, and Life’s Too Short For This Sh!t!. Whether I’m writing about technology or fiction, my goal is always to connect with readers, spark thought, and leave a lasting impression. Inspired by my daughters and shaped by years of media experience, I bring curiosity and purpose to everything I write.

Kontakt: @DarrylLinington, Facebook, DarrylLinington, LinkedIn

Übersetzer: Marius Müller - Tech Writer - 4266 Artikel auf Notebookcheck veröffentlicht seit 2024

Als Kind der 90er war mein Gameboy mein ständiger Begleiter. Nach der Schule wurde die PlayStation angeworfen. Als ich schließlich meinen ersten PC bekam, war es vollends um mich geschehen. Meine Leidenschaft fürs Gaming ist seitdem nie wieder abgeflacht. Für Notebookcheck zu schreiben bedeutet für mich, über Themen zu berichten, die mir wirklich am Herzen liegen – neben Gaming auch gerne über E-Mobilität, Fotovoltaik oder innovative Gadgets. Wenn ich gerade nicht am Rechner sitze, schiebe ich wahrscheinlich Wasserrettungsdienst an der Ostseeküste oder versuche, den Schattenseiten meines Geek-Lebens – nämlich dem langen Sitzen – in der lokalen Schwimmhalle entgegenzuwirken.