OpenAI hat neue Echtzeit-Sprachmodelle für die API vorgestellt. Damit kommt das Unternehmen dem Leistungsniveau von GPT-5 deutlich näher. Im Mittelpunkt steht GPT-Realtime-2, das laut OpenAI erstmals das Reasoning der GPT-5-Klasse in ein Voice-Modell integriert. Ergänzt wird die Reihe durch ein Modell für Live-Übersetzungen und ein Modell für schnelle Transkriptionen.
Mit dem neuen Ansatz will OpenAI die Lücke zwischen klassischer Sprachverarbeitung und fortgeschrittener Modellintelligenz schließen. Die Modelle sollen nicht nur Sprache erkennen und ausgeben, sondern auch Gespräche besser fortsetzen, komplexere Anfragen bearbeiten und in Echtzeit auf den Kontext reagieren können. Die Entwicklung zielt auf Anwendungen ab, in denen Antworten, Übersetzungen und Transkriptionen möglichst ohne spürbare Verzögerung benötigt werden.
Dies könnte in der Praxis zu neuen Einsatzmöglichkeiten für Assistenzsysteme, den Kundenservice, Lernanwendungen und sprachbasierte Agenten führen. Diese Einschätzung basiert auf der Produktbeschreibung und leitet sich vom veröffentlichten Funktionsumfang ab.
Die Sprach-KI hat sich von der reinen Spracherkennung gelöst und bewegt sich nun in Richtung interaktiver Echtzeit-Systeme.




