OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

热点资讯
5月8日
编辑

揽月听风网创联盟

释放双眼，带上耳机，听听看~！

OpenAI 发布三款实时语音模型，分别针对推理、翻译和转录场景，集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑，目标解决语音交互中的延迟、打断处理和多语言支持难题。

IT之家 5 月 8 日消息，OpenAI 发布三款实时语音模型，分别针对推理、翻译和转录场景，集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑，目标解决语音交互中的延迟、打断处理和多语言支持难题。

GPT-Realtime-2 专为实时交互设计，是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下，能在对话过程中进行推理、调用工具，并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手，并能执行多步骤任务。

微信图片_20260508140623_1377_338.png

定价方面，GPT-Realtime-2 音频输入定价为每百万 Token 费用 32 美元（IT之家注：现汇率约合 218.1 元人民币），输出为 64 美元（现汇率约合 436.2 元人民币），缓存输入仅需 0.4 美元。

GPT-Realtime-Translate 支持 70 种输入语言转 13 种输出语言，翻译速度与说话者同步，适用于跨国会议或实时沟通场景。

GPT-Realtime-Whisper 则专注于低延迟流式转录，音频随说随转，让实时字幕和会议记录能跟上对话节奏，减少等待时间。翻译和转录模型按分钟计费，分别为每分钟 0.034 美元和 0.017 美元。

温馨提示：本站提供的一切软件、教程和内容信息都来自网络收集整理，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，版权争议与本站无关。用户必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容，请支持正版，购买注册，得到更好的正版服务。我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！