OpenAI 发布实时语音模型 GPT-Realtime-2
OpenAI 在 Realtime API 中上线三款新模型,其中核心模型 GPT-Realtime-2 号称具备 GPT-5 级别的推理能力。
- GPT-Realtime-2 在 Big Bench Audio 智能测试中表现从 81.4% 跃升至 96.6%
- 同步推出 GPT-Realtime-Translate(翻译)和 GPT-Realtime-Whisper(实时转录)模型
- 改进了语音推理的延迟与上下文理解能力
- Sam Altman 指出年轻人与老年人更倾向于语音交互,而中年群体更习惯打字
语音推理能力的跨越标志着 AI 从“语音转文字”向“原生音频理解”的范式转变。这意味着音频不再只是文本的载体,而是包含了语调、情感和即时反馈的富维度数据。
这种演进将极大提升 Realtime Agent 的响应自然度。开发者需剖析用户群体的交互偏好差异,语音可能成为未来移动端 AI 应用的首选入口。
从 81.4% 到 96.6% 的跨越预示着 复杂逻辑推理在音频层面的闭环。这使得 AI 能够处理诸如电话商务谈判、心理咨询等需要高灵敏度反馈的场景。
OpenAI 正在构建一个 多模态原生的实时生态。通过将翻译和转录功能解耦成专用模型,开发者可以根据成本和延迟要求进行更灵活的架构配置。