OpenAI ChatGPT 优化多模态交互支持语音文本融合

179 0 0

近日，OpenAI在其官方博文中宣布了一项重要更新：将ChatGPT的”语音模式”（Voice Mode）正式整合至主聊天界面。这一创新举措让用户能够在语音对话中实时查看地图、图片等视觉信息，并同步获取文字转录，真正实现了多模态交互体验。

值得注意的是，语音对话功能此前一直作为独立模块存在。此次更新后，用户无需繁琐的模式切换，在主聊天窗口即可直接启动语音交互，带来更加流畅自然的操作体验。

全新语音模式的最大突破在于其强大的视觉呈现能力。当用户通过语音提问时，ChatGPT不仅能够提供自然流畅的语音回答，还能在聊天界面中实时展示相关联的视觉内容，例如地图、图表或图片等。同时，系统还会自动生成完整的语音对话文字转录，便于用户随时查阅和回顾交流内容。

为了满足不同用户的使用偏好，OpenAI在本次更新中特别加入了”后悔药”机制。对于仍然偏爱沉浸式纯音频对话体验的用户来说，可以通过应用设置菜单中的切换开关，快速恢复到旧版独立语音模式。

此次更新是OpenAI持续推进产品创新战略的一部分。此前，该公司已相继推出了包括AI购物助手、支持iCloud钥匙串功能的Atlas AI浏览器新版本、群聊功能以及性能更强大的GPT-5.1模型等在内的一系列重要更新，展现了其不断拓展AI应用边界的决心。

文章版权归作者所有，未经允许请勿转载。

ainav

170 0

ainav

219 0

ainav

182 0

ainav

127 0

ainav

135 0

ainav

156 0

OpenAI ChatGPT 优化多模态交互 支持语音文本融合