OpenAI ChatGPT 优化多模态交互 支持语音文本融合

AI资讯3个月前发布 ainav
57 0

近日,OpenAI在其官方博文中宣布了一项重要更新:将ChatGPT的”语音模式”(Voice Mode)正式整合至主聊天界面。这一创新举措让用户能够在语音对话中实时查看地图、图片等视觉信息,并同步获取文字转录,真正实现了多模态交互体验。

值得注意的是,语音对话功能此前一直作为独立模块存在。此次更新后,用户无需繁琐的模式切换,在主聊天窗口即可直接启动语音交互,带来更加流畅自然的操作体验。

全新语音模式的最大突破在于其强大的视觉呈现能力。当用户通过语音提问时,ChatGPT不仅能够提供自然流畅的语音回答,还能在聊天界面中实时展示相关联的视觉内容,例如地图、图表或图片等。同时,系统还会自动生成完整的语音对话文字转录,便于用户随时查阅和回顾交流内容。

OpenAI ChatGPT 优化多模态交互 支持语音文本融合

为了满足不同用户的使用偏好,OpenAI在本次更新中特别加入了”后悔药”机制。对于仍然偏爱沉浸式纯音频对话体验的用户来说,可以通过应用设置菜单中的切换开关,快速恢复到旧版独立语音模式。

此次更新是OpenAI持续推进产品创新战略的一部分。此前,该公司已相继推出了包括AI购物助手、支持iCloud钥匙串功能的Atlas AI浏览器新版本、群聊功能以及性能更强大的GPT-5.1模型等在内的一系列重要更新,展现了其不断拓展AI应用边界的决心。

© 版权声明

相关文章