OpenAI语音克隆技术已预告一年仍未发布

AI资讯1年前 (2025)更新 ainav

285 0 0

3月7日消息，去年三月底，OpenAI宣布了一项名为Voice Engine（声音引擎）的人工智能服务的”小规模预览”，声称该技术能够在仅需15秒语音的情况下克隆一个人的声音。然而，近一年过去，这项工具仍未正式推出，OpenAI也未透露其是否会全面上线，以及何时上线。

随着AI语音克隆技术的快速发展，有效的过滤和身份验证正迅速成为负责任发布语音克隆技术的基本要求。据相关报道，AI 语音克隆是2024年增长最快的第三大诈骗手段，导致了欺诈行为的增加和银行安全检查被绕过，而隐私和版权法律则难以跟上其发展速度。恶意行为者利用语音克隆技术制作名人和政客的煽动性深度伪造视频，并在社交媒体上迅速传播。

OpenAI可能在下周推出Voice Engine，也可能永远不会推出。该公司多次表示，正在考虑将服务保持在较小范围内。但有一点是明确的：无论是出于形象考虑还是安全原因，Voice Engine的有限预览已成为OpenAI历史上最长的一次。

根据OpenAI的说法，开发者在使用Voice Engine之前必须获得原始说话者的”明确同意”，并且必须向其受众”明确披露”语音是由AI生成的。然而，该公司尚未说明如何执行这些政策。即使对于拥有OpenAI资源的公司来说，大规模执行这些政策也可能极具挑战性。

在博客文章中，OpenAI还暗示希望开发一种”语音认证体验”以验证说话者身份，并建立一个”禁止清单”，防止创建与知名人士声音过于相似的语音。这两个项目在技术上都极具雄心，如果处理不当，将对一家常被指责忽视安全举措的公司造成负面影响。

在2024年6月的博客文章中，OpenAI暗示延迟发布Voice Engine的原因之一是担心该技术可能在去年美国选举周期中被滥用。基于与利益相关者的讨论，Voice Engine采取了多项安全措施，包括为生成音频添加水印以追溯其来源。

佩雷拉通过电子邮件向TechCrunch表示：”语音的质量以及语音能够以不同语言说话的可能性是独一无二的——尤其是对于我们的客户，即残疾人。这是我见过的最令人印象深刻且易于使用的创建语音的工具。我们希望OpenAI尽快开发出离线版本。”他补充说，他尚未收到来自OpenAI关于Voice Engine可能发布的任何指导，也没有看到该公司计划开始收费的迹象。目前，Livox的使用尚未产生任何费用。