OpenAI发布新一代视频生成模型Sora 2,支持同步音频输出

AI资讯2个月前发布 ainav
37 0

10月1日凌晨,全球领先的人工智能研究实验室OpenAI正式发布了备受期待的下一代视频生成模型——Sora 2。

OpenAI发布新一代视频生成模型Sora 2,支持同步音频输出

作为Sora系列的最新版本,Sora 2在视频生成技术上实现了质的飞跃。除了显著提升视频画面的真实感外,该模型还首次具备了音频内容合成能力。用户可以通过一次性录制视频和语音完成身份验证,并在生成的视频中”扮演”自己或他人形象。

Sora应用采用了与现有社交媒体相似的信息流推荐机制。系统会根据用户的互动对象和兴趣偏好进行个性化内容推送,同时引入了独特的”可调节排序”功能,允许用户更灵活地定制自己的信息 feed。

相较于2024年2月发布的初代模型,Sora 2在模拟物理现象时更加逼真。以前版本中常见的动作僵硬问题,在新版本中得到了显著改善。

与前一代产品相比,Sora 2最引人注目的创新是支持语音生成功能。OpenAI表示,虽然目前模型仍存在一些不完善之处,但这充分证明了通过更大规模的视频训练数据,可以逐步实现对真实世界的高度模拟。

当前,Sora应用仅在iOS平台上线,并采用邀请制注册方式。用户需要通过应用内的资格申请流程才能使用该服务。OpenAI计划首先在美国和加拿大市场进行推广,并为初期用户提供较为宽松的创作权限。然而,由于视频生成对计算资源要求极高,公司会实施一定限制以确保系统稳定性。

在商业化方面,OpenAI目前规划了明确的盈利模式:当算力不足时,将向有需求的用户提供付费选项,以便快速生成更多高质量视频内容。

为应对潜在的安全风险,OpenAI同步发布了官方说明。所有Sora视频都会嵌入水印和元数据标识,用户肖像仅在获得本人同意的情况下才能使用,并且可以随时撤销授权。此外,青少年用户的账户将受到家长控制功能的限制,并设有使用时长监控机制。

系统内置了多层次的安全防护措施:在内容生成阶段就尝试过滤色情、恐怖主义宣传和自残等不安全内容;通过多帧画面和音频检测技术进行拦截。同时,OpenAI正在计划扩大人工审核团队规模,重点审查可能涉及网络霸凌的视频内容。

OpenAI将Sora 2视为迈向更强大人工智能系统的重要里程碑。公司认为:”视频模型正以惊人的速度发展,未来通用世界模拟器和智能机器人将对社会产生深远影响,加速人类文明的进步。”

相关阅读:

  • 《OpenAI 推出全新视频社交应用 Sora:可以”深度伪造”他人,但需获得对方同意》

© 版权声明

相关文章