OpenAI发布新一代视频生成模型Sora 2，支持同步音频输出

215 0 0

10月1日凌晨，全球领先的人工智能研究实验室OpenAI正式发布了备受期待的下一代视频生成模型——Sora 2。

作为Sora系列的最新版本，Sora 2在视频生成技术上实现了质的飞跃。除了显著提升视频画面的真实感外，该模型还首次具备了音频内容合成能力。用户可以通过一次性录制视频和语音完成身份验证，并在生成的视频中”扮演”自己或他人形象。

Sora应用采用了与现有社交媒体相似的信息流推荐机制。系统会根据用户的互动对象和兴趣偏好进行个性化内容推送，同时引入了独特的”可调节排序”功能，允许用户更灵活地定制自己的信息 feed。

相较于2024年2月发布的初代模型，Sora 2在模拟物理现象时更加逼真。以前版本中常见的动作僵硬问题，在新版本中得到了显著改善。

与前一代产品相比，Sora 2最引人注目的创新是支持语音生成功能。OpenAI表示，虽然目前模型仍存在一些不完善之处，但这充分证明了通过更大规模的视频训练数据，可以逐步实现对真实世界的高度模拟。

当前，Sora应用仅在iOS平台上线，并采用邀请制注册方式。用户需要通过应用内的资格申请流程才能使用该服务。OpenAI计划首先在美国和加拿大市场进行推广，并为初期用户提供较为宽松的创作权限。然而，由于视频生成对计算资源要求极高，公司会实施一定限制以确保系统稳定性。

在商业化方面，OpenAI目前规划了明确的盈利模式：当算力不足时，将向有需求的用户提供付费选项，以便快速生成更多高质量视频内容。

为应对潜在的安全风险，OpenAI同步发布了官方说明。所有Sora视频都会嵌入水印和元数据标识，用户肖像仅在获得本人同意的情况下才能使用，并且可以随时撤销授权。此外，青少年用户的账户将受到家长控制功能的限制，并设有使用时长监控机制。

系统内置了多层次的安全防护措施：在内容生成阶段就尝试过滤色情、恐怖主义宣传和自残等不安全内容；通过多帧画面和音频检测技术进行拦截。同时，OpenAI正在计划扩大人工审核团队规模，重点审查可能涉及网络霸凌的视频内容。

OpenAI将Sora 2视为迈向更强大人工智能系统的重要里程碑。公司认为：”视频模型正以惊人的速度发展，未来通用世界模拟器和智能机器人将对社会产生深远影响，加速人类文明的进步。”

相关阅读：

文章版权归作者所有，未经允许请勿转载。

ainav

174 0

ainav

158 0

ainav

136 0

ainav

171 0

ainav

186 0

ainav

128 0