腾讯发布Voyager3D:超长距、强一致的3D世界模型

AI资讯3个月前发布 ainav
47 0

9月2日,腾讯混元团队正式推出其最新研发的3D世界模型系列成员——HunyuanWorld-Voyager(简称混元Voyager),这一突破性进展标志着全球首个原生支持3D重建技术的超长漫游世界模型诞生。

作为腾讯在AI空间智能领域的重要里程碑,混元Voyager旨在为虚拟现实、物理仿真和游戏开发等多个领域提供高保真的3D场景生成能力。该模型不仅继承了原有框架的核心优势,更在多个维度实现了技术突破。

区别于传统视频生成技术的局限,混元Voyager创新性地引入深度预测机制,在保持画面一致性的基础上大幅提升了探索范围。用户不仅可以直接将视频输出为3D格式,还能通过这一过程获得更高质量和更具真实感的空间体验。

腾讯发布Voyager3D:超长距、强一致的3D世界模型

混元Voyager的核心优势在于其端到端的3D处理能力。通过将3D输入与输出相结合,该模型完美适配了此前开源的混元世界模型1.0版本,显著扩展了其漫游范围,并在复杂场景生成、风格化控制等方面展现了卓越性能。

腾讯发布Voyager3D:超长距、强一致的3D世界模型

在实际应用中,纯视频生成往往难以满足交互需求。而直接生成3D场景虽然优势明显,却面临数据稀缺和效率低下等挑战。混元Voyager通过将场景深度预测融入视频生成过程,创造性地解决了这一难题。

腾讯发布Voyager3D:超长距、强一致的3D世界模型

借助可交互视频模型的潜力,混元Voyager实现了更高效的场景建模。其基于相机可控技术生成的RGB-D视频,不仅保持了高度的空间一致性,还支持用户自由调整视角,为后续应用提供了丰富的可能性。

腾讯发布Voyager3D:超长距、强一致的3D世界模型

通过键盘或摇杆控制,用户可以实时生成并编辑视频内容。更值得关注的是,Voyager无需额外工具即可直接输出3D点云数据,这大大简化了后续处理流程。

腾讯发布Voyager3D:超长距、强一致的3D世界模型

混元Voyager的另一大特色在于其创新的空间与特征结合机制。这种设计不仅实现了原生3D记忆和重建功能,还通过优化输入输出流程显著提升了生成效率。

基于缓存扩展机制,混元Voyager能够根据初始模型生成的点云数据,实时更新并优化内容。这种闭环系统设计不仅延长了漫游距离,还在精度上实现了新的突破。

与现有开源方案相比,HunyuanWorld-Voyager在3D场景重建的精确度方面展现了显著优势。这一成果再次证明了腾讯混元团队在AI生成领域的技术实力。

自今年7月发布混元3D世界模型1.0以来,腾讯持续推动该系列的技术演进。从Lite版到如今的Voyager,每一步都体现了对用户需求的深刻洞察和技术创新的不懈追求。

目前,混元团队已在GitHub和Hugging Face平台开放了相关技术文档和源代码,为全球开发者提供了便捷的研究与应用环境。这一开源策略进一步巩固了腾讯在AI领域的领先地位。

除了3D生成能力,混元还致力于基础模型的优化。从大参数量的MoE架构到轻量化设计,混元系列覆盖了从云端到终端的全场景需求。最新的翻译模型Hunyuan-MT-7B更是在国际赛事中取得了优异成绩。

作为最新成果,HunyuanWorld-Voyager现已全面上线。无论是技术报告还是源代码,用户均可通过以下链接获取:

  • 项目主页:https://3d-models.hunyuan.tencent.com/world/

  • Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

  • Hugging Face:https://huggingface.co/tencent/HunyuanWorld-Voyager

© 版权声明

相关文章