8月12日讯,在刚刚过去的8月11日,昆仑万维SkyWork AI技术发布会盛大开启,并计划在接下来的五天内陆续发布五款重量级AI模型,全面覆盖多模态人工智能的核心应用场景。
作为此次发布会的一大亮点,昆仑万维今日正式推出了其自研世界模型Matrix系列的重大升级版本——「Matrix-Game 2.0」。据介绍,这一全新版本号称实现了在通用场景下的交互式实时长序列生成能力,标志着交互式AI技术迈出了重要一步。
为了推动交互式世界模型领域的技术创新和应用普及,「Matrix-Game 2.0」宣布全面开源。这一决策使得该方案成为业内首个在通用场景上实现实时长序列交互生成的世界模型开源方案,为开发者和研究者提供了宝贵的技术资源。
「Matrix-Game 2.0」在性能表现上实现了显著突破。相比前一版本,2.0不仅优化了低延迟和高帧率的交互体验,更能够在复杂场景中以每秒25帧的速度稳定生成连续视频内容,最长可支持分钟级时长输出。这些改进极大地提升了生成内容的连贯性和实际应用价值。
值得注意的是,在提升推理速度的同时,「Matrix-Game 2.0」依然保持了对物理规律和场景语义的精准理解能力。用户只需通过简单指令即可实现对虚拟环境的自由探索、操控与实时构建,生成结构清晰、细节丰富且规则合理的数字空间。
除了「Matrix-Game 2.0」,昆仑万维还同期开源了另一款重要模型——Matrix-3D大模型。该模型能够从单张图像出发,生成高质量且轨迹一致的全景视频,并直接还原可进行漫游的三维空间,其生成效果对标李飞飞领导的WorldLabs水平,进一步拓展了探索范围。
Matrix-3D的核心架构包含以下几个关键模块:
-
轨迹引导的全景视频生成模块:采用场景Mesh渲染图作为条件输入,训练视频扩散模型以生成符合指定相机轨迹的全景视频。通过这种方法显著提升了生成视频在空间结构上的一致性,并有效减少遮挡错误和图像伪影问题。
-
双路径可选择的全景3D重建模块:优化了处理流程,通过对生成视频进行超分与3D网格优化,获得更高质量的三维结构。该模块提供两条优化路径:前馈网络路径基于Transformer直接回归,从生成视频Latent特征快速预测三维几何属性;另一条则是反馈网络路径。
-
Matrix-Pano数据集:这是一个大规模高质量合成数据集,包含116K条带有时序信息、深度图和文本注释的静态全景视频序列,为模型训练提供了丰富的素材支持。
如需获取Matrix-Game和Matrix-3D两款模型的源代码,可访问以下开源地址:
https://github.com/SkyworkAI/Matrix-Game
https://github.com/SkyworkAI/Matrix-3D