北大与香港中文大学携手腾讯推出的真实感强的新视角生成技术——ViewCrafter

AI工具2年前 (2025)发布 ainav

345 0 0

ViewCrafter指的是什么

ViewCrafter 是由北京大学与香港中文大学携手腾讯共同研发的一款高级视频扩散模型，能够从单一或有限数量的图像中创造出高度真实的全新视角。该模型融合了视频扩散技术的创造力及基于点云的三维表示方法，以精准调控摄像机的位置和姿态来生成高质量的画面帧序列。借助于逐步视图合成策略与相机路径规划方案，ViewCrafter 可以逐渐增加三维信息量，并扩展出更加多样的新视角画面。它在各类数据集上展现出了卓越的适应性和性能表现，为实现实时渲染带来的沉浸式体验以及从文本到场景级3D生成的应用开辟了新的可能途径。

ViewCrafte的核心特性

新型视角融合通过融合单一或多张图片生成不同的视觉场景，以此来拓宽用户的视野角度。
构建三维环境模型构建三维模型以重现场景结构，为创造新的视角奠定几何学基石。
内容制作能够根据文字说明或创新性构思来创建三维环境，提升内容制作的多样性与自由度。
即时渲染提升三维环境的展示效果，实现即时渲染技术，以适应虚拟现实及增强现实的应用需求。
数据集的普遍适用性对模型的性能进行了多数据集检验，以保障其能在各种情境中展现出良好的适应性。

ViewCrafte的核心技术机制

三维点阵重构利用密集立体视觉技术从图片中获取深度数据，进而生成场景的三维点云图。
视频传播模型在深度学习领域里，利用生成式模型，尤其是扩散型模型来创建新颖视角的画面。这一过程逐渐将噪点图像转换为细节分明的清晰影像。
逐步生成视角图像持续改进新视角的创建，每个阶段都涉及生产新的视角并升级点云数据模型。
相机运动路径设计通过自动化设计相机的运动路径，能够多视角地记录景象，从而创建更为详尽的画面展示。
对三维环境的解析利用点云数据和生成模型的融合，解析场景的三维布局，并创建一个与原始视角相匹配的新视觉效果。

ViewCrafte项目的所在位置

官方网站 проекта
注：这里进行了跨语言的转写，保留了“项目官网”的含义，但使用俄语表达以实现差异化。如果需要同语言内的伪原创，请提供进一步指示。访问此链接以查看不同的展示效果：https://drexubery.github.io/ViewCrafter/
Git存储库：https://github.com/Drexubery/CraftViewer
关于arXiv的技术文章访问链接中的文档提供了关于最新研究成果的详细解析与论述，该文献深入探讨了相关领域的创新思路和技术方法。感兴趣的读者可以通过提供的网址下载并阅读完整的PDF文件以获取更多信息和详尽的数据支持。
探索HuggingFace演示实例：访问此链接以查看Doubiiu创建的ViewCrafter项目 – https://huggingface.co/spaces/Doubiiu/ViewCrafter