DUSt3R —— 利用图像集构建三维场景的架构

AI工具2年前 (2025)发布 ainav

487 0 0

DUSt3R指的是什么？

DUSt3R（密集无约束立体三维重建）是芬兰阿尔托大学和Naver欧洲实验室的研究团队开发的一种3D重建系统，其目标在于简化从一组随机图像中构建三维场景的过程，并且无需预先掌握相机的校准数据或拍摄视角的位置信息。此技术通过将成对重构视为点图回归的问题来运作，它放松了传统投影摄像机模型所施加的限制条件，并采用了全局对齐的方法来协调多幅图像间的重建工作。

访问DUSt3R官方网站的入口

官方网站地址：https://dust3r.europe.naverlabs.com/
码云仓库地址：https://github.com/naver/dust3r
在arXiv平台上发布了一篇研究论文，其详细信息可在以下链接中找到：https://arxiv.org/abs/2312.14132

DUSt3R的核心特性

高效三维重构DUSt3R具备在不足两秒的短时间内由输入图像生成三维模型的能力，这使其成为实时应用及快速建模的理想选择。
不必进行摄像头标定不同于传统三维重建方法，DUSt3R在操作过程中不依赖于相机调整和视角位置的预先设定信息。换句话说，使用者不必经历繁琐的配置步骤，仅需上传图像资料便可开始使用。
多重视角三维重构（MV3R）DUSt3R具备执行多视角立体重建的能力，在接收超过两幅输入图片时，仍能高效地把所有的点对关系整合进同一个参照系统中。
单一视角与双重视角的重构DUSt3R整合了单一图像与成对图像的三维重建功能，意味着它既能通过单独的一张图片也能利用一对图片来完成三维建模。
创建各类不同的三维视觉图像除进行3D重构外，DUSt3R亦具备创建深度图像的能力，这使其能够解析场景内各物体间的相对位置与距离关系。不仅如此，该工具还提供置信度图像输出服务，用以评判重构结果的精确性，并且能生成适用于三维建模和视觉展示的点云图。

DUSt3R的核心技术机制

点击地图（ClickMaps）DUSt3R采用点图作为主要表达形式，这种二维密集场内含了三维空间中各点的数据信息。该方法为每一个图像像素分配一个关联的三维坐标点，实现了从图像像素到三维环境中的具体位置的一一映射关系。
基于Transformer的模型结构DUSt3R的设计采用了标准的Transformer编码器与解码器结构来搭建其网络框架。这种设计使得模型能够借助强有力的预训练基础，在缺乏明确几何限制的前提下，依然可以从给定的输入图片中提取出详尽的几何及视觉特征信息。
全程训练流程DUSt3R采用端到端的训练方法，能够直接从图像配对中提取出点图信息，无需经历诸如特征匹配和三角测量之类的复杂多阶段流程。
整体同步方案在应对超过两幅图像的情况下，DUSt3R引入了一个全局校准方案，这个方案能够让所有的配对点映射到同一参照系统内，并能有效管理多组图片组合的问题，在多视角的三维重构领域中显得尤为关键。
多重任务训练DUSt3R可以在培训期间同步掌握包括深度预测、摄像机参数计算及像素匹配在内的多项关联任务。此种多元任务的学习方法让模型能更加全方位地解析场景中的几何构架。

# AI工具