12月18日讯,科技媒体9to5Mac昨日(12月17日)发布博文,称苹果公司开源了一款名为SHARP的新型AI模型。这一技术能够在一秒内将单张2D照片转换为逼真的3D场景。
据博文介绍,苹果发表题为《一秒内实现清晰的单目视图合成》(Sharp Monocular View Synthesis in Less Than a Second)的论文,详细说明了如何训练该模型。当接收用户提供的普通2D照片后,SHARP能够在一秒钟内重建出具有真实物理比例的3D场景。
与传统方案相比,SHARP将合成速度提升了三个数量级,实现了近乎实时的3D转换体验。
在技术方面,SHARP采用了先进的3D高斯泼溅技术(3D Gaussian Splatting)。这一方法将3D场景视为无数个带有颜色和光影信息的“模糊光团”(高斯球)。
传统的3D重建需要对同一场景拍摄数十甚至上百张不同角度的照片,并通过复杂计算确定光团位置。而苹果通过使用大量合成数据与真实世界数据训练SHARP,使其掌握了通用的深度与几何规律。
因此,当处理一张新照片时,SHARP能通过神经网络的单次前馈传递,直接预测出数百万个3D高斯球的位置与外观,瞬间完成建模。
在成像质量上,SHARP也达到了新的高度。根据苹果公布的论文数据,在多个基准测试中表现优异。
与业内最强模型相比,SHARP在LPIPS(感知图像块相似度度量标准)上降低了25个百分点至34%,DISTS(纹理相似度指标)降低21个百分点至43%。这意味着生成的3D视图在细节和结构上更接近真实世界,并支持真实的相机移动模拟。
不过,SHARP目前仍存在一定的物理限制。它主要重建拍摄视角附近的3D视图,而不处理照片中未被拍摄或遮挡的部分。
因此,在浏览生成的3D场景时,视角移动范围需保持在原图拍摄位置附近区域。苹果已将SHARP的完整代码及相关资源发布至GitHub平台,全球开发者均可下载测试,这将极大推动移动端3D内容创作与空间计算应用的发展。
以下是网友利用该模型生成的部分3D场景:
