苹果公司近日开源名为SHARP的新型AI模型,该技术可在一秒内将单张2D照片转换为逼真的3D场景。
根据论文《一秒内实现清晰的单目视图合成》,SHARP通过训练神经网络,在接收一张普通2D图像后,能快速重建具有真实物理比例的3D环境。
相比传统方案耗时数分钟至数小时,SHARP将处理速度提升三个数量级,实现近乎实时的3D合成。
该模型采用3D高斯泼溅技术(3D Gaussian Splatting),将3D场景视为大量携带颜色与光影信息的“模糊光团”(高斯球)。
传统方法需多角度图像进行复杂计算以确定光团位置,而SHARP利用海量合成与真实数据训练,掌握通用深度与几何规律。
面对新图像时,模型通过单次前馈传递直接预测数百万个3D高斯球的位置与外观,完成瞬时建模。
在成像质量方面,SHARP在多个基准测试中表现优异,LPIPS指标降低至34%,较此前最佳模型下降25个百分点;DISTS指标降至43%,改善21个百分点。
这表明其生成的3D视图在纹理细节和结构还原上更接近真实世界,并支持绝对尺度和真实的相机移动模拟。
但模型存在物理限制:为兼顾真实性与效率,主要重建原视角邻近区域,不生成完全遮挡或未拍摄到的盲区内容。
因此用户浏览时的视角移动范围受限于原始拍摄位置附近。
目前苹果已在GitHub平台发布SHARP完整代码及相关资源,全球开发者可下载测试,此举有望加速移动端3D内容创作及空间计算应用发展。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



