浙大最新开源

2024-06-26 09:11| 来源: 网络整理| 查看: 265

来源：3D视觉工坊

添加v：dddvision，备注：3D GS，拉你入群。文末附行业细分群

0. 写在前面

这项工作解决了单目动态场景重建中质量与速度的权衡问题。其核心思路是在规范空间中学习3D高斯点，并通过变形场网络捕捉动态场景中的变化。主要技术路线包括：在规范空间中学习3D高斯点，利用变形场网络输出偏移，并通过差分高斯光栅化器进行联合优化。同时，引入退火平滑训练机制以减轻不精确位姿的影响。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction

作者：Ziyi Yang, Xinyu Gao, Wen Zhou, Shaohui Jiao, Yuqing Zhang, Xiaogang Jin

机构：浙江大学、字节跳动

原文链接：https://arxiv.org/abs/2309.13101

代码链接：https://github.com/ingra14m/Deformable-3D-Gaussians

官方主页：https://ingra14m.github.io/Deformable-Gaussians/

2. 摘要

隐式神经表示为动态场景重建和渲染的新方法铺平了道路。尽管如此，尖端的动态神经渲染方法严重依赖于这些隐式表示，这些表示经常难以捕捉场景中物体的复杂细节。此外，隐式方法很难在一般动态场景中实现实时渲染，这限制了它们在各种任务中的使用。为了解决这些问题，我们提出了一种可变形的3D高斯分布方法，该方法使用3D高斯分布重建场景，并在具有变形场的规范空间中学习它们以建模单目动态场景。我们还引入了一种没有额外开销的退火平滑训练机制，可以减轻不准确姿态对真实世界数据集中时间插值任务平滑性的影响。通过差分高斯光栅化器，可变形3D高斯不仅实现了更高的渲染质量，还实现了实时渲染速度。实验表明，我们的方法在渲染质量和速度方面明显优于现有方法，使其非常适合于新视图合成、时间插值和实时渲染等任务。

3. 效果展示

给定一组单目多视图图像和相机姿态（a），Deformable 3D Gaussians可以在新视图合成（b）和时间插值（c）任务中重建精确的动态场景几何形状并渲染高质量的图像。在具有复杂细节的真实数据集上，Deformable 3D Gaussians在渲染质量和时间性能方面优于HyperNeRF（d）。

可以看一下动态目标的重建效果，保留了很多的细节。

HyperNeRF数据集重建结果，真实性堪比视频录像。

4. 主要贡献

（1）提出可变形3D-GS框架用于建模单目动态场景，可实现实时渲染和高保真场景重建。

（2）提出一种新颖的退火平滑训练机制，可确保时间平滑性，同时保留动态细节而不增加计算复杂性。

（3）提出首个通过变形场为动态场景扩展3D-GS的框架，支持在规范空间中学习3D高斯模型。

5. 具体原理

Deformable 3D Gaussians原理概述：优化过程从来自COLMAP或随机生成的运动结构（SfM）点开始，这些点用作3D高斯模型的初始状态。使用具有位置编码的3D高斯γ（SG（x））的位置（分离的）和时间γ（t）作为变形MLP网络的输入，以获得规范空间中动态3D高斯的偏移量（δx，δr，δs）。在前3k次迭代中，为3D高斯模型使用了预热阶段，而没有优化变形场。随后，使用快速差分高斯光栅化流水线来执行变形场和3D高斯分布的联合优化，以及自适应地控制高斯分布集的密度。

5.1通过规范空间中的3D高斯点积进行可微渲染

作者通过3D高斯点积实现规范空间中的可微渲染。具体来说，利用差分高斯光栅化器，可以将3D高斯点投影到2D图像平面，并渲染出每像素的颜色。关键在于利用3D高斯点的位置、时间条件化偏移以及可学习参数来构建规范空间中的3D高斯点。通过这种可微渲染，可以为3D高斯点提供有效的梯度反馈，以便进行联合优化。

5.2 可变形3D高斯点

作者通过学习变形场网络来获取3D高斯点的偏移，从而实现动态场景的建模。变形场网络接受3D高斯点的位置和时间作为输入，并输出偏移量。这些偏移量可以将规范空间中的3D高斯点变换到变形空间，从而捕捉动态场景中位置和形状的变化。通过学习规范空间中的3D高斯点，并利用变形场网络进行动态变换，有效实现了对动态场景的建模。

5.3 退火平滑训练

动态场景中，在不准确的姿态下进行训练可能导致对训练数据的过拟合。为此，作者提出了退火平滑训练机制，以减轻不精确位姿对时间插值任务的影响。具体来说，在训练过程中，在时间编码中添加线性衰减的高斯噪声，以增强模型在早期训练阶段的时序泛化能力，并在后期训练阶段防止过度平滑，从而保留动态场景的细节。实验结果表明，这种机制可以显著改善动态场景的时间插值效果，并减少由于位姿估计不准确导致的时间序列抖动。

6. 实验结果

6.1 合成数据集对比

使用由D-NeRF引入的单目合成数据集，将Deformable 3D Gaussians与几种基线进行了基准测试。与结构一致性相关的度量，如LPIPS和SSIM，显示了该方法的显著优越性。定性结果突显了Deformable 3D Gaussians在提供高保真度动态场景建模方面的能力。

6.1 合成数据集对比

使用来自NeRF-DS和HyperNeRF的单目实际数据集来与基线方法进行比较。值得注意的是，对于一些HyperNeRF数据集，相机姿态非常不准确。鉴于像PSNR这样的用于评估图像渲染质量的指标倾向于惩罚轻微偏差而不是模糊，所以作者选择不将HyperNeRF纳入定量分析中。

此外，在渲染效率方面。渲染速度与3D高斯数量相关。总体而言，当3D高斯数量低于250k时，该方法能在NVIDIA RTX 3090上实现30帧每秒以上的实时渲染。

在深度可视化方面，还可视化了合成数据集场景的深度，以证明变形网络很好地适应于产生时间变换，而不是依赖基于颜色的硬编码。精确的深度强调了几何重建的准确性，对于新视角合成任务非常有优势。

7. 限制性

作者提到这项工作有如下不足，感兴趣的读者可以作为自己的研究方向：

（1）3D高斯的收敛受透视多样性的深刻影响。因此，由于数据集具有稀疏视角和有限的视角覆盖，可能导致该方法遇到过拟合挑战。

（2）该方法有效性取决于姿态估计的准确性。当该方法未在Nerfies/HyperNeRF数据集上达到最佳PSNR值时，这种依赖关系显而易见，归因于COLMAP通过姿态估计引起的偏差。

（3）该方法的时间复杂性与3D高斯的数量成正比。在具有大量3D高斯的情景中，训练持续时间和内存消耗可能潜在升级。

（4）评估主要围绕具有适度运动动力学的场景展开。该方法难以处理复杂的人体运动，如微妙的面部表情。

8. 总结

这篇文章引入了一种新颖的可变形3D高斯点渲染方法，专为单目动态场景建模而设计，其在质量和速度上均超越了现有方法。通过在规范空间中学习3D高斯点，增强了3D-GS可微渲染管线在动态捕捉的单目场景中的通用性。关键在于，与隐式表示相比，基于点的方法更具可编辑性，更适用于后期制作任务。此外，还采用了一种退火平滑的训练策略，旨在减少与时间编码相关的过拟合，同时保持复杂的场景细节，而不增加额外的训练开销。实验结果表明，该方法不仅实现了卓越的渲染效果，而且能够进行实时渲染。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

下载

在公众号「3D视觉工坊」后台，回复「 3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文；巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件；相机标定、结构光、三维重建、SLAM，深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群，包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向，细分群包括：

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理v：dddvisiona，备注：加群+方向+学校|公司, 小助理会拉你入群。

添加小助理v：dddvisiona，加群+方向+学校|公司，拉你入群

【本文地址】

公司简介

联系我们