在三维重建不断走向工程化的今天,前馈式 3D Gaussian Splatting(Feed-Forward 3DGS)正火速走向产业化。
然而,现有的前馈 3DGS 方法主要采用"像素对齐"(pixel-aligned)策略——即将每个 2D 像素单独映射到一个或多个 3D 高斯上。
这一做法看似直观,但仍面临两道不可忽视的"天花板":二维特征难以在三维中精确对齐、以及高斯基元数量被像素网格死死绑定,无法按场景复杂度智能分配。
VolSplat大胆抛弃像素对齐的固有范式,提出"体素对齐"(voxel-aligned)的前馈框架:在三维空间中融合视图信息,从根本上破局,让高质量的多视角渲染变得更鲁棒、更高效、更易工程化。
在公开数据集上的对比实验显示,VolSplat 在 RealEstate10K 和 ScanNet(室内)数据集上的视觉质量与几何一致性上均优于多种 pixel-aligned baseline。这些数值既说明了视觉质量的提升,也反映了几何一致性的增强。
VolSplat 的核心思路:把"对齐"从二维搬到三维
原有的像素对齐前馈 3DGS ,正面临两项无法回避的痛点。
第一,多视图对齐难题:基于 2D 特征的匹配难以可靠地解决多视角间的几何一致性问题——当深度估计不稳、遮挡或视角差异出现时,2D 特征难以在三维空间里精确对齐,常导致浮空伪影与几何畸变。
第二,高斯密度受限:Gaussian 的生成往往被像素网格所束缚,无法根据场景复杂度进行自适应分配;往往导致复杂结构表达不足,而平坦或冗余区域却消耗了大量表示容量。
综合来看,这两点直接阻碍了前馈 3DGS 在稠密视角、复杂结构与大场景下的扩展与稳健表现。
为了突破这两项挑战,VolSplat 的核心思路直截了当却极具穿透力:不再在二维像素层面孤立预测,而是将多视角的二维特征利用每视图预测的深度图反投影并聚合到统一的三维体素网格(voxel grid)中,在这个统一坐标系里进行聚合与多尺度特征融合与细化(refine)(采用稀疏 3D U-Net 实现),最好仅在那些被占据的体素上回归 Gaussian 参数。
这一范式的效果即时且深远:在 3D 网格内,视图间的不一致被天然消融;高斯密度不再被像素网格绑架,而是基于体素的"有无"和复杂度动态分配。这一范式带来的直接好处可以概括为四点:
(1) 跨视图一致性显著增强:不再完全依赖易错的 2D 特征匹配,信息在三维空间中融合,更稳定。
(2)高斯密度按需分配:根据场景复杂度动态分配高斯数量,复杂结构处高密度、平坦区域低密度,实现更精细且节省资源的表示。
(3)几何一致性更强:体素聚合与 3D U-Net 的多尺度细化有效减少"浮点"和伪影,细节与边界更清晰。
(4)易与外部 3D 信号融合:深度图、点云等 3D 信号可自然融入体素化流程,无需复杂投影操作。
为便于工程实现与扩展,VolSplat 将整体 pipeline 拆解为三个清晰模块:2D 特征与深度估计、像素→体素的 lifting 与聚合、以及体素级的特征 refine 与 Gaussian 回归。每个模块各司其职,彼此衔接,既利于分步调试,也方便在工程上作伸缩与优化。
第一步—— 2D 特征提取与深度估计(Feature extraction & Depth prediction)
对每张输入图像,VolSplat 使用共享的图像编码器(结合卷积与 Transformer 层)提取下采样的二维特征,并基于 plane-sweep 构建 per-view cost volume,用以融合邻近视图信息并回归每视图的稠密深度图。该阶段为后续的像素到三维点的反投影(lifting)提供必要的几何先验与特征描述。
第二步——像素反投影到体素并进行特征聚合(Lifting + Voxelization)
将每个像素依据其预测深度反投影到世界坐标,得到带有图像特征的三维点云,随后把这些点按预设体素大小离散化(voxelization),对落入同一体素的点的特征做聚合得到初始 voxel feature,这一步把来自不同视角的特征在 3D 空间里自然对齐,便于后续体素级处理。
第三步——稀疏 3D U-Net 细化与基于体素的 Gaussian 回归(Sparse 3D refinement+Gaussian prediction)
将初始 voxel features 输入稀疏 3D U-Net 解码器,该网络以残差形式预测每个体素的修正项,从而实现多尺度的局部与全局几何上下文融合,这种残差更新有助于网络只学习必要的几何细化而非重建全部特征,既稳健又高效。
随后,仅在被占据的体素上回归每个 Gaussian 的参数(位置偏移、协方差、不透明度与颜色系数)。最终使用 Gaussian Splatting 渲染 novel views,并以像素级与感知损失进行端到端训练。
实验亮点:效果、泛化全面领先
除上述效果外,尤其令人瞩目的是 VolSplat 跨数据集的零样本泛化能力,在未见过的 ACID 数据集上,VolSplat 依然保持高性能(PSNR 32.65dB),展现出强劲的泛化能力。
定性结果更直观,在边缘、细节和复杂几何处,VolSplat 展现出更少的浮空伪影、纹理错位与几何畸变,Gaussians 在 3D 空间上的分布也更贴近真实场景的几何分布,而非被像素网格"均匀绑架"。这样的效果在实际产品体验(例如虚拟看房、室内漫游)中直接转化为更稳健、更自然的视觉体验。
VolSplat 的提出并不是终点,而是提供了一种新的研究方向。它为前馈 3D 重建打开了全新的可能性。在机器人和自动驾驶中,提供更稳定的三维感知输入。在 AR/VR 中,实现更加流畅、真实的渲染体验。在三维视觉研究中,为统一的体素框架下融合多模态数据提供新途径。
未来,VolSplat 可以作为前馈 3D 重建的一种新的探索方向,为相关的学术研究和工程应用提供参考。
论文链接:https://arxiv.org/abs/2509.19297
项目主页:https://lhmd.top/volsplat
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
炒股配资官网开户,景逸策略,配资平台实盘平台提示:文章来自网络,不代表本站观点。