学术研究报告:EndoGaussian——基于高斯泼溅的柔性组织4D重建框架
一、研究团队与发表信息
本研究的核心团队来自香港中文大学电子工程系,包括第一作者Yifan Liu、共同作者Chenxin Li、Hengyu Liu、Chen Yang(IEEE会员)及通讯作者Yixuan Yuan(IEEE高级会员)。研究成果以《Foundation Model-guided Gaussian Splatting for 4D Reconstruction of Deformable Tissues》为题,于2025年6月发表于IEEE Transactions on Medical Imaging(第44卷第6期)。研究得到中国国家自然科学基金(项目号62001410)和香港研究资助局(RGC/GRF项目号14220622)的支持。
二、学术背景与研究目标
科学领域:本研究属于医学图像计算与计算机辅助手术领域,聚焦于内窥镜视频中动态组织的实时三维重建。
研究动机:现有手术场景重建方法(如基于神经辐射场NeRF的技术)因渲染速度慢(需逐点光线查询)难以满足术中实时需求。尽管3D高斯泼溅(3D Gaussian Splatting, 3DGS)通过显式高斯表示提升了效率,但其在动态组织重建中面临两大挑战:(1)传统SFM(如COLMAP)初始化因组织形变和光照变化导致稀疏点云;(2)原始3DGS缺乏对时空动态的建模能力。
研究目标:开发EndoGaussian框架,实现高保真组织重建、高效训练与实时渲染(>100 fps),推动手术导航与机器人自主决策的临床应用。
三、研究方法与流程
1. 基础模型驱动的初始化(Foundation Model-driven Initialization, FMI)
- 输入数据:单目或双目内窥镜视频(EndoNeRF数据集807帧,Hamlyn数据集301帧)。
- 关键步骤:
- 工具分割:利用视觉基础模型Grounded-SAM(基于Grounded-DINO和SAM)自动生成器械掩膜,替代人工标注(耗时且不可靠)。
- 深度估计:双目输入使用STTR模型生成度量深度图;单目输入采用Depth Anything Model(DAM)预测相对深度。
- 3D映射:通过相机标定参数将非器械像素反向投影为3D点云,初始化高斯均值位置(30,000个点)。
- 创新点:首次将视觉基础模型(VFMs)的3D先验知识用于高斯初始化,解决动态场景下SFM的稀疏性问题。
2. 时空高斯跟踪(Spatio-temporal Gaussian Tracking, SGT)
- 动态建模:
- 编码器设计:将4D时空分解为六组正交平面(HexPlane),通过双线性插值查询高斯特征,显式捕获邻近时空关联性。
- 多属性解码:使用轻量级MLP头部分别预测位置(µ)、旋转(R)、缩放(S)的偏移量,保持透明度(o)和球谐系数(SH)稳定以提升时序一致性。
- 优势:相比纯MLP建模,HexPlane的显式结构使训练收敛速度提升50%,渲染帧率提高50 fps。
3. 运动感知帧合成(Motion-aware Frame Synthesis, MFS)
- 大形变处理:
- 运动估计:预训练后计算高斯位置偏移的L2范数,归一化为概率分布,筛选高运动区间。
- 帧插值:采用RIFE模型在运动剧烈区间合成中间帧,通过相邻掩膜交集生成新掩膜,增加训练约束。
- 效果:PSNR提升0.88 dB,显著减少大形变导致的渲染模糊。
四、实验结果与贡献
1. 性能对比
- 质量与速度:在EndoNeRF数据集上,EndoGaussian以38.555 PSNR(峰值信噪比)、168 fps的渲染速度、2分钟/场景的训练效率,超越所有基线(如EndoNeRF的35.537 PSNR/0.1 fps,EndoGS的37.293 PSNR/91 fps)。
- 可视化优势:如图2所示,EndoGaussian在器械遮挡区域和复杂形变组织(如切割、牵拉)中保留了更精细的几何纹理细节。
2. 消融实验验证
- 初始化策略:相比SFM初始化,FMI将PSNR从36.431提升至38.555,且减少30秒预处理时间。
- HexPlane有效性:替换为纯MLP时PSNR下降至30.838,证实显式时空先验的必要性。
- 单目版本(EndoGaussian-M):仅使用单目视频时PSNR为37.080,仍优于同类方法(如mForplane的35.238)。
五、研究结论与价值
科学价值:
- 提出首个基于高斯泼溅的术中动态组织重建框架,通过基础模型先验与时空分解技术,解决了动态场景的初始化稀疏性与形变建模难题。
- 为神经渲染在医疗领域的应用提供了“高质量-高效率”双优的新范式。
应用价值:
- 实时手术导航:168 fps的渲染速度满足术中实时可视化需求。
- 虚拟训练与机器人学习:高保真重建场景可加速医生技能培训与机器人自主算法开发。
六、研究亮点
1. 方法创新:
- 首创基础模型引导的高斯初始化,避免人工干预;
- 设计多尺度HexPlane与轻量解码器,平衡动态建模效率与精度。
2. 性能突破:首次在医疗场景实现“超实时”渲染(168 fps)与亚毫米级重建误差。
3. 开源贡献:代码发布于GitHub(https://github.com/cuhk-aim-group/endogaussian),推动领域复现与拓展。
七、局限与展望
当前框架在RTX 4090上需2分钟/场景的训练时间,未来可通过轻量化算法或手术专用基础模型进一步优化。研究团队计划探索云部署方案,以适配临床硬件环境。