基于多模态视觉特征的内窥镜自我运动估计框架

分享自：
基于多模态视觉特征的内窥镜自我运动估计框架

生物医学工程
医学
信息科学
人工智能
计算机科学
期刊:IEEE Transactions on Industrial InformaticsDOI:10.1109/TII.2025.3556056
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
EndoMode：基于多模态视觉特征的内窥镜自运动估计框架
一、作者及发表信息
 本研究由Fudan University（复旦大学）工程与应用技术研究院的Liangjing Shao（邵亮晶，IEEE学生会员）、Benshuang Chen（陈本双）、Shuting Zhao（赵舒婷）和Xinrong Chen（陈新建）合作完成，发表于《IEEE Transactions on Industrial Informatics》2025年8月刊（第21卷第8期）。
二、学术背景
 研究领域：计算机视觉与医学图像分析，聚焦于内窥镜场景下的单目视觉里程计（Visual Odometry, VO）和深度估计（Depth Estimation）。
 研究动机：内窥镜手术中，狭窄体腔内的实时导航和场景感知依赖精确的相机位姿估计和深度信息。传统方法（如光学或电磁跟踪系统）易受遮挡或电磁干扰，且成本高昂；而现有基于深度学习的自运动估计（Ego-Motion Estimation）框架多依赖单一视觉模态，难以应对内窥镜场景的复杂光照、形变和组织纹理相似性挑战。
 研究目标：提出一种新型多模态视觉特征融合框架EndoMode，实现内窥镜场景下高精度的实时位姿估计与深度预测。
三、研究流程与方法
 1. 框架设计
 - 多模态特征提取：
 - 光学流（Optical Flow）：采用FastFlowNet预训练模型计算相邻帧间的运动特征，通过双TV-L1算法微调以适配内窥镜域。
 - 场景特征：基于MambaOut-Tiny架构设计特征提取器（FS），从单帧图像提取空间特征；引入通道注意力模块（Channel Attention-based Module）整合拼接图像的多维相关性。
 - 特征交互模块（Feature Interaction Module）：通过MLP层融合当前帧与历史帧的特征，增强时序信息。
 - 位姿解码器（Pose Decoder）：创新性采用深度可分离卷积（Depthwise Separable Convolution）构建多尺度特征表示，通过分组卷积与残差连接提升计算效率。
双任务管线
全监督单目里程计：基于几何损失函数（含平移与四元数误差）训练，递归计算绝对位姿。
 
自监督深度估计：结合光度一致性损失（Photometric Loss）、外观流（Appearance Flow）和边缘感知平滑损失（Edge-aware Smoothness Loss），通过图像重构优化深度网络。
 
实验验证
数据集：覆盖5个内窥镜数据集（NEPose、SimCol、EndoSLAM、SCARED、Hamlyn），涵盖鼻腔、结肠、腹腔等场景，样本量总计超3万帧。
 
对比方法：包括PoseResNet、Attention PoseNet、EndoMotionNet等7种前沿模型。
 
评估指标：
 里程计：绝对平移误差（ATE）、方向余弦误差（CE）、相对运动误差（RTE/Rot）。
 
深度估计：绝对相对误差（Abs Rel）、均方根误差（RMSE）等5项标准指标。
 
四、主要结果
 1. 里程计性能
 - 在NEPose和SCARED数据集上，EndoMode的定位误差（<8 mm）显著低于对比方法（>10 mm）；SimCol与EndoSLAM的误差降低1-2 cm。
 - 方向预测精度（CE）提升20%以上，归因于多模态特征对光照变化的鲁棒性。
深度估计优势
在SCARED数据集上，Abs Rel为0.112（对比方法最优0.138）， foreground组织（如隆起血管）的深度预测更准确。
 
自监督管线在Hamlyn上的跨域测试显示泛化能力，验证了光学流与特征交互模块的有效性。
 
消融实验
移除通道注意力模块（MD）导致CE上升15%，证明多维特征整合的必要性。
 
传统位姿解码器（如全连接层）的RTE误差比EndoMode高30%，凸显多尺度卷积的优越性。
 
五、结论与价值
 科学价值：
 - 首次将多模态视觉特征（光学流、场景特征、时序相关性）系统化融合，为内窥镜视觉感知提供新范式。
 - 提出的深度可分离卷积位姿解码器，为轻量化实时计算开辟路径。
 应用价值：
 - 支持内窥镜手术导航系统的实时位姿跟踪（40 FPS），精度满足临床需求（ cm误差）。
 - 深度估计结果可辅助3D场景重建，提升手术视野的立体感知。
六、研究亮点
 1. 方法创新：
 - 通道注意力模块动态加权多维特征，解决内窥镜图像纹理单一问题。
 - 特征交互模块通过MLP实现跨帧信息融合，替代传统LSTM的序列依赖。
 2. 性能突破：在5个数据集上均达到SOTA（State-of-the-Art），尤其对透明组织（如黏膜）的深度预测误差降低25%。
七、局限与展望
 当前框架对血液遮挡或强反射场景的适应性不足，未来可结合透明物体深度估计技术（如DFNet-Trans）进一步优化。此外，EndoMode的位姿估计结果可赋能神经辐射场（NeRF）等新型重建方法，推动内窥镜场景的4D建模。
（注：全文约2000字，涵盖研究全流程，数据与结论均基于原文提炼。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问