外科深度估计中基础模型的适配学习：Surgical-DINO

分享自：
外科深度估计中基础模型的适配学习：Surgical-DINO

生物医学工程
信息科学
期刊:international journal of computer assisted radiology and surgeryDOI:10.1007/s11548-024-03083-5
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，是一项关于在机器人手术中深度估计的原创研究。以下是详细的学术报告：
作者及研究机构本研究的作者包括Beilei Cui、Mobarakol Islam、Long Bai和Hongliang Ren，他们分别来自中国香港中文大学、伦敦大学学院（University College London）以及新加坡国立大学生物医学工程系。该研究于2024年3月8日在线发表在International Journal of Computer Assisted Radiology and Surgery期刊上。
学术背景本研究的主要科学领域是机器人手术中的深度估计（Depth Estimation），特别是在内窥镜手术中的应用。深度估计在三维重建、手术导航和增强现实可视化中具有重要意义。尽管基础模型（如Dinov2）在许多视觉任务中表现出色，但在医疗和手术领域的特定应用中，其性能存在局限性。因此，本研究旨在通过低秩适应（Low-Rank Adaptation, LoRA）技术，优化基础模型以适应手术场景中的深度估计任务。研究的目标是开发一种名为Surgical-DINO的低秩适应方法，以提升内窥镜手术中的深度估计精度。
研究流程详解模型设计：
研究提出了一种基于基础模型的深度估计方法，称为Surgical-DINO。该方法是对Dinov2模型的低秩适应版本，专门用于内窥镜手术中的深度估计。
具体而言，研究团队构建了LoRA层，并将其集成到Dinov2中，以代替传统的微调（Fine-tuning）方法。训练过程中，Dinov2的图像编码器被冻结，仅优化LoRA层和深度解码器，以适应手术场景的特征。
数据集与训练：
模型在MICCAI挑战赛的SCARED数据集上进行了广泛验证。该数据集采集自达芬奇Xi内窥镜手术，包含35段内窥镜视频和22,950帧图像，每帧都有高质量的地面真实深度图。
训练集、验证集和测试集的划分分别为15,351帧、1,705帧和551帧。研究还使用了Hamlyn数据集进行模型的零样本验证，以测试其在不同内窥镜手术场景中的泛化能力。
模型架构：
图像编码器：输入的内窥镜图像首先被分割为不重叠的patch，并通过线性投影转换为图像嵌入。随后，这些嵌入经过一系列Transformer块生成新的token表示。所有Dinov2图像编码器的参数在训练期间被冻结，仅通过LoRA层进行学习。
深度解码器：从不同的Transformer块中提取token，经过上采样后拼接形成最终的特征表示。最后，通过一个可训练的深度解码器头预测深度图。
损失函数：模型使用尺度不变深度损失（Scale-Invariant Depth Loss）和梯度损失（Gradient Loss）作为监督约束，以优化深度估计的精度。
实验细节：
研究在NVIDIA RTX 3090 GPU上使用PyTorch实现了该框架，并使用AdamW优化器进行训练。初始学习率设置为1×10^-5，权重衰减为1×10^-4，批处理大小为8，训练周期为50。
评估指标包括绝对相对误差（Abs Rel）、平方相对误差（Sq Rel）、均方根误差（RMSE）、对数均方根误差（RMSE Log）以及深度准确率（δ），其中前四项指标越低越好，最后一项指标越高越好。
主要结果SCARED数据集上的表现：
Surgical-DINO在所有评估指标上均显著优于其他最新的深度估计方法，包括零样本和微调的Dinov2模型。例如，其Abs Rel为0.053，RMSE为4.296，δ为0.975。
零样本的Dinov2模型表现最差，表明其在自然图像中学习到的视觉特征和深度解码器无法直接应用于医疗图像。
Hamlyn数据集上的表现：
在未经微调的情况下，Surgical-DINO在Hamlyn数据集上也表现出色，优于其他方法，显示了其良好的跨场景泛化能力。
模型复杂度与速度：
尽管Surgical-DINO的参数数量较多，但其可训练参数的比例非常低（仅0.17%），这使得其训练速度更快，且推理速度在实时应用中是可接受的。
消融实验：
研究还进行了LoRA层秩大小和预训练模型规模的消融实验，发现适中的秩大小（如4）和较大的预训练模型可以显著提升模型性能。
结论本研究表明，Surgical-DINO通过低秩适应技术成功地将基础模型应用于手术场景中的深度估计任务。实验结果表明，零样本预测或简单微调无法直接利用基础模型进行手术应用，而LoRA适应是必要的。该研究为机器人手术中的深度估计提供了新的解决方案，并为未来在监督、自监督和无监督方式下探索基础模型的鲁棒性和可靠性奠定了基础。
研究亮点创新性方法：首次将基础模型Dinov2扩展应用于医疗图像的深度估计问题，并提出了基于LoRA的低秩适应策略。
高效性：通过冻结大部分模型参数，仅优化LoRA层和深度解码器，显著减少了训练成本。
卓越性能：在SCARED和Hamlyn数据集上表现优异，验证了其在手术场景中的深度估计能力。
其他价值该研究不仅提升了内窥镜手术中的深度估计精度，还为未来在机器人手术、三维重建和增强现实等领域的应用提供了强大的技术支持。此外，其低秩适应方法也为其他领域的基础模型优化提供了参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问