分享自:

基于深度学习的仿生视觉场景简化

期刊:Augmented Humans International Conference 2021 (AHS '21)DOI:10.1145/3458709.3458982

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


深度学习驱动的仿生视觉场景简化技术研究

作者及机构
本研究由Nicole Han、Sudhanshu Srivastava、Aiwen Xu、Devi Klein和Michael Beyeler共同完成,所有作者均来自美国加州大学圣巴巴拉分校(University of California, Santa Barbara)。研究成果发表于2021年2月的*Augmented Humans International Conference (AHs ’21)*会议论文集。

学术背景
视网膜退行性疾病(如视网膜色素变性(retinitis pigmentosa, RP)和年龄相关性黄斑变性(age-related macular degeneration, AMD))导致全球超过1000万人严重视力受损。视网膜假体(retinal prostheses)通过电刺激残存的视网膜细胞产生人工视觉感知(光幻视,phosphenes),但其视觉质量仍较原始。传统研究假设电刺激产生的光幻视为孤立的光点,但近年证据表明,光幻视的形状受视网膜神经纤维束(nerve fiber bundle, NFB)轨迹影响,呈现非对称延伸特征。
本研究的目标是探索基于深度学习(deep learning)的场景简化策略,作为视网膜假体的预处理方法,以提升患者对复杂场景的理解能力。研究结合了生物启发模型与心理物理学验证,首次系统评估了不同算法在模拟 prosthetic vision(SPV)中的表现。

研究流程与方法
1. 视觉刺激数据集构建
- 研究团队使用头戴式Tobii Pro Glasses 2录制了16段第一视角户外视频(每段5秒),覆盖无人物/车辆、仅人物、仅车辆、人物与车辆共存四种场景。视频在加州大学圣巴巴拉分校校园内采集,公开于Open Science Framework平台。

  1. 场景简化策略设计
    研究测试了四种基于计算机视觉的预处理算法:

    • 视觉显著性(saliency):采用DeepGaze II模型生成显著性图,突出低阶视觉特征(如颜色、对比度)。
    • 单目深度估计(depth):使用Monodepth2模型预测深度图,保留最近80%的像素并通过指数衰减映射灰度值。
    • 对象分割(segmentation):结合MIT Scene Parsing Benchmark和Detectron2算法,提取人物、车辆等目标的二元掩膜,未检测目标时保留道路/人行道的结构边缘。
    • 混合策略(combination):融合显著性图(前10%像素)与对象分割结果,并通过深度信息调整灰度。
  2. 模拟 prosthetic vision(SPV)

    • 预处理视频输入开源工具pulse2percept,模拟不同视网膜假体配置下的视觉输出。模型参数包括:
      • 光幻视大小(ρ = 100/300/500 µm)
      • 光幻视延伸长度(λ = 0/1000/5000 µm)
      • 电极阵列分辨率(8×8、16×16、32×32)
    • 该模型首次整合了NFB轨迹对光幻视形状的影响(图2),突破了传统SPV假设光幻视为孤立圆点的局限。
  3. 虚拟患者实验

    • 45名视力正常受试者(18-21岁)在线参与,通过Simplephy平台观看SPV视频,判断场景中是否存在人物/车辆,并给出置信度评分(1-5级)。
    • 实验采用被试间设计,每组5人分配至不同的(ρ, λ)参数组合,共完成192次试验/人(16视频×4策略×3分辨率)。

主要结果
1. 场景简化策略性能
- 对象分割表现最优(灵敏度指数d′ = 1.13),显著优于显著性(d′ = 0.07, p<0.001)和深度策略(d′ = 0.29, p<0.001)。混合策略(d′ = 1.01)未显著提升性能(表1)。
- 对象分割的准确率(68%)、召回率(63%)和F1分数(0.68)均最高,因其直接标记语义目标,而显著性模型易受光照干扰,深度模型难以突出近处障碍物。

  1. 光幻视参数影响

    • 较小光幻视(ρ = 100 µm)的d′(0.81)显著优于ρ = 500 µm(d′ = 0.52, p=0.02),但延伸长度λ无显著影响(图6)。
    • 所有条件下d′>0,表明即使光幻视较大/延伸,简化策略仍能提供有效信息。
  2. 电极阵列分辨率

    • 16×16阵列的d′(0.72)显著优于8×8(d′ = 0.47, p<0.001),但32×32未进一步改善(p=0.37),提示电极数量非唯一限制因素(图8)。

结论与价值
1. 科学意义
- 首次验证对象分割在仿生视觉中的优势,为视网膜假体的图像预处理提供了算法优选依据。
- 提出基于NFB的生物启发模型,修正了传统SPV的简化假设,推动了对光幻视形状的定量研究。

  1. 应用价值
    • 为实时边缘计算(如神经形态硬件)的植入式设备开发奠定基础,未来可针对个体患者优化算法。
    • 公开数据集与代码(GitHub)促进了领域内可比研究。

研究亮点
1. 方法创新:首次将DeepGaze II、Monodepth2等前沿算法与生物物理模型结合,系统性评估性能。
2. 模型突破:通过ρ/λ参数量化光幻视形状变异,填补了SPV仿真与临床实际的差距。
3. 跨学科贡献:融合计算机视觉、神经科学和临床医学,为下一代视觉假体设计提供多维度指导。

其他发现
- 受试者置信度评分与d′趋势一致,但参数(ρ, λ)和分辨率无显著影响,提示主观体验可能依赖其他未测量因素。
- 未来需扩展至室内场景和导航任务,以验证算法普适性。


该报告完整覆盖了研究的背景、方法、结果与价值,突出了其跨学科创新性和临床转化潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com