分享自:

融合注意力机制与GNN的可见光室内定位方法

期刊:光学学报DOI:10.3788/aos241361

学术研究报告:融合注意力机制与GNN的可见光室内定位方法

作者及发表信息
本研究由西安工业大学电子信息工程学院的孟祥艳、奚田(通讯作者)、赵黎、张峰合作完成,发表于《光学学报》2025年第45卷第2期,标题为《融合注意力机制与GNN的可见光室内定位方法》。论文编号为0206003,DOI号为10.3788/aos241361。

学术背景
随着移动互联网和位置服务(LBS)的普及,室内定位技术成为研究热点。然而,传统GPS因遮挡问题无法适用于室内环境,而现有基于图像传感器的可见光定位方法(如卷积神经网络CNN)存在普适性差、实时性不足、旋转与尺度不变性弱等缺陷。针对这些问题,本研究提出了一种结合注意力机制(Attention Mechanism)和图神经网络(Graph Neural Network, GNN)的新型定位模型,旨在通过几何信息嵌入和动态特征增强,提升定位精度至厘米级。

研究流程与方法
1. 实验环境搭建
在4 m×4 m×3 m的模拟室内空间中,均匀布设4个10 W的LED光源,地面划分为5 cm×5 cm的网格,共采集3510幅可见光图像构建指纹库。采用全局快门传感器捕捉图像,并通过激光校准设备确保采集位置精确对齐。

  1. 特征提取与优化

    • 可变形卷积(Deformable Convolution, DCN):为解决常规卷积对几何形变适应性差的问题,DCN通过引入偏移变量实现动态采样,采样时间从标准卷积的0.083 s增至0.127 s,但特征提取精度显著提升(图2-3)。
    • 多层级特征融合:结合特征金字塔结构(MulDet)和峰值测量技术,通过加权求和不同卷积层(Conv1、Conv3、Conv8)的特征图,恢复分辨率并增强关键点检测(公式6)。
  2. 注意力机制与GNN融合

    • 图结构建模:将图像特征点转化为图节点,通过GNN聚合图内和图间信息,生成含几何位置的特征描述符(公式7)。
    • 动态权重分配:设计7层网络(奇数层为图像内注意力,偶数层为图像间注意力),利用线性映射和Softmax函数计算特征点权重(公式8-11),突出关键区域。
    • 最优传输匹配:通过内积构建代价矩阵,引入“垃圾箱”机制过滤误匹配点,算法复杂度为O(n²),匹配耗时仅0.183 s(表2)。
  3. 鲁棒性验证实验
    对采集设备进行旋转(0°~30°)和倾斜(0°~30°)测试,结果显示:

    • 旋转30°时,匹配准确率较SuperPoint算法提升17%(图14);
    • 倾斜30°时,匹配率提高13%,特征点提取数量达4015个(SuperPoint仅201个)(图11-13)。

主要结果
1. 定位精度
在高度h=0、0.75、1.50 m时,平均定位误差分别为5.93 cm、7.21 cm、9.15 cm(图15-17)。误差分布显示:
- h=0时,93%误差≤5 cm;
- h=1.50 m时,79%误差≤5 cm(图18)。

  1. 影响因素分析

    • 高度增加导致视野收缩和光照不均,误差增大;
    • 注意力机制使匹配度提升14.5%(图19);
    • 光照强度在300~800 lx范围内,匹配度稳定在80%以上(图20)。
  2. 算法效率
    在NVIDIA GeForce GTX 4060上,512特征点耗时71 ms,1024点耗时93 ms(图21),显著优于D2-Net(耗时减少71%)。

结论与价值
本研究通过DCN-GNN-注意力机制的三重优化,实现了厘米级室内定位(平均误差7.43 cm),解决了传统方法对几何信息忽略的问题。其科学价值在于:
1. 方法创新:首次将GNN与注意力机制结合用于可见光定位,特征点提取数量提升20倍;
2. 应用潜力:适用于复杂光照和动态遮挡环境,为智能家居、室内导航提供高鲁棒性方案;
3. 硬件兼容性:仅需普通摄像头和LED光源,成本低廉且易于部署。

研究亮点
1. 跨学科融合:将计算机视觉(DCN)、图计算(GNN)与通信技术结合,提出端到端的定位框架;
2. 动态适应性:通过可变形采样和注意力权重,实现旋转/倾斜不变性;
3. 开源贡献:实验数据与代码结构完整,为后续研究提供基准(如特征提取耗时对比表2)。

其他发现
训练数据集规模对精度影响显著:当训练集比例从30%增至70%时,预测坐标与实际坐标的偏差明显缩小(图22),表明数据量是模型泛化能力的关键因素。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com