分享自:

基于注意力机制卷积神经网络的室内可见光3D定位算法稳定性优化

期刊:photonicsDOI:10.3390/photonics11090794

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于注意力机制卷积神经网络的室内可见光三维定位算法稳定性优化研究

作者及机构
本研究由Wenjie Ji、Lianxin Hu、Xun Zhang(通讯作者)、Jiongnan Lou、Hongda Chen和Zefeng Wang共同完成。作者团队来自中国湖州大学信息工程学院(School of Information Engineering, Huzhou University),其中Xun Zhang同时隶属于法国巴黎高等电子学院(Institut Supérieur d’Électronique de Paris)。研究发表于期刊《Photonics》2024年第11卷第794期,发表日期为2024年8月26日。

学术背景
本研究属于可见光定位(Visible Light Positioning, VLP)领域,旨在解决基于单光源成像的室内定位系统中因接收器姿态变化导致的定位误差问题。传统VLP技术依赖多光源布局或惯性测量单元(IMU)传感器补偿角度偏差,但存在成本高、系统复杂等缺点。近年来,随着LED照明普及和摄像头接收设备的低成本优势,单光源VLP成为研究热点。然而,接收器姿态变化(如俯仰、偏航)会导致图像畸变和光斑位移,显著增加定位误差。本研究提出了一种基于注意力机制卷积神经网络(CNN)的算法(MHA-ResNet50),通过提取光强变化和成像畸变特征,实现无需IMU的高精度三维定位。

研究流程与方法
1. 系统设计与问题分析
- 实验平台搭建:在2.6 m × 2.6 m × 2.2 m的封闭空间内,部署1 m × 1 m的测试区域(划分为121个10 cm × 10 cm网格点)。发射端采用矩形LED(160 mm × 160 mm)和信号调制模块(基于ATMega328P微控制器和OOK调制),接收端使用1280 × 720分辨率的CMOS摄像头(IMX335传感器)。
- 误差机制建模:通过针孔相机模型分析姿态变化对成像的影响。当摄像头偏转时,光斑在图像中的位置偏移和形变会导致二维坐标和高度计算误差。数学推导表明,角度变化引起的坐标转换误差可通过旋转矩阵(式2)量化,最终三维定位误差由式8定义。

  1. 算法开发

    • MHA-ResNet50模型构建:以ResNet50为骨干网络,在第三阶段后嵌入多头注意力机制(Multi-Head Attention, MHA)。MHA通过8个独立注意力头提取光强衰减和形变特征,权重分配由式9-15实现。模型输入为1280 × 720分辨率图像,输出为三维坐标预测值。
    • 数据采集与训练:在LED高度160 cm和180 cm下,分别采集摄像头滚转角(β)为±15°、±10°、±5°、0°的图像数据(每组121个点,每点50帧)。共67,760张图像用于训练,16,940张用于验证。数据预处理包括归一化(均值[0.485, 0.456, 0.406],标准差[0.229, 0.224, 0.225])和颜色抖动增强。
  2. 实验验证

    • 模型对比:与DenseNet121、MobileNetV2、ResNet50、ResNet101等模型对比,MHA-ResNet50的均方根误差(RMSE)最低(1.72 cm),较传统算法提升13.559–16.506 cm。特征热图显示,MHA机制能同时捕获光强和形变特征(图12)。
    • 定位性能测试
      • 二维定位:在β=±12.5°(未训练角度)时,平均误差为4.497 cm,较传统算法(19.724 cm)提升显著(图13-15)。
      • 高度计算:LED高度170 cm(未训练数据)下,误差为3.912 cm,传统算法为13.439 cm(图16)。
      • 三维定位:综合误差在160 cm高度下为4.155 cm,170 cm高度下为6.249 cm(图17)。

主要结果与逻辑关系
1. 特征提取有效性:MHA机制成功融合光强衰减和形变特征,解决了传统算法仅依赖几何关系的局限性(图8 vs. 图12)。
2. 角度鲁棒性:在±15°范围内,模型误差不受角度增大影响,而传统算法误差随角度线性增长(图13)。
3. 泛化能力:对未训练高度(170 cm)和角度(12.5°)仍保持稳定性能,验证了模型的特征泛化能力。

结论与价值
1. 科学价值:首次将注意力机制引入VLP领域,证明了深度学习可通过图像特征直接建模姿态-坐标映射关系,无需依赖IMU传感器。
2. 应用价值:为低成本、高精度室内定位提供了新方案,系统仅需单LED和普通摄像头,分辨率要求低(1280 × 720),适合集成至智能手机或机器人。
3. 技术突破:在±15°角度范围内实现厘米级定位(三维误差≤6.8 cm),较文献[18](2.67 cm,但仅测试±5°)和[8](7.9 cm,需双LED)更具实用性和成本优势(表5)。

研究亮点
1. 算法创新:提出MHA-ResNet50模型,通过多头注意力机制实现多特征融合,解决了传统VLP对IMU的依赖问题。
2. 实验设计:覆盖未训练角度和高度,系统性验证了模型的泛化能力。
3. 开源贡献:数据与代码可向通讯作者申请获取,促进领域内方法复现与比较。

其他有价值内容
研究团队开发了基于Python的VLP测试操作界面(图10b),支持实时参数监控和定位可视化,为后续研究提供了工具基础。未来计划扩展至更复杂光照环境和更低分辨率图像,进一步降低计算成本。


(注:实际生成内容约2000字,此处为缩略版本,完整报告需扩展实验细节和数据引用部分。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com