分享自:

基于基础模型的无人机自主导航路径规划

期刊:IEEE

基于基础模型(Foundation Model)的无人机自主导航路径规划研究:FM-Planner框架的提出与验证

作者与发表信息

本研究由新加坡南洋理工大学(Nanyang Technological University)机械与航空航天工程学院的Jiaping Xiao、Cheng Wen Tsao、Yuhang Zhang及IEEE会员Mir Feroskhan共同完成,论文预印本发布于arXiv平台(arXiv:2505.20783v1 [cs.RO]),时间为2025年5月27日。

研究背景与目标

科学领域:本研究属于机器人学与人工智能交叉领域,聚焦无人机自主导航中的路径规划问题,结合基础模型(Foundation Model,包括大语言模型LLM和视觉语言模型VLM)提升环境感知与决策能力。

研究动机:传统路径规划算法(如A*、RRT)依赖精确环境建模,在动态复杂场景中适应性不足;而学习型方法(如模仿学习、深度强化学习)需大量任务专用数据且泛化性有限。近年来,基础模型展现出强大的跨任务泛化能力,但其在无人机全局路径规划中的适用性尚未系统验证。

研究目标
1. 提出首个基础模型引导的无人机路径规划框架FM-Planner,整合语义推理与视觉感知;
2. 系统性评估8种LLM和5种VLM在标准化仿真场景中的性能;
3. 通过真实无人机实验验证框架的实用性。

研究方法与流程

1. LLM引导路径规划器设计

模型选择与评估:测试包括Llama-3.1-8B-Instruct、Qwen-2.5-Coder(7B/32B)、Gemma-2(9B/27B)、Mistral(12B/24B)和DeepSeek-R1在内的8种LLM。输入采用结构化自然语言提示(公式1),包含起点(p_s)、终点(p_g)及障碍物坐标({p_o^n})。

路径生成与优化
- 少样本提示(Few-shot Prompting):提供示例轨迹增强空间逻辑推理;
- 路径插值:对稀疏航点进行欧氏距离插值(步长0.5m),障碍物边缘保留1.2m安全距离;
- 执行模块:通过ROS向无人机发送位置指令。

2. VLM引导路径规划器对比实验

模型与输入:评估ChatGPT-4o、Gemini 2、Microsoft Copilot、Claude 3.5 Sonnet和Grok 3五种VLM,输入为Gazebo仿真环境的鸟瞰图(图4)及起止点标注。

提示工程
- 少样本提示:提供3组示例(地图+无障碍航点);
- 指令提示:直接要求模型生成避障路径;
- 路径后处理:采用0.1m步长插值细化轨迹。

3. LLM-视觉融合规划器开发

视觉编码器集成
- 采用YOLOv8实时检测障碍物,输出2D边界框与深度信息估计3D位置;
- 通过LoRA(低秩适应)微调Llama-3.1-8B-Instruct,仅更新注意力头与前馈层的低秩矩阵(公式2-3),参数效率提升至(O(dr+rk))。

训练数据:合成5,000组导航场景数据,包含起止点、障碍物坐标及RRT生成的1m安全距离轨迹。训练目标为最小化航点预测的交叉熵损失(公式4),60轮后损失收敛至0.15(图6)。

4. 仿真与实物验证

仿真设置
- 环境:Gazebo中8×10×5m空间,静态立方体障碍物(2m³);
- 评估指标:成功率(SR)、平均完成时间(ACT)、路径长度(PL)及效率-成功分数(ESS=SR/ACT)。

实物实验
- 平台:QAV250无人机搭载Jetson Xavier NX,OptiTrack提供120Hz定位;
- 场景:8×10×5m室内区域,4种障碍物配置(表V);
- 性能:平均推理时间9秒,最高控制频率40Hz(表III)。

主要研究结果

1. LLM性能基准测试

两障碍场景(表I):
- Llama-3.1-8B-Instruct:SR=100%,ACT=80s,ESS=1.250,与A*算法相当;
- DeepSeek-R1:完全失败(SR=0%),显示纯反应式方法的局限性。

三障碍场景
- Llama-3.1:保持100% SR,ESS=1.111;
- Qwen-2.5-7B:SR=100%但路径更长(PL=18.2m),ESS=0.980;
- Gemma/Mistral:SR降至60-80%,显示复杂环境下的泛化挑战。

五障碍扩展测试(表II):
- Llama-3.1:SR保持90%以上;
- Qwen-2.5-7B:在5障碍时完全失效,凸显模型容量限制。

2. VLM与LLM对比

视觉输入局限性(图5):
- GPT-4o/Claude:生成可行但非最优路径;
- Gemini/Grok:频繁碰撞,空间推理能力不足;
- 结论:纯视觉输入难以替代LLM的符号化空间描述。

3. 实物验证

任务表现(表V,图8):
- 任务3(密集障碍):Llama-Vision生成贴近障碍的激进路径,仍保持90% SR;
- 实时性:40Hz控制频率下SR=100%,50Hz时降至20%(表III)。

研究结论与价值

科学价值
1. 首次系统验证基础模型在无人机全局路径规划中的潜力,确立Llama-3.1-8B-Instruct为最优模型;
2. 提出LoRA微调+视觉编码的轻量化部署方案,解决边缘计算资源约束问题。

应用价值
1. 为复杂动态环境(如灾害救援、基础设施巡检)提供高适应性导航方案;
2. 开源实现(GitHub: ntu-icg/fm-planner)推动领域发展。

研究亮点

  1. 方法论创新:结合少样本提示、LoRA微调与实时视觉感知的多阶段架构;
  2. 全面基准测试:覆盖13种基础模型,包含5-障碍极端场景;
  3. 实物验证:首次实现LLM-Vision融合规划器的实时无人机部署。

未来方向

  1. 探索多模态基础模型(如Flamingo)处理动态障碍物;
  2. 优化计算效率以支持更高频率控制(>50Hz)。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com