赵军1,2、何家政3、孙冰寒1、赵会杰1,2、蒙志君3等学者在《中国惯性技术学报》(Journal of Chinese Inertial Technology)2025年第33卷第3期发表了一项基于深度强化学习(Deep Reinforcement Learning, DRL)的四旋翼无人机姿态控制研究。该研究由中国电科网络通信研究院、中电华鸿科技有限公司及北京航空航天大学航空科学与工程学院合作完成,旨在解决传统PID控制器在四旋翼无人机姿态控制中存在的快速响应能力差、超调量大等问题。
学术背景
四旋翼无人机因其高机动性和垂直起降能力,广泛应用于农业、航拍等领域,但其底层姿态控制技术直接影响飞行稳定性。传统控制方法(如PID、滑模控制)依赖人工调参且难以应对非线性干扰。近年来,深度强化学习在连续控制任务中展现出优势,但直接应用于无人机控制仍面临动作空间离散化、模型收敛困难等挑战。本研究提出基于近端策略优化(Proximal Policy Optimization, PPO)算法的智能控制器,以提升控制器的动态响应速度和稳定性。
研究流程
1. 无人机建模与仿真环境构建
- 动力学建模:基于“X”形配置的四旋翼无人机,推导了电机转速与升力、欧拉角的数学关系(式1-2),并通过Gazebo仿真平台建立3D电子样机(图3)。
- 传感器建模:对惯性测量单元(IMU)添加高斯噪声(图4),实测噪声参数(表2),并基于叶素理论建立螺旋桨推力模型(式4-10),通过试验获取性能参数(表3)。
2. 马尔可夫决策建模
- 状态空间:设计六维向量状态,包含三轴角速度误差及其差分(( e_t, \Delta e_t ))。
- 动作空间:直接输出电机油门量(四维向量),避免传统方法的离散化问题。
- 奖励函数:综合跟踪误差(式11)、输出震荡(式12)、最小输出(式13)等五项奖励,通过超参数(( \alpha_1-\alpha_5 ))平衡控制目标(式16)。
3. PPO算法实现
- 网络结构:采用演员-评论家框架(图9),输入层(6维)、2层隐藏层、输出层(4维),使用随机梯度下降(SGD)优化。
- 训练过程:在Gazebo环境中进行700万步训练,通过自适应KL散度惩罚(式23)限制策略更新幅度,避免发散(算法伪代码)。
4. 性能评估
- 对比实验:与PID、SAC(Soft Actor-Critic)控制器对比,采用阶跃信号测试响应性能(图14-15)。
- 指标量化:PPO的上升时间(38.7 ms)、调节时间(78 ms)较PID减少55.4%和56.7%,超调量降低47.8%(表7-10),且稳态误差与PID相当(0.72%)。
主要结果
- 误差分析:PPO的三轴平均绝对误差仅0.6°/s,显著低于SAC(6.36°/s)和PID(6.26°/s)(表6)。
- 动态响应:PPO在滚转、俯仰方向的超调量分别为54.8%和40.3%,而PID高达80.3%和104.9%(表9)。
- 稳定性:PPO控制信号无震荡,而SAC输出存在明显波动(图13)。
结论与价值
本研究通过PPO算法实现了四旋翼无人机的高精度姿态控制,其快速响应和低超调特性适用于复杂环境下的机动任务。科学价值在于提出了一种无需模型先验知识的强化学习控制框架;应用价值体现在减少人工调参成本,提升无人机在干扰环境中的鲁棒性。
研究亮点
- 方法创新:首次将PPO算法应用于四旋翼无人机角速度连续控制,解决了动作空间离散化问题。
- 工程实现:结合Gazebo仿真与实测噪声数据,缩小了“仿真-现实差距”。
- 性能突破:PPO控制器在多项指标上超越传统PID,为智能飞行控制提供了新范式。
其他价值
- 开源框架Gymfc的使用促进了无人机控制研究的可复现性。
- 奖励函数设计经验(如消极奖励避免“零输出”陷阱)可为后续研究提供参考。
该研究为无人机自主控制领域提供了理论和技术支持,未来可进一步探索多机协同与复杂环境下的迁移学习应用。