分享自:

傅里叶控制器网络在具身学习中的实时决策

期刊:Proceedings of the 41st International Conference on Machine Learning

基于频域的实时决策:Fourier控制器网络在具身学习中的应用

作者与机构
本研究的核心作者包括Hengkai Tan、Songming Liu、Kai Ma、Chengyang Ying、Xingxing Zhang、Hang Su和Jun Zhu,均来自清华大学计算机科学与技术系、人工智能研究院、清华-博世机器学习联合中心、THBI实验室及BNRIST中心。研究发表于第41届国际机器学习会议(International Conference on Machine Learning, ICML 2024),会议地点为奥地利维也纳,由PMLR(Proceedings of Machine Learning Research)出版。

学术背景
研究领域聚焦于强化学习(Reinforcement Learning, RL)在具身学习(Embodied Learning)中的应用,尤其是机器人低层策略的泛化问题。传统方法如Transformer虽能建模时间序列特征,但存在数据效率低推理延迟高的缺陷,难以满足实时控制需求(如足式机器人需50Hz以上控制频率,而Transformer仅达3Hz)。研究团队从频域视角出发,发现机器人轨迹的能量密度集中于低频部分(图1),由此提出Fourier控制器网络(Fourier Controller Network, FCNet),通过频域插值提取时变特征,显著提升效率与性能。

研究流程与方法
1. 问题建模与理论框架
- 马尔可夫决策过程(MDP):将机器人控制建模为状态空间(state space)和动作空间(action space)的序列决策问题,引入历史轨迹窗口(长度n)以处理部分可观测性。
- 频域分析:通过短时傅里叶变换(STFT)将状态序列转换至频域,保留前m个低频模式(m≪n),过滤高频噪声(图2)。理论依据为物理运动的连续性与平滑性(如匀加速运动、简谐振动)在频域表现为能量集中。

  1. FCNet架构设计

    • 核心模块
      • 因果谱卷积(Causal Spectral Convolution, CSC):利用STFT和线性变换在频域提取特征,通过逆变换(IDFT)恢复时域输出,确保因果性(输出仅依赖历史输入)。
      • 并行训练与递归推理:基于快速傅里叶变换(FFT)实现并行训练(复杂度O(mn log n + m²n));采用滑动离散傅里叶变换(Sliding DFT)实现单步推理(复杂度O(m)),显著降低延迟(表1)。
    • 网络结构:包含位置编码器(FFN)、L层Fourier层(每层含CSC和FFN)及解码器(图3)。损失函数采用均方误差(MSE)或KL散度,优化目标为动作预测与专家数据的对齐(公式4)。
  2. 实验验证

    • 基准测试(D4RL):在MuJoCo和Adroit环境中,FCNet在1.9M至120M规模数据集上均超越Transformer、RetNet及传统方法(如CQL、BC),平均性能提升显著(表2-3)。例如,在HalfCheetah-Medium-Expert任务中,FCNet得分为91.2±0.3,优于Transformer的86.8±1.3。
    • 足式机器人多环境 locomotion
      • 数据集:包含32万轨迹(60M步),覆盖复杂地形(粗糙地面、楼梯、斜坡)和技能(站立、奔跑等)。
      • 结果:FCNet在有限数据下表现优异(图4),模拟器到实机(Unitree Aliengo)的零样本迁移成功,推理延迟仅2ms,满足实时控制需求(图5)。
    • 延迟测试:FCNet在上下文长度、层数和隐藏层维度增加时,延迟曲线增长缓慢,显著优于Transformer(图6)。例如,上下文长度增至1000时,FCNet延迟为4ms,Transformer则超过20ms。

主要结果与逻辑链条
1. 频域特征的有效性:能量密度分析(图1)验证低频主导性,为CSC模块设计提供理论基础。
2. 效率优势:FCNet的O(m)推理复杂度使其在长序列任务中保持低延迟(图6),而Transformer的O(n)复杂度导致性能瓶颈。
3. 泛化能力:在D4RL和足式机器人数据集中,FCNet均展现强拟合能力,尤其在数据稀缺时(1M-3M规模)显著优于Transformer(图4)。
4. 实机部署:频域滤波增强运动平滑性,降低硬件需求,推动轻量化部署。

结论与价值
1. 科学价值:首次将频域分析引入具身学习,提出频域归纳偏置(Frequency-domain Inductive Bias),为时序建模提供新视角。
2. 应用价值:FCNet的高效推理(<20ms)和低参数依赖(790k参数)使其适用于资源受限的机器人硬件,推动实时控制技术发展。
3. 方法论创新:CSC模块和滑动DFT机制为时序数据处理开辟新路径,可扩展至其他领域(如自动驾驶、工业控制)。

研究亮点
1. 跨领域融合:结合傅里叶分析与强化学习,解决机器人控制的核心瓶颈。
2. 算法效率:通过频域降维(m≪n)实现理论复杂度突破,兼顾性能与速度。
3. 实证全面性:覆盖模拟(D4RL)与实机(Unitree Aliengo)验证,证明方法的普适性与鲁棒性。

其他价值
- 开源贡献:代码与项目页公开(https://thkkk.github.io/fcnet),促进社区复现与应用。
- 局限性:未验证超大规模数据集(如RT-1的130k轨迹)下的扩展性,高频信息敏感任务(如高速振动控制)需进一步研究。

(注:术语翻译示例:Fourier变换(傅里叶变换)、STFT(短时傅里叶变换)、MDP(马尔可夫决策过程))

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com