基于频域的实时决策:Fourier控制器网络在具身学习中的应用
作者与机构
本研究的核心作者包括Hengkai Tan、Songming Liu、Kai Ma、Chengyang Ying、Xingxing Zhang、Hang Su和Jun Zhu,均来自清华大学计算机科学与技术系、人工智能研究院、清华-博世机器学习联合中心、THBI实验室及BNRIST中心。研究发表于第41届国际机器学习会议(International Conference on Machine Learning, ICML 2024),会议地点为奥地利维也纳,由PMLR(Proceedings of Machine Learning Research)出版。
学术背景
研究领域聚焦于强化学习(Reinforcement Learning, RL)在具身学习(Embodied Learning)中的应用,尤其是机器人低层策略的泛化问题。传统方法如Transformer虽能建模时间序列特征,但存在数据效率低和推理延迟高的缺陷,难以满足实时控制需求(如足式机器人需50Hz以上控制频率,而Transformer仅达3Hz)。研究团队从频域视角出发,发现机器人轨迹的能量密度集中于低频部分(图1),由此提出Fourier控制器网络(Fourier Controller Network, FCNet),通过频域插值提取时变特征,显著提升效率与性能。
研究流程与方法
1. 问题建模与理论框架
- 马尔可夫决策过程(MDP):将机器人控制建模为状态空间(state space)和动作空间(action space)的序列决策问题,引入历史轨迹窗口(长度n)以处理部分可观测性。
- 频域分析:通过短时傅里叶变换(STFT)将状态序列转换至频域,保留前m个低频模式(m≪n),过滤高频噪声(图2)。理论依据为物理运动的连续性与平滑性(如匀加速运动、简谐振动)在频域表现为能量集中。
FCNet架构设计
实验验证
主要结果与逻辑链条
1. 频域特征的有效性:能量密度分析(图1)验证低频主导性,为CSC模块设计提供理论基础。
2. 效率优势:FCNet的O(m)推理复杂度使其在长序列任务中保持低延迟(图6),而Transformer的O(n)复杂度导致性能瓶颈。
3. 泛化能力:在D4RL和足式机器人数据集中,FCNet均展现强拟合能力,尤其在数据稀缺时(1M-3M规模)显著优于Transformer(图4)。
4. 实机部署:频域滤波增强运动平滑性,降低硬件需求,推动轻量化部署。
结论与价值
1. 科学价值:首次将频域分析引入具身学习,提出频域归纳偏置(Frequency-domain Inductive Bias),为时序建模提供新视角。
2. 应用价值:FCNet的高效推理(<20ms)和低参数依赖(790k参数)使其适用于资源受限的机器人硬件,推动实时控制技术发展。
3. 方法论创新:CSC模块和滑动DFT机制为时序数据处理开辟新路径,可扩展至其他领域(如自动驾驶、工业控制)。
研究亮点
1. 跨领域融合:结合傅里叶分析与强化学习,解决机器人控制的核心瓶颈。
2. 算法效率:通过频域降维(m≪n)实现理论复杂度突破,兼顾性能与速度。
3. 实证全面性:覆盖模拟(D4RL)与实机(Unitree Aliengo)验证,证明方法的普适性与鲁棒性。
其他价值
- 开源贡献:代码与项目页公开(https://thkkk.github.io/fcnet),促进社区复现与应用。
- 局限性:未验证超大规模数据集(如RT-1的130k轨迹)下的扩展性,高频信息敏感任务(如高速振动控制)需进一步研究。
(注:术语翻译示例:Fourier变换(傅里叶变换)、STFT(短时傅里叶变换)、MDP(马尔可夫决策过程))