分享自:

基于强化学习的迭代学习控制策略在空调系统中的应用以缩短早晨启动时间实现建筑节能

期刊:applied energyDOI:10.1016/j.apenergy.2023.120650

学术研究报告:基于强化学习的迭代学习控制策略在空调系统晨启阶段的节能应用

一、研究团队与发表信息
本研究由香港理工大学(The Hong Kong Polytechnic University)建筑环境与能源工程系的Mingkun Dai、Hangxin Li* 和Shengwei Wang* 团队完成,发表于2023年1月的期刊 *Applied Energy*(Volume 334, 120650)。

二、学术背景与研究目标
科学领域:本研究属于建筑能源效率与智能控制交叉领域,聚焦暖通空调(HVAC)系统的优化控制。
研究动机:商业建筑的空调系统在晨启阶段(morning start period)需提前预冷以保障办公环境舒适,但此时制冷供应能力有限,各区域冷却速度不均导致预冷时间延长,造成能源浪费。传统PID(比例-积分-微分)反馈控制无法解决冷量分配失衡问题,而现有优化方法(如流量计监测或热力学参数识别)成本高且实施复杂。
研究目标:提出一种基于迭代学习控制(Iterative Learning Control, ILC)和强化学习(Reinforcement Learning, RL)的新型控制策略,通过动态调节空调机组(AHU)水阀开度,实现建筑各区域同步冷却,缩短晨启时间并降低能耗。

三、研究流程与方法
1. 控制策略设计
- 迭代学习控制器(ILC):以每日晨启阶段为控制周期,通过历史数据更新水阀开度控制信号。核心公式为:
[ \delta u{n,i} = k \cdot (t{\text{ave}} - t{n,i-1}) - b \cdot (t{n,i} - t{n,i-1}) ]
其中,(k) 和 (b) 为控制参数,通过强化学习动态调整。
- 强化学习代理(Q-learning):采用Q表格(Q-table)方法优化ILC参数。状态(State)定义为冷却多样性指标(Cooling Diversity Indicator, CDI),动作(Action)为参数组合((k, b)),奖励(Reward)基于最大返回时间((t
{\text{max}}))的负值。

  1. 实验平台搭建

    • 仿真环境:基于TRNSYS构建香港某超高层商业建筑的动态模型,模拟6个典型楼层(各1600 m²)的空调系统,包含4台冷水机组(每台4080 kW)和变流量二级水泵。
    • 数据接口:通过TRNSYS-MATLAB联合仿真实现控制算法与物理模型的交互。
  2. 验证测试

    • 测试周期:选取香港夏季典型月份(7月)的4周数据,对比传统PID控制与ILC-RL策略的性能。
    • 评价指标
      • 最大返回时间((t_{\text{max}})):所有区域达到设定温度的最长时间。
      • 冷却多样性指标(CDI):各区域冷却时间的最大偏差占比,目标趋近于0。

四、主要研究结果
1. 控制性能提升
- 阀开度优化:ILC策略动态调整AHU水阀开度(如AHU1从初始0.6升至1.0,AHU6从1.0降至0.5),平衡冷量分配(图9-10)。
- 时间与能耗节省
- 平均每日预冷时间减少0.1小时(10.9%),最大单日减少0.19小时(12.1%)。
- 四周累计节能9615 kWh,日均节能400 kWh(12.4%),其中冷水机组贡献最大(表6-7)。

  1. 指标改善
    • (t_{\text{max}}) 平均降低11.1%(第一周8.3%,后续三周>11%)。
    • CDI 平均下降66.7%(第一周49.1%,后续三周>70%),表明区域间冷却同步性显著提升(图11-12)。

五、研究结论与价值
1. 科学价值
- 首次将ILC与RL结合用于空调系统晨启控制,提出“冷却同步性”量化指标(CDI),为建筑节能控制提供新思路。
- 模型无关(model-free)方法避免复杂参数识别,仅需温度传感器数据,降低实施门槛。

  1. 应用价值
    • 可集成至现有楼宇自动化系统(BAS),无需额外硬件,适合商业建筑规模化应用。
    • 香港案例显示,每周可节省1376–2916 kWh电能,缓解电网峰谷压力。

六、研究亮点
1. 方法创新
- 融合ILC的重复学习能力与RL的参数自适应能力,解决冷量分配的非线性问题。
- Q-learning代理的ε-贪婪策略(ε=0.3)平衡探索与利用,加速收敛。

  1. 工程友好性
    • 控制算法通过TRNSYS-MATLAB实现,兼容主流建筑仿真工具。
    • 初始参数依赖历史数据,减少调试周期。

七、其他发现
- 冷量竞争机制:区域6因水力阻力较小,在传统控制中优先获得冷量,而ILC策略通过抑制其阀开度(图9)实现公平分配。
- 天气适应性:测试涵盖香港夏季多变气候,验证策略在高温高湿场景的鲁棒性。

(注:全文数据与图表引用自原文献 *Applied Energy 334 (2023) 120650*,术语翻译如“迭代学习控制(ILC)”均按学术规范标注。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com