基于策略共识的分布式确定性多智能体强化学习方法研究

基于策略共识的分布式确定性多智能体强化学习研究报告 强化学习(Reinforcement Learning, RL)近年来在诸多领域取得了显著突破,包括机器人学、智能电网和自动驾驶等。然而,在实际场景中,常常涉及到多智能体(Multi-Agent Reinforcement Learning, MARL)的协作学习问题。这类问题的核心挑战在于设计高效的多智能体协作强化学习算法,尤其是在受制于通信能力限制或隐私保护的情况下。目前,多数的MARL算法依赖一种被广泛采用的集中化训练-分布式执行(Centralized Training with Decentralized Execution, CTDE)范式。该范式虽然可以有效解决环境的非平稳性问题,但由于其重通信和集中化处理的本质,使其在实际部...

尖峰扩散模型

脑启发的低能耗生成模型——Spiking Diffusion Models研究评述 背景概述 近年来,人工智能领域涌现出众多前沿技术,其中深度生成模型(Deep Generative Models, DGMs)通过生成图像、文本等数据表现出了卓越的能力。然而,这些生成模型通常依赖人工神经网络(Artificial Neural Networks, ANNs)作为骨干网络,其高度依赖算力和内存资源的特性使其在大规模应用中面临显著的能耗问题。同时,与人类大脑相比,ANNs的能耗效率远不及人类大脑的20瓦功率水平,这导致研究人员对更高能效的神经网络架构产生了兴趣。 与ANNs不同,脉冲神经网络(Spiking Neural Networks, SNNs)以大脑神经元的工作方式为启发,以事件驱动的方...

基于细粒度线索和噪声不一致性的面部伪造检测

深入探讨基于精细线索和噪声不一致性的面部伪造检测 背景介绍 随着人工智能(AI)技术的快速发展,各种生成模型已实现了惊人的进步。这使得生成高逼真的“深度伪造(Deepfake)”面部图像变得越来越容易。这些高度逼真的面部伪造图像在娱乐、影视制作等领域具有合法用途,但也被滥用于恶意目的,如传播虚假信息、误导公众舆论,甚至威胁社会安全和国家安全。尤其是当主流媒体采用隐式压缩时,这些压缩过程往往会淡化伪造的痕迹,使得检测变得更加困难。因此,开发有效的面部伪造检测方法已成为多媒体信息安全领域的核心需求。 目前,大部分现有的伪造检测方法要么依赖空间域(spatial domain)特征,要么依赖频域(frequency domain)特征,却很少研究二者的相关性和互补性。另外,当图像质量较低或经过强压...

基于SHAP误差补偿方法的改进可解释电价预测模型

基于SHAP的电力价格预测模型改进研究及其可解释性分析 背景与研究动机 电力市场中的价格预测模型近年来成为研究热点,尤其是考虑到电力市场波动对利益相关方的财务影响。特别是,在欧洲能源市场中,受能源危机和地缘政治影响,最近几年燃料价格急剧上升,导致电力市场的价格波动性显著增加。即使是1%的预测误差,也可能对发电公司、负荷服务实体和交易公司产生巨大的财务后果。例如,对于用电量达到1GW的公司而言,仅1%的预测改进便可带来每年约1200万美元的节省。因此,提高电力价格预测(Electricity Price Forecasting,EPF)模型的精准度对市场参与者来说至关重要。 虽然基于机器学习(Machine Learning,ML)和深度学习(Deep Learning)技术的EPF模型在预测...

通过多任务遗传编程实现带目标偏好的多目标动态灵活车间调度

多目标动态灵活作业车间调度的突破性研究:一种通过多任务学习优化目标偏好遗传规划的创新方法 背景介绍 动态灵活作业车间调度(Dynamic Flexible Job Shop Scheduling, DFJSS)是一个重要的组合优化问题,在制造、仓储等领域的生产过程具有广泛的实际应用。例如,它被用于优化制造过程中的任务分配或仓库的订单拣选工作。该问题的核心是如何在动态环境中,为多个机器和多个作业执行灵活的任务分配和操作排序决策,从而最大化某些效率指标或最小化时间成本。然而,这个问题的复杂性极高,尤其是当任务动态到达或机器发生故障时,传统的优化方法往往面临计算复杂度和实时性不足等问题。 近年来,遗传规划(Genetic Programming, GP)作为一种超启发式方法,被广泛用于为动态灵活作...

NPE-DRL: 一种用于无人机在感知受限环境下规避障碍物的非专家策略增强深度强化学习方法

基于非专家策略强化学习改进无人机视觉受限环境下的避障能力研究 近年来,无人机(Unmanned Aerial Vehicle,UAV)凭借其卓越的机动性和多样化的功能,广泛应用于包裹递送、风险评估和紧急救援等民用领域。然而,随着无人机执行任务的复杂性、范围和时长的增加,其自主导航的难度也显著上升,尤其是在拥挤且高度不确定的环境中实现避障。然而,传统的全球导航方法通常依赖全局信息,难以处理视觉受限条件下的障碍场景。本研究的目的是解决这些场景中的避障问题,提升无人机的实时导航能力。 此外,尽管基于深度强化学习(Deep Reinforcement Learning,DRL)的避障算法通过端到端处理方式表现出色,能够减小计算复杂度并提升适应性和可扩展性,但它们的采样效率偏低,需要大量的样本迭代以实...