基于情景记忆的双Actor-Critic框架在深度强化学习中的应用

学术背景 深度强化学习(Deep Reinforcement Learning, DRL)在游戏、机器人、导航、计算机视觉和金融等多个领域取得了显著成就。然而,现有的DRL算法普遍存在样本效率低下的问题,即需要大量的数据和训练步骤才能达到理想的性能。尤其是在连续动作任务中,由于状态-动作空间的高维性,传统的DRL算法难以有效利用情景记忆(Episodic Memory)来指导动作选择,导致样本效率进一步降低。 情景记忆是一种非参数控制方法,通过记忆高回报的历史经验来提升样本效率。在离散动作任务中,情景记忆可以直接用于评估每个可能的动作,并选择估计值最高的动作。然而,在连续动作任务中,动作空间是无限的,传统的情景记忆方法难以直接应用于动作选择。因此,如何在连续动作任务中有效利用情景记忆来提升样...

基于深度递归强化学习和联邦学习的工业物联网流量入侵检测方法

基于深度循环强化学习和联邦学习的工业物联网流量入侵检测方法 学术背景 工业物联网(Industrial Internet of Things, IIoT)的快速发展带来了智能工业系统的巨大变革,IIoT通过互联网连接各种工业设备,实现了设备间的数据交换、远程控制以及智能决策。然而,这种无缝连接和庞大的设备网络也使得工业系统面临日益复杂和多样化的网络安全威胁。在实际IIoT场景中,网络攻击可能导致数据泄漏、数据操纵、拒绝服务(denial of service, DoS)、以及工厂生产中断等严重后果。传统的入侵检测方法虽然对部分攻击类型表现出了一定的检测能力,但由于其大多采用传统的机器学习模型在集中服务器上训练,无法很好地处理分布式设备所带来的隐私、能耗以及异质性数据分布问题。 为了应对这些挑...

基于策略共识的分布式确定性多智能体强化学习方法研究

基于策略共识的分布式确定性多智能体强化学习研究报告 强化学习(Reinforcement Learning, RL)近年来在诸多领域取得了显著突破,包括机器人学、智能电网和自动驾驶等。然而,在实际场景中,常常涉及到多智能体(Multi-Agent Reinforcement Learning, MARL)的协作学习问题。这类问题的核心挑战在于设计高效的多智能体协作强化学习算法,尤其是在受制于通信能力限制或隐私保护的情况下。目前,多数的MARL算法依赖一种被广泛采用的集中化训练-分布式执行(Centralized Training with Decentralized Execution, CTDE)范式。该范式虽然可以有效解决环境的非平稳性问题,但由于其重通信和集中化处理的本质,使其在实际部...

NPE-DRL: 一种用于无人机在感知受限环境下规避障碍物的非专家策略增强深度强化学习方法

基于非专家策略强化学习改进无人机视觉受限环境下的避障能力研究 近年来,无人机(Unmanned Aerial Vehicle,UAV)凭借其卓越的机动性和多样化的功能,广泛应用于包裹递送、风险评估和紧急救援等民用领域。然而,随着无人机执行任务的复杂性、范围和时长的增加,其自主导航的难度也显著上升,尤其是在拥挤且高度不确定的环境中实现避障。然而,传统的全球导航方法通常依赖全局信息,难以处理视觉受限条件下的障碍场景。本研究的目的是解决这些场景中的避障问题,提升无人机的实时导航能力。 此外,尽管基于深度强化学习(Deep Reinforcement Learning,DRL)的避障算法通过端到端处理方式表现出色,能够减小计算复杂度并提升适应性和可扩展性,但它们的采样效率偏低,需要大量的样本迭代以实...

基于卫星助力的6G广域边缘智能:面向远程物联网服务的动态感知任务卸载与资源分配

基于卫星助力的6G广域边缘智能:面向远程物联网服务的动态感知任务卸载与资源分配

卫星支持的6G宽域边缘智能,面向远程物联网服务的动态感知任务卸载与资源分配 背景介绍 随着6G移动通信网络的到来,传统的物联网(IoT,Internet of Things)体系结构正逐渐向集成全球连接与广泛人工智能(AI)能力的智能万物互联(IoE,Internet of Everything)新范式转变。然而,地面网络在覆盖范围上存在局限性,尤其是在复杂地形和偏远地区无法实现全面覆盖。近地轨道(LEO,Low Earth Orbit)卫星的快速技术发展为解决这一问题带来了新的希望。通过非地面网络(NTN,Non-Terrestrial Networks)的支持,LEO卫星能够为全球用户提供无缝连接、大容量通信和高效计算服务,满足远程环境监控、智能农业等应用的需求。 但是,广域物联网应用带...

基于深度强化学习的液体透镜显微镜自动对焦技术

基于深度强化学习的液体透镜显微镜自动对焦技术研究 学术背景 显微镜成像在科学研究、生物医学研究和工程应用中扮演着至关重要的角色。然而,传统显微镜及其自动对焦技术在实现系统小型化和快速精准对焦方面面临着硬件限制和软件速度缓慢的问题。传统显微镜通常采用多个固定焦距透镜和机械结构来实现放大和对焦功能,导致设备体积庞大、对焦速度慢,难以在狭小空间内快速操作。液体透镜(liquid lens)因其无机械部件、通过电信号调节焦距的特点,具有体积小、响应速度快、制造成本低等优势,成为解决这些问题的潜在方案。 近年来,人工智能和新光学元件的发展为显微镜自动对焦技术带来了新的研究方向。传统的自动对焦方法依赖于图像清晰度评估,通常需要多次图像采集和评估,速度较慢。深度学习技术的引入使得直接从单张图像预测焦平面位...

深度强化学习为双足机器人赋能敏捷的足球技能

深度强化学习为双足机器人赋能敏捷的足球技能

深度强化学习为双足机器人赋能敏捷的足球技能 背景介绍 智能体在物理世界中展现出敏捷、灵活和理解能力,是人工智能(Artificial Intelligence,AI)研究长期以来的目标之一。然而,动物和人类不仅能流畅地完成复杂的身体动作,还能感知和理解环境,并通过身体在世界中实现复杂的目标。从历史上看,创造具有复杂运动能力的智能化身体代理的尝试由来已久,无论是在仿真环境中还是在现实中。伴随近几年技术的加速进步,尤其是基于学习的方法对这一领域的推进,深度强化学习(Deep Reinforcement Learning,Deep RL)已经证明其能够高效解决复杂的运动控制问题,无论是对于仿真角色还是物理机器人。 然而,对于人形和双足机器人,由于其在稳定性、机器人安全性、自由度数量和硬件可用性方面...

能够自主导航行走的轮腿机器人

能够自主导航行走的轮腿机器人

能够自主导航行走的轮腿机器人 背景介绍 城市化进程的加速让供应链物流尤其是最后一公里配送面临巨大挑战。随着交通压力增加和对更快配送服务需求的上升,尤其是室内和街道上的复杂路线给配送带来了难以解决的问题。传统的轮式机器人难以跨越复杂的障碍物,而仅靠腿式系统又无法达到所需的速度和效率。例如,ANYmal机器人虽具备一定的移动能力,但其最大行驶速度仅为平均人行速度的一半,且续航时间也有限。因此,需开发一种即能在平坦地面上高效运动又能跨越障碍物的机器人系统成为了研究的主要方向。 本文主要研究的是轮腿机器人,结合轮子和腿部的优势,使其在长距离运输中既能在中等地面上高速行驶,又能在复杂地形上保持灵活性。 论文来源 本文由Joonho Lee、Marko Bjelonic、Alexander Reske、...