分享自:

面向人-智能体交互系统的人类决策建模与协同控制器设计

期刊:IEEE Transactions on Human-Machine SystemsDOI:10.1109/THMS.2022.3185333

面向人-智能体交互系统的人类决策建模与协同控制器设计:一项学术研究报告

本文旨在向学界同仁介绍一项发表于IEEE Transactions on Human-Machine Systems期刊2022年12月刊第52卷第6期的前沿研究。该工作题为“Human Decision-Making Modeling and Cooperative Controller Design for Human–Agent Interaction Systems”,由来自福州大学电气工程与自动化学院、福建省工业自动化控制技术与信息处理重点实验室以及福州大学5G+工业互联网研究院的Jie Huang(IEEE会员)、Wenhua Wu、Zhenyi Zhang(IEEE学生会员)、Guoqing Tian、Song Zheng和Yutao Chen(通讯作者)共同完成。本研究得到了国家自然科学基金的资助。

一、 研究学术背景

本研究隶属于人机系统交互与多智能体系统协同控制交叉领域。随着多智能体系统在复杂任务(如编队控制、协同救援)中的应用日益广泛,如何平衡多个任务、解决任务冲突成为关键挑战。零空间行为控制方法作为一种有效框架,通过将低优先级任务投影到高优先级任务的零空间来协调任务执行。然而,在复杂动态环境中,仅靠智能体的自主决策能力往往难以应对所有突发状况,人类监督与干预成为必要的补充。因此,人-智能体交互系统应运而生,其核心问题在于:如何精确建模人类决策行为以预测和触发适时干预,以及如何设计协同控制器来高效、鲁棒地执行融合了人类指令的复合任务。

现有研究存在两大不足:首先,已有的人类漂移扩散决策模型通常仅适用于一阶线性系统,依赖于单一决策信息源,导致对二阶动态系统的决策建模过于简化,干预时机可能不准确。其次,现有的协同控制器(如基于李雅普诺夫直接法的控制器)多为渐近收敛或有限时间收敛,其收敛时间依赖于初始任务误差,当误差较大时,可能无法满足人机协作对任务完成时间的严格要求。

基于此,本研究旨在克服上述局限,主要目标为:1)将人类决策漂移扩散模型从一阶线性系统扩展到受未知外部干扰的二阶线性系统,利用多源决策信息建模,并通过设置不同阈值实现精准干预时机判断;2)设计一种固定时间滑模自适应行为控制器,确保无论初始误差多大,智能体均能在预先确定的固定时间内完成人类指令任务,实现人-智能体的高效、可靠协作。

二、 研究详细工作流程

本研究是一项理论与仿真验证相结合的工作,其核心工作流程可分为三大步骤:理论模型扩展、控制器设计以及综合仿真验证。

第一步:扩展人类漂移扩散模型与人机融合任务设计 研究首先对原有的HDDM(Human Drift Diffusion Model)进行了重要扩展。研究考虑具有二阶线性动力学(包含位置和速度状态)并受未知有界外部干扰的多智能体系统。与一阶系统仅使用位置误差不同,本研究提出从智能体的多个传感器数据源(位置、速度、位置误差、速度误差、加速度误差)中选择最能反映任务执行过程的信息。最终,位置跟踪误差速度跟踪误差被选定为建模人类决策行为的两类核心信息源。

针对这两类信息,分别建立了对应的漂移扩散模型方程。例如,对于位置误差x̃_pj,其模型为dx̃_pj = x̃_vj dt + σ_1j dw_1,其中漂移率为速度误差x̃_vj,σ_1j dw_1为高斯白噪声。这模拟了人类决策过程中信息随时间的累积与随机波动。为了确定精确的人类干预时机,研究为两类决策信息分别计算了决策阈值。这通过引入贝叶斯风险准则实现,该准则旨在决策速度与准确性之间取得最优权衡。通过求解使贝叶斯风险函数最小化的方程,得到各自对应的最优决策阈值ζ_pj和ζ_vj。随后,利用阈值计算出基于位置误差和速度误差的决策时间t_pj和t_vj。最终的人类干预时机t_dj取两者中的最大值,以确保任一关键指标达到临界状态时都能触发干预。

在人机融合方面,研究将人类干预行为设计为一个最高优先级的任务,其任务函数和速度命令输出通过雅可比矩阵定义。利用NSBC框架,将智能体自主的复合任务(如避障任务与移动到目标点任务的组合)投影到人类干预任务的零空间中,从而生成最终的执行速度命令。这种方式确保了人类指令的绝对优先权,同时又能在不影响人类指令的前提下,最大限度地执行自主任务。此外,研究还设计了一个基于分层有限状态自动机的任务监督器,用于根据环境条件(如是否接近障碍物)和系统状态(如是否出现局部极小值问题)动态切换任务优先级。

第二步:设计固定时间滑模自适应行为控制器 为实现对融合后参考轨迹的快速、精确跟踪,并抑制外部干扰,研究设计了一种新颖的固定时间滑模自适应行为控制器。首先,定义了一个固定时间滑模流形s = ˙̃x_p + αx̃_p^{μ1} + βx̃_p^{ɣ1},其中x̃_p为位置跟踪误差,˙̃x_p为速度跟踪误差,α, β, μ1, ɣ1为设计参数(0.5<μ1<1, ɣ1>1)。该流形设计保证了系统状态一旦到达滑模面,跟踪误差将在固定时间内收敛到零,且收敛时间上界与初始误差无关。

基于此滑模面,设计了控制律u_j(t),它由两部分组成:一部分u_j^s用于驱动系统状态到达滑模面,采用非线性项-k_α1j s^{μ2} - k_β1j s^{ɣ2}以实现固定时间收敛;另一部分u_j^ω用于补偿未知的外部干扰ε_j(t),包含一项自适应估计项-δ̂_j sign(s_j),其中δ̂_j是对干扰上界δ_j的估计,其自适应更新律为˙δ̂_j = (1/γ_j) ‖s_j‖_1。这种设计使得控制器无需预先知道干扰的精确上界,增强了鲁棒性。

研究的理论贡献在于严格证明了在该控制律下,滑动模态s能在固定时间内收敛到一个有界区域,进而位置和速度跟踪误差也能在固定时间内收敛到相应的有界区域。更重要的是,研究在附录中详细证明了在NSBC框架下,无论是否存在人类干预、是否存在避障任务,整个分层任务系统都是稳定的。这解决了将固定时间控制方法从纯多智能体系统移植到人机交互系统时,因人类指令与自主决策独立可能产生的冲突问题。

第三步:多场景仿真验证 研究通过一个二维平面上三个智能体的仿真实验来验证所提模型与控制器的有效性。仿真设置了多种复杂场景: 1. 无干预场景:智能体自主执行移动到目标点任务,并在接近障碍物时触发避障任务。对比了本研究提出的固定时间滑模控制器与传统的基于李雅普诺夫直接法的控制器。结果显示,新控制器能使位置误差在固定时间内收敛到零,且收敛速度远快于后者。 2. 遭遇局部极小值场景:模拟智能体2在两个障碍物之间陷入“死锁”,无法自行决定避障方向的情况。此时,智能体的位置误差和速度误差均持续增大。仿真展示了HDDM模型的运行过程:两类决策信息(位置误差和速度误差)随时间演化的轨迹分别达到了预设的阈值(6米和20米/秒),触发时间分别为8.24秒和8.23秒。根据最大准则,人类干预在8.24秒被触发。 3. 人类干预执行场景:在触发干预后,人类为陷入困境的智能体2指定了一个新的临时目标点(突围点)。人类干预任务被设置为最高优先级。仿真比较了新旧控制器在执行此干预任务后的表现。使用新控制器,智能体2能快速跟踪新指令,成功脱离局部极小值,并最终抵达原始目标,且跟踪误差在固定时间内收敛。而使用旧控制器,由于干预前的初始误差已经很大,其渐近收敛特性导致无法在期望时间内完成追踪,任务执行效果差。

仿真中的关键参数(如控制器增益、HDDM噪声参数、决策成本系数等)均在论文的表格中列出,确保了实验的可重复性。

三、 研究主要结果

本研究在各个步骤均取得了明确且相互支持的结果: 1. 模型扩展结果:成功建立了适用于二阶系统的多信息源HDDM。通过贝叶斯风险准则,为位置和速度误差分别计算出了最优决策阈值。仿真中的“局部极小值场景”直观展示了该模型的决策过程:两类误差信息独立累积并跨越阈值,从而客观、准确地确定了人类必须介入的时机(8.24秒)。这验证了扩展模型在捕捉复杂系统状态、提供精准干预触发信号方面的能力。 2. 控制器性能结果:仿真中的“无干预场景”和“干预执行场景”共同验证了固定时间滑模自适应控制器的优越性。在“无干预场景”中,控制器展现了出色的自主任务执行能力和抗干扰性(系统模型中包含有界外部干扰ε_j(t)),误差收敛快速且时间可预测。在“干预执行场景”中,控制器面对因局部极小值而产生的大初始误差,依然能够保证在固定时间内精确跟踪人类提供的新指令,从而成功解决冲突、完成任务。而传统控制器在此场景下失效,凸显了固定时间收敛特性对于处理人机交互中突发、大偏差情况的必要性。 3. 系统整体性能结果:综合仿真表明,所提出的HDDM与固定时间控制器的结合是有效的。HDDM负责在“正确的时机”(当自主系统无法解决冲突时)发出干预信号;固定时间控制器则负责在“干预后”以“可保证的速度”(固定时间)执行融合后的任务。两者协同,实现了从“感知决策需求”到“执行决策结果”的闭环,提升了人-智能体交互系统的整体性能和可靠性。

这些结果逻辑连贯:模型扩展为精准决策提供了基础(结果1),这决定了何时启动人类任务;控制器的强大性能(结果2)保证了人类任务一旦启动,就能被高效执行;最终的仿真(结果3)将前两者集成,验证了整套方法在实际复杂场景中的可行性和优势。

四、 研究结论与价值

本研究得出以下核心结论:通过将人类漂移扩散模型扩展到二阶非线性干扰系统,并采用多信息源和贝叶斯风险阈值设定,可以实现对人类决策行为的更精确建模,从而获得更准确的人机干预时机。同时,所设计的基于零空间行为控制的固定时间滑模自适应控制器,能够有效融合人类干预与智能体自主任务,并保证无论初始误差大小,所有任务误差都能在预先确定的固定时间内收敛到滑模面及原点,最终实现任务的稳定完成。

该研究的科学价值在于:1)推动了人类决策计算模型在动态系统中的应用深度,从一阶到二阶是一个重要的理论延伸;2)创新性地将固定时间控制理论与NSBC人机交互框架结合,为解决人机协作中的任务冲突和时间约束问题提供了新的理论工具和控制方案。其应用价值显著,可广泛应用于需要人类监督与智能体自主执行相结合的复杂场景,如多机器人协同搜救、无人机编队导航、人机共驾等,能够提高系统在不确定环境中的应变能力、执行效率和安全性。

五、 研究亮点

本研究的亮点突出体现在以下几个方面: 1. 方法创新性:首次将HDDM与固定时间滑模控制同时引入到人-智能体交互系统的设计中,形成了“智能决策触发”与“强鲁棒执行”一体化的解决方案。 2. 模型扩展的深度:从一阶到二阶系统的HDDM扩展并非简单移植,而是深入考虑了加速度、多信息源选择、非零初始误差下的多阈值计算等关键问题,并引入了速度-精度权衡准则进行优化,使模型更具实用性和准确性。 3. 控制器设计的突破:设计的控制器同时具备了“固定时间收敛”(与初始状态无关)和“自适应抗干扰”能力,且严格证明了其在NSBC分层任务结构下的稳定性,这在人机交互控制领域是一个重要的进展。 4. 验证场景的典型性:通过设计“局部极小值”这一经典难题场景,有效展示了所提方法在解决自主系统根本性局限方面的价值,仿真对比充分有力。

六、 其他有价值内容

论文附录包含了详细的稳定性证明,包括滑动模态的固定时间收敛性证明、跟踪误差的固定时间有界性证明,以及三种典型情况(无避障、有避障无人干预、有人干预)下NSBC任务系统的李雅普诺夫稳定性证明。这些严密的数学推导为整个研究提供了坚实的理论基础,增强了工作的学术严谨性和可信度。此外,文中对任务监督器的简要讨论(虽未深入)为后续研究(如采用模型预测控制或强化学习来设计更智能的监督器)指明了潜在方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com