交互推理：一种多智能体协同联合行动模型

分享自：
交互推理：一种多智能体协同联合行动模型

期刊:IEEE Transactions on Systems, Man, and Cybernetics: SystemsDOI:10.1109/TSMC.2023.3312585
这篇由来自意大利国家研究理事会认知科学与技术研究所的Domenico Maisto、Francesco Donnarumma和Giovanni Pezzulo共同撰写的学术论文，题为“Interactive Inference: A Multi-Agent Model of Cooperative Joint Actions”，发表于2024年2月的《IEEE Transactions on Systems, Man, and Cybernetics: Systems》期刊第54卷第2期。论文提出了一种创新的、基于主动推理（Active Inference）认知框架的多智能体协作联合行动计算模型，旨在为理解人类合作行为背后的复杂认知机制提供一个形式化（formal）的解释框架，并推动多智能体系统领域的发展。
论文的主要观点与论述
1. 核心论点：将协作联合行动建模为“交互推理”过程 论文的核心论点是，高级的协作联合行动（joint action）——例如两个人共同决定并按下同一个按钮——依赖于一种“交互推理”过程。这不仅仅是行为上的同步，更深层地涉及心智状态的相互推断与共享任务表征（shared task representations）的对齐。作者认为，传统的耦合动力系统模型可以解释简单的行为同步（如节奏同步），但不足以解释需要共同决策的复杂协作。因此，他们提出，每个参与协作的个体（智能体）都持续地进行着一种双重推理：一方面，他们通过观察对方的行动来更新自己关于“共同目标”的信念；另一方面，他们会有意地选择那些能让自己的意图更容易被对方推断出来的行动（即“感觉运动沟通”，sensorimotor communication）。这种持续的、双向的信念与行为更新循环，最终导致双方信念和行为策略的对齐，从而确保联合行动的成功。
支持理论与框架：这一论点建立在“主动推理”这一统一的脑与行为理论之上。主动推理认为，大脑是一个“预测机器”，通过学习和使用一个生成模型（generative model）来预测感觉输入并规划行动，其核心目标是最小化预测误差（即“自由能”，Free Energy）。论文将这一单智能体框架扩展到了多智能体场景。
支持模型：论文构建了一个具体的多智能体主动推理计算模型。模型中，每个智能体都拥有自己的生成模型，该模型包含了关于自身和对方位置、以及关于“联合目标情境”（如“都按红钮”、“都按蓝钮”等）的信念。智能体通过最小化“期望自由能”来选择和评估行动策略，而期望自由能包含“实用性”和“认识性”两个部分，前者追求高效实现目标，后者追求减少不确定性。正是这个认识性部分，驱动了旨在降低对方不确定性的沟通行为。
2. 通过仿真验证模型：无领导者与领导者-追随者两种协作模式 为了验证“交互推理”模型的有效性，论文设计了基于“联合迷宫”任务的两组计算仿真实验。该任务要求两个智能体在迷宫中导航，最终同时到达并按下同一个颜色的按钮（红色或蓝色）。仿真成功的关键不在于预先设定的程序，而在于模型在运行中展现出的动态认知过程。
仿真一：无领导者交互。此仿真模拟两个智能体初始对共同目标都具有不确定但相同的先验信念（即各以0.5的概率认为目标是红或蓝）的场景。结果表明，尽管初始信念模糊，但通过交互推理（观察对方行动、更新目标信念、选择行动），两个智能体的信念和行为会迅速对齐到某一个共同目标（红或蓝），并维持高成功率。当人为地让其中一个智能体“改变主意”时，系统也能在经过短暂调整后重新恢复对齐。这模拟了人类实验中观察到的“交互对齐”或“广义同步”现象。一个关键的控制实验是，当移除模型中允许从对方位置推断目标信息的部件（使A3张量均匀化）后，智能体的表现急剧下降，信念也无法对齐，这证明了交互推理过程本身对于成功协作至关重要，而非仅仅依靠任务成功/失败的反馈进行强化学习。
仿真二：非对称的领导者-追随者交互。此仿真模拟一个智能体（领导者）明确知道正确目标，而另一个（追随者）不知道的场景。论文的核心发现在此凸显：领导者会倾向于选择“社会认识性策略”——即牺牲路径效率（走更长的路），选择一条能尽早、更明确地向追随者传递其目标意图的路径。随着追随者通过观察逐渐明确目标，其不确定性降低，领导者选择这种“沟通性”策略的概率也随之下降，转而更多地采用最短路径的“实用性策略”。这一仿真结果精确地复现了多项人类联合行动实验中发现的关键现象：1）知情方会调整其运动学特征以传递意图；2）这种信号传递行为随追随者不确定性的降低而减少。论文强调，这种行为在模型中并非通过特设规则实现，而是主动推理框架下“期望自由能”最小化的自然结果——当共享目标信念的不确定性高时，认识性驱动力就会凸显，促使智能体采取降低不确定性的行动。
3. 模型的理论贡献与优势：统一性、解释力与认知启发性 论文详细阐述了所提模型相较于以往工作的优势与贡献。 * 提供统一的形式化原则：模型从主动推理这一第一性原理出发，为联合行动中的多种认知能力（相互预测、心智状态推断、感觉运动沟通、共享表征对齐）提供了一个统一的、规范的计算解释，弥补了该领域缺乏此类基础理论的空白。 * 复现关键行为动态：模型成功复现了“无领导者”协作中的信念行为对齐现象，以及“领导者-追随者”协作中的感觉运动沟通现象。特别是，它自然地解释了沟通行为如何随不确定性动态调整，这与人类数据高度吻合。 * 模型的灵活性与认知合理性：仿真一和仿真二使用的是同一套核心计算模型，仅通过调整智能体先验信念的强度（确定性）和关于任务结果的知识，就产生了两种截然不同的协作模式。这表明“领导者”与“追随者”的角色差异本质上是信念强度与知识不对称的体现，而非模型结构的不同。这增强了模型的解释力和简洁性。此外，模型中的“共享任务表征”（即关于联合目标情境的信念）是实现社会性行为（如为对方降低不确定性）的关键认知结构。
4. 研究的意义、应用前景与未来挑战 论文在结论部分总结了该工作的广泛意义。 * 科学价值：为理解人类联合行动的认知神经机制提供了新的、可计算的理论视角。模型预测的信念对齐动态可与神经同步现象相联系，为神经科学研究提供假设。 * 应用价值：为设计更高效、更自然的多智能体系统（Mass）和机器人提供了认知启发。为了让机器人更好地与人类协作，需要赋予它们类似人类的意图推断、表征对齐和信号传递能力。本模型为此指明了一条基于主动推理的实现路径。 * 未来方向：论文也指出了当前模型的局限和未来研究方向，包括：将模型从网格世界扩展到连续的、有噪声的机器人实验环境；扩展到多于两个智能体的群体场景；以及超越纯合作场景，探索竞争或混合动机的交互。此外，学习更复杂的生成模型（如利用深度学习）和在大型状态空间中规划也是需要解决的技术挑战。
总结 这篇论文通过发展一个基于主动推理的多智能体交互推理模型，对协作联合行动这一复杂社会认知现象进行了深入的形式化探索。它不仅在计算层面展示了信念对齐和感觉运动沟通如何从统一的推理原则中涌现，而且成功地将其动态与人类实验观察到的关键行为模式联系起来。该工作架起了认知科学与人工智能/机器人学之间的桥梁，既加深了我们对人类合作本质的理解，也为构建具有高级社会智能的自主系统提供了坚实的理论基础和富有前景的技术蓝图。其核心价值在于，它证明了许多看似特殊的社会行为，可以从一个追求高效感知与行动的通用计算框架中自然地推导出来。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问