一、研究概述
本研究由新疆大学计算机科学与技术学院的张梦伟、蒋晓以及清华大学精密仪器系的况敏驰、施恒、朱继宏、朱靖宇共同完成。论文标题为“command-agent: reconstructing warfare simulation and command decision-making using large language models”,发表于期刊 Defence Technology 的第56卷(2026年),在线发表日期为2025年9月3日。该研究属于人工智能在军事指挥领域的交叉应用,具体聚焦于利用大语言模型(Large Language Models, LLMs)和数字孪生(Digital Twin)技术,构建智能化的战争模拟与指挥决策框架。
二、学术背景与目标
随着国际事务日益复杂,战争推演(Wargaming)在国家安全中的作用愈发关键。然而,传统的推演方法(如兵棋推演)效率低下、灵活性不足,尤其在指挥决策层面局限性明显。海量信息和高复杂度决策阻碍了自主、敏捷的指挥控制(Command and Control, C2)的实现。当前,数字孪生战场技术虽然能通过传感器、卫星等多源数据实时模拟战场环境,提供精准态势感知,但其决策支持仍高度依赖指挥官的人工分析,在高压力、快节奏的现代战争场景中难以应对。
与此同时,以GPT、DeepSeek等为代表的大语言模型在复杂决策任务(如实时战略游戏、多智能体协作)中展现出巨大潜力,其自然语言理解和推理能力为解决上述军事指挥难题提供了新思路。然而,LLMs直接应用于军事决策仍面临显著挑战:首先,其在决策层面可能产生“幻觉”(hallucinations),输出不符合军事事实或逻辑的决策;其次,在执行层面,通用LLMs的工具调用(Function Calling)能力难以与实时战场数据流和特定战术逻辑深度集成,导致决策与执行脱节。
因此,本研究旨在解决的核心问题是:如何将LLMs的智能推理能力与数字孪生战场的高保真动态模拟能力深度融合,创建一个能够理解自然语言指令、进行智能决策并精准执行的自主指挥仿真框架。其主要目标包括:1. 提出一个集成LLMs与数字孪生技术的智能战争仿真框架(即command-agent);2. 设计一种多智能体(Multi-Agent)协同架构,以克服单一LLM在复杂环境中推理与执行的局限性;3. 通过引入向量知识库(Vector Knowledge Base)约束LLMs的生成空间,减少幻觉;4. 开发专用轻量化执行模型和自动化数据生成管道,为军事领域AI应用提供可行技术方案。
三、研究详细工作流程
本研究设计并实施了一个完整的技术验证流程,核心是command-agent框架及其关联的数字孪生战场仿真系统。工作流程可概括为以下主要环节:
1. 系统总体架构设计 研究者提出了名为command-agent的智能化战争仿真框架,其核心是“三层一库”架构:感知层、决策层、执行层和共享记忆库。该架构与一个高保真数字孪生战场深度集成,共同构成一个“观察-判断-决策-行动”(OODA)的闭环回路。数字孪生战场由四个子系统构成:仿真环境子系统、态势感知数据采集子系统、通信接口子系统和AI控制子系统。
2. 数字孪生战场构建 利用Unity 3D引擎开发了高保真虚拟战场环境。该系统实现了对空、天、陆、海全域作战单元的1:1建模,严格遵循真实装备的技战术参数,并模拟复杂的物理行为(如六自由度飞行动力学)。 * 仿真环境子系统:构建了包含无人机、侦察卫星、地面武器、舰船等多种作战单元的虚拟战场,并模拟动态气象条件。 * 态势感知数据采集子系统:通过Unity引擎接口实时采集作战单元的空间姿态、战术意图及环境数据,存入时序数据库。 * 通信接口子系统:采用HTTP(高可靠)与UDP(低延迟)混合协议,作为与command-agent感知层的数据交互桥梁。系统根据任务特性(如是否需要确认)智能选择通信协议。此外,还模拟了地形遮挡、通信延迟等真实网络条件。 * AI控制子系统:为各类作战单元预设了自主行为逻辑(如状态机、目标分配算法),同时开放关键控制节点参数,允许command-agent通过调整参数进行干预。
3. command-agent核心模块开发 * 感知层:负责与数字孪生战场进行双向实时通信。它接收战场态势数据,进行时空融合处理,生成综合态势报告传递给决策层;同时,接收执行层的指令,通过智能路由选择合适的通信协议发送给数字孪生战场,并反馈执行结果。 * 决策层:作为智能决策核心,采用“3D动态”引擎,围绕DeepSeek-R1大语言模型构建。其工作流程是:结合感知层传来的实时战场状态、指挥官的作战命令,以及从向量知识库中实时检索到的相关战场知识(如武器参数、地理信息、作战条令),动态生成决策提示(Prompt),由DeepSeek-R1进行多阶段深度推理,最终生成包含多个作战计划的决策方案。向量知识库通过嵌入模型和相似度检索,为LLMs提供结构化先验知识,有效约束其生成空间,减少幻觉。 * 共享记忆库:采用分布式存储架构,记录决策层的作战方案和推理痕迹,以及执行层的工具调用记录和行动结果。它实现了一种“记忆同步”机制,使决策智能体(Decision-Agent)与执行智能体(Execute-Agent)在认知层面深度融合,达到“行动即认知”的状态,避免了传统多智能体间通信的安全风险和延迟。 * 执行层:基于改进的军事化ReAct框架工作。它从共享记忆库中检索决策方案,基于军事专用提示引擎启动“思考-行动-观察”循环。其核心是一个名为MCTool的专用大语言模型。MCTool负责解析决策内容,从军事工具库中精确匹配API,生成结构化函数调用参数,并将指令打包成标准命令消息,通过感知层发送给数字孪生战场执行。MCTool基于Qwen2.5-7B模型,使用QLoRA(量化低秩适配) 技术进行微调。训练数据来自一个由LLMs(如GPT-4o、Qwen2-72B-Instruct)生成的、包含8427个高质量军事指挥样本的专用数据集。该数据集通过一个自动化军事命令数据集生成管道(包括战场数据收集、API库构建、样本抽取、问答生成、质量评估等模块)自动生成和筛选,解决了军事领域数据稀缺的难题。
4. 实验设置与评估方法 研究设计了渐进式的实验来评估系统性能。 * 实验环境:所有实验在统一的数字孪生战场中进行,采用红蓝对抗模式。蓝方(进攻方)由预设的AI状态机控制,红方(防御/拦截方)由command-agent控制。胜利条件是歼灭或击退敌方单位。 * 决策智能体评估:设计了一系列复杂战术任务(如机场选择与兵力部署、路径规划、动态威胁响应、指挥官意图理解等),在数字孪生环境中进行推演,通过观察command-agent的决策过程、战术调整以及对模糊指令的理解,定性评估其战场态势响应能力和战术合理性。 * command-agent综合性能评估:设置了2、4、6、8架无人机的红蓝对抗场景,定量比较四种不同智能体配置的性能: 1. 单智能体(MCTool):端到端架构。 2. 多智能体协作(DeepSeek-R1 + Qwen2.5-7B):决策与执行分离。 3. 多智能体优化(DeepSeek-R1 + MCTool):使用专用微调模型MCTool执行。 4. 完整Command-Agent系统(DeepSeek-R1 + MCTool + 向量知识库)。 * 评估指标与计分:定义了四个关键指标,并将其标准化为1-10分: 1. 决策准确度:衡量目标选择、资源分配等决策质量。 2. 战损比:衡量我方损失与敌方损失的比率。 3. 执行效率:衡量从指令下达到任务完成的平均时间。 4. 工具执行准确度:衡量模型调用工具的成功率。 最终,通过加权求和(决策准确度0.3,战损比0.3,执行效率0.2,工具执行准确度0.2)计算综合得分。
四、主要研究结果
1. 决策智能体战术响应结果 在数字孪生战场的系列推演中,command-agent展现了卓越的战术决策与动态调整能力。 * 兵力部署与目标分配:面对蓝方4架无人机的进攻,command-agent分析了各机场距离和可用无人机数量,选择了一个距离第二近但拥有12架无人机的机场,派出8架无人机(2:1优势),符合“集中优势兵力”的军事原则。 * 动态战术调整:当蓝方部署地面武器后,command-agent优先评估并分配无人机摧毁地面威胁,体现了“威胁优先级排序”原则。 * 理解指挥官模糊意图:当指挥官仅提示“某无人机对地打击能力较弱”时,command-agent自主决定绕过敌方防空区,并规划了分路夹击的战术,成功将模糊意图转化为精确、可执行的计划。 * 战后智能恢复:战斗结束后,根据指挥官“返航”命令,command-agent综合考虑燃油量和机场可用机位,自动选择最优返航机场并计算最短路径。 这些结果表明,command-agent不仅能够理解复杂战场态势和结构化指令,还能有效解析和执行基于自然语言的模糊战术意图,验证了其在动态复杂环境下的自主决策与适应能力。
2. 多架构对比实验结果 定量实验数据(表3及图14)清晰揭示了不同架构的性能差异: * 完整Command-Agent系统的全面优势:在2至8架无人机的所有测试场景中,DeepSeek-R1 + MCTool + 向量知识库(完整系统)的综合得分均显著高于其他配置。例如,在2架无人机场景中,其综合得分为9.55,比没有知识库的DeepSeek-R1 + MCTool(8.22)高出16.2%,比通用模型组合DeepSeek-R1 + Qwen2.5-7B(7.96)高出20.0%,比单智能体MCTool(6.84)高出39.6%。这充分证明了向量知识库与多智能体协同架构对提升战场决策与执行综合能力的决定性作用。 * 专用微调模型MCTool的有效性:在同一决策智能体(DeepSeek-R1)下,DeepSeek-R1 + MCTool的综合得分始终高于DeepSeek-R1 + Qwen2.5-7B。在4架无人机场景中,前者综合得分(7.63)比后者(7.11)高7.3%;在工具执行准确度上,前者(8.40)比后者(7.50)高12.0%。所有场景总分上,前者(30.95)比后者(29.54)总体提升4.77%。这验证了针对军事领域进行模型微调的必要性和有效性。 * 多智能体架构相对于单智能体的优越性:两种多智能体架构(DeepSeek-R1 + MCTool 和 DeepSeek-R1 + Qwen2.5-7B)在所有场景中均大幅超越单智能体架构(MCTool)。例如,在6架无人机场景中,前两者的综合得分分别为7.70和7.47,而后者仅为6.15,提升幅度达25.2%和21.5%。在决策准确度上,多智能体(8.80)比单智能体(6.20)高出41.9%。这表明决策与执行分离的多智能体架构能更好地应对复杂、规模化任务。 * 向量知识库的贡献:通过对比DeepSeek-R1 + MCTool 与 DeepSeek-R1 + MCTool + 向量知识库,可以评估知识库的价值。例如,在2架无人机场景中,加入知识库后综合得分从8.22提升至9.55(提升16.2%);战损比得分从6.67大幅提升至9.5(优化约42.4%),显著降低了模拟战斗中的己方损失。这直接证明了向量知识库通过提供结构化先验知识,极大地增强了决策的合理性和战场生存能力。
五、结论与价值
本研究成功地提出并验证了command-agent这一创新的智能战争仿真框架。该框架通过将大语言模型的自然语言理解与决策推理能力,与数字孪生战场的高保真动态模拟能力深度融合,实现了“语言驱动决策-数字镜像模拟”的闭环指挥模式。
其科学价值与应用意义在于: 1. 范式创新:首次提出并实现了基于“AI大脑(LLMs)+数字孪生”的智能化战争模拟新范式,为军事指挥系统的智能化转型开辟了新的技术路径。 2. 架构突破:设计的“决策-执行”解耦的多智能体协同架构,有效克服了单一LLM的局限性。引入的共享记忆库和向量知识库,分别从认知同步和事实约束层面提升了系统的整体性能与可靠性。 3. 技术实现:开发了面向军事领域的轻量化专用执行模型MCTool和自动化数据生成管道,解决了军事AI领域数据稀缺和模型适配的关键技术难题,支持本地化离线部署,提升了实用性和安全性。 4. 性能验证:实验证明,该框架不仅能实现自然语言驱动的仿真控制,还能深度理解指挥意图。在红蓝无人机对抗中,完整系统相比单智能体基线,平均综合得分提升41.8%,战损比优化161.8%,决策准确度提升41%,充分验证了其有效性和优越性。
六、研究亮点
七、其他有价值的补充
论文还详尽综述了相关领域工作,包括传统兵棋推演与数字孪生战场的发展、LLMs在复杂决策中的应用、LLMs在军事决策与执行中的挑战以及网络化指挥控制系统的研究,明确了本研究的定位与创新之处。同时,研究者也指出了未来方向,如优化LLMs与执行系统的动态协作机制、增强系统在多域联合作战等复杂战术场景中的适应性,以及加强其在对抗环境下的鲁棒性研究,为后续工作提供了清晰的路线图。