这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:
CTIKG:基于大语言模型的网络威胁情报知识图谱构建研究
作者及机构
本研究的核心作者为Liangyi Huang和Xusheng Xiao,均来自美国亚利桑那州立大学计算机与增强智能学院(School of Computing and Augmented Intelligence, Arizona State University)。研究成果发表于2024年的COLM(Conference on Language Modeling)会议。
学术背景与研究目标
研究领域聚焦于网络安全中的威胁情报分析。当前,网络威胁情报(Cyber Threat Intelligence, CTI)主要通过结构化数据(如入侵指标Indicators of Compromise, IOC)或非结构化文本(如技术博客、论坛文章)共享。然而,现有方法仅能分析主流威胁知识库(如CVE、NVD)的标准文本,缺乏从多篇CTI文章中挖掘安全实体(如漏洞、恶意软件)间关联的能力。为此,研究团队提出CTIKG(LLM-powered Knowledge Graph Construction from Cyber Threat Intelligence),旨在利用大语言模型(LLM)的提示工程(Prompt Engineering)技术,从非结构化CTI文章中自动构建安全知识图谱,揭示跨文章的实体关系与行为模式。
研究流程与方法
研究分为三个阶段,共包含7类LLM代理(Agent)和双内存设计(Dual Memory Design),具体流程如下:
短期记忆构建
长期记忆构建
知识图谱构建
实验结果
研究在三个基准测试中验证了CTIKG的有效性:
1. 三元组提取:在255句CTI文本(覆盖MITRE ATT&CK的13种攻击战术)中,CTIKG精确率(Precision)达91.89%,召回率(Recall)达89.39%,较基线方法(如Extractor、REBEL)提升超10%。
2. 知识图谱构建:在30篇CTI文章(含独立、链式、综述三类)上,CTIKG精确率为86.88%,召回率为70.86%,较基线提升至少30%。
3. 跨文章关联分析:对478篇描述15个CVE实体的文章,CTIKG平均为每个CVE发现39.2种行为,较单篇文章分析(8.6种)提升428.76%。例如,CVE-2021-44228(Log4j漏洞)通过关联24篇文章,新增56种行为描述。
结论与价值
1. 科学价值:
- 提出首个基于LLM的多代理协同框架,解决了长文本处理、幻觉抑制和实体归一化等挑战。
- 证明开源模型(Yi-34B)通过提示工程和重试机制可超越GPT-4的图谱构建性能。
2. 应用价值:
- 为安全分析师提供自动化工具,从海量CTI中挖掘潜在威胁关联(如Emotet与Trickbot的“switch to”关系)。
- 公开了实现代码、评估数据集及微调模型(基于Qwen1.5-70B),推动领域复现与扩展。
研究亮点
1. 方法创新:双内存设计(短期记忆分片处理+长期记忆全局整合)突破了LLM的token限制。
2. 发现创新:揭示了54.93%的实体关系无法通过预定义本体(Ontology)捕获,需动态发现(如“mutual ransomware payload”关系)。
3. 工程贡献:20k字符的提示词工程与多代理协作框架为LLM的领域适配提供了范本。
其他发现
- 性能优化:Llama3-8B模型可将单篇文章处理时间从5分钟(Yi-34B)缩短至50秒。
- 跨领域潜力:未来可扩展至科学文献知识图谱构建(如SciERC数据集)。
此报告系统梳理了CTIKG的研究设计、技术突破与实践意义,为网络安全与自然语言处理领域的交叉研究提供了重要参考。