基于大语言模型的网络安全威胁情报知识图谱构建方法

分享自：
基于大语言模型的网络安全威胁情报知识图谱构建方法

期刊:colm
这篇文档属于类型a，即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告：
CTIKG：基于大语言模型的网络威胁情报知识图谱构建研究
作者及机构
 本研究的核心作者为Liangyi Huang和Xusheng Xiao，均来自美国亚利桑那州立大学计算机与增强智能学院（School of Computing and Augmented Intelligence, Arizona State University）。研究成果发表于2024年的COLM（Conference on Language Modeling）会议。
学术背景与研究目标
 研究领域聚焦于网络安全中的威胁情报分析。当前，网络威胁情报（Cyber Threat Intelligence, CTI）主要通过结构化数据（如入侵指标Indicators of Compromise, IOC）或非结构化文本（如技术博客、论坛文章）共享。然而，现有方法仅能分析主流威胁知识库（如CVE、NVD）的标准文本，缺乏从多篇CTI文章中挖掘安全实体（如漏洞、恶意软件）间关联的能力。为此，研究团队提出CTIKG（LLM-powered Knowledge Graph Construction from Cyber Threat Intelligence），旨在利用大语言模型（LLM）的提示工程（Prompt Engineering）技术，从非结构化CTI文章中自动构建安全知识图谱，揭示跨文章的实体关系与行为模式。
研究流程与方法
 研究分为三个阶段，共包含7类LLM代理（Agent）和双内存设计（Dual Memory Design），具体流程如下：
短期记忆构建
文本分割：使用NLTK工具将CTI文章按段落分割，超长段落进一步拆分为句子并重组为600字符以内的片段，以适配LLM的token限制（如Yi-34B模型支持4,096 tokens）。
 
三元组提取：
 Worker代理：部署3个温度参数（1.0、0.5、0.2）不同的Worker，从文本片段中提取安全相关三元组（Subject-Relation-Object），例如⟨Bedep, performs, click-fraud⟩。提示词（Prompt）明确要求仅提取与网络攻击相关的实体（如恶意软件、漏洞）。
 
Integrator代理：整合多个Worker的结果，合并语义相同的三元组。
 
Refiner代理：通过思维链（Chain-of-Thought）技术标准化三元组，包括简化修饰词（如“malware Formbook”→“Formbook”）、拆分复合三元组（如⟨A and B, are, malware⟩→⟨A, is, malware⟩ + ⟨B, is, malware⟩）及解决指代问题（如“it”→具体实体名）。
 
Checker代理：检测常见错误模式（如幻觉生成、格式错误），触发最多3次重试机制。
长期记忆构建
Merger代理：统一不同片段中相同实体的表述（如“the Formbook”→“Formbook”），并过滤LLM想象的非真实三元组。例如，将⟨a sample of BBB, saves, payload⟩修正为⟨BBB, saves, payload⟩。
知识图谱构建
基于RoBERTa模型计算实体嵌入向量，通过相似度匹配将不同文章的三元组链接至图谱节点。例如，CVE-2012-0158与CVE-2017-11882因共享“Microsoft Office内存破坏漏洞”关系而被关联。
实验结果
 研究在三个基准测试中验证了CTIKG的有效性：
 1. 三元组提取：在255句CTI文本（覆盖MITRE ATT&CK的13种攻击战术）中，CTIKG精确率（Precision）达91.89%，召回率（Recall）达89.39%，较基线方法（如Extractor、REBEL）提升超10%。
 2. 知识图谱构建：在30篇CTI文章（含独立、链式、综述三类）上，CTIKG精确率为86.88%，召回率为70.86%，较基线提升至少30%。
 3. 跨文章关联分析：对478篇描述15个CVE实体的文章，CTIKG平均为每个CVE发现39.2种行为，较单篇文章分析（8.6种）提升428.76%。例如，CVE-2021-44228（Log4j漏洞）通过关联24篇文章，新增56种行为描述。
结论与价值
 1. 科学价值：
 - 提出首个基于LLM的多代理协同框架，解决了长文本处理、幻觉抑制和实体归一化等挑战。
 - 证明开源模型（Yi-34B）通过提示工程和重试机制可超越GPT-4的图谱构建性能。
 2. 应用价值：
 - 为安全分析师提供自动化工具，从海量CTI中挖掘潜在威胁关联（如Emotet与Trickbot的“switch to”关系）。
 - 公开了实现代码、评估数据集及微调模型（基于Qwen1.5-70B），推动领域复现与扩展。
研究亮点
 1. 方法创新：双内存设计（短期记忆分片处理+长期记忆全局整合）突破了LLM的token限制。
 2. 发现创新：揭示了54.93%的实体关系无法通过预定义本体（Ontology）捕获，需动态发现（如“mutual ransomware payload”关系）。
 3. 工程贡献：20k字符的提示词工程与多代理协作框架为LLM的领域适配提供了范本。
其他发现
 - 性能优化：Llama3-8B模型可将单篇文章处理时间从5分钟（Yi-34B）缩短至50秒。
 - 跨领域潜力：未来可扩展至科学文献知识图谱构建（如SciERC数据集）。
此报告系统梳理了CTIKG的研究设计、技术突破与实践意义，为网络安全与自然语言处理领域的交叉研究提供了重要参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问