分享自:

基于大语言模型的网络安全威胁情报知识图谱构建方法

期刊:colm

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:


CTIKG:基于大语言模型的网络威胁情报知识图谱构建研究

作者及机构
本研究的核心作者为Liangyi Huang和Xusheng Xiao,均来自美国亚利桑那州立大学计算机与增强智能学院(School of Computing and Augmented Intelligence, Arizona State University)。研究成果发表于2024年的COLM(Conference on Language Modeling)会议。

学术背景与研究目标
研究领域聚焦于网络安全中的威胁情报分析。当前,网络威胁情报(Cyber Threat Intelligence, CTI)主要通过结构化数据(如入侵指标Indicators of Compromise, IOC)或非结构化文本(如技术博客、论坛文章)共享。然而,现有方法仅能分析主流威胁知识库(如CVE、NVD)的标准文本,缺乏从多篇CTI文章中挖掘安全实体(如漏洞、恶意软件)间关联的能力。为此,研究团队提出CTIKG(LLM-powered Knowledge Graph Construction from Cyber Threat Intelligence),旨在利用大语言模型(LLM)的提示工程(Prompt Engineering)技术,从非结构化CTI文章中自动构建安全知识图谱,揭示跨文章的实体关系与行为模式。

研究流程与方法
研究分为三个阶段,共包含7类LLM代理(Agent)和双内存设计(Dual Memory Design),具体流程如下:

  1. 短期记忆构建

    • 文本分割:使用NLTK工具将CTI文章按段落分割,超长段落进一步拆分为句子并重组为600字符以内的片段,以适配LLM的token限制(如Yi-34B模型支持4,096 tokens)。
    • 三元组提取
      • Worker代理:部署3个温度参数(1.0、0.5、0.2)不同的Worker,从文本片段中提取安全相关三元组(Subject-Relation-Object),例如⟨Bedep, performs, click-fraud⟩。提示词(Prompt)明确要求仅提取与网络攻击相关的实体(如恶意软件、漏洞)。
      • Integrator代理:整合多个Worker的结果,合并语义相同的三元组。
      • Refiner代理:通过思维链(Chain-of-Thought)技术标准化三元组,包括简化修饰词(如“malware Formbook”→“Formbook”)、拆分复合三元组(如⟨A and B, are, malware⟩→⟨A, is, malware⟩ + ⟨B, is, malware⟩)及解决指代问题(如“it”→具体实体名)。
      • Checker代理:检测常见错误模式(如幻觉生成、格式错误),触发最多3次重试机制。
  2. 长期记忆构建

    • Merger代理:统一不同片段中相同实体的表述(如“the Formbook”→“Formbook”),并过滤LLM想象的非真实三元组。例如,将⟨a sample of BBB, saves, payload⟩修正为⟨BBB, saves, payload⟩。
  3. 知识图谱构建

    • 基于RoBERTa模型计算实体嵌入向量,通过相似度匹配将不同文章的三元组链接至图谱节点。例如,CVE-2012-0158与CVE-2017-11882因共享“Microsoft Office内存破坏漏洞”关系而被关联。

实验结果
研究在三个基准测试中验证了CTIKG的有效性:
1. 三元组提取:在255句CTI文本(覆盖MITRE ATT&CK的13种攻击战术)中,CTIKG精确率(Precision)达91.89%,召回率(Recall)达89.39%,较基线方法(如Extractor、REBEL)提升超10%。
2. 知识图谱构建:在30篇CTI文章(含独立、链式、综述三类)上,CTIKG精确率为86.88%,召回率为70.86%,较基线提升至少30%。
3. 跨文章关联分析:对478篇描述15个CVE实体的文章,CTIKG平均为每个CVE发现39.2种行为,较单篇文章分析(8.6种)提升428.76%。例如,CVE-2021-44228(Log4j漏洞)通过关联24篇文章,新增56种行为描述。

结论与价值
1. 科学价值
- 提出首个基于LLM的多代理协同框架,解决了长文本处理、幻觉抑制和实体归一化等挑战。
- 证明开源模型(Yi-34B)通过提示工程和重试机制可超越GPT-4的图谱构建性能。
2. 应用价值
- 为安全分析师提供自动化工具,从海量CTI中挖掘潜在威胁关联(如Emotet与Trickbot的“switch to”关系)。
- 公开了实现代码、评估数据集及微调模型(基于Qwen1.5-70B),推动领域复现与扩展。

研究亮点
1. 方法创新:双内存设计(短期记忆分片处理+长期记忆全局整合)突破了LLM的token限制。
2. 发现创新:揭示了54.93%的实体关系无法通过预定义本体(Ontology)捕获,需动态发现(如“mutual ransomware payload”关系)。
3. 工程贡献:20k字符的提示词工程与多代理协作框架为LLM的领域适配提供了范本。

其他发现
- 性能优化:Llama3-8B模型可将单篇文章处理时间从5分钟(Yi-34B)缩短至50秒。
- 跨领域潜力:未来可扩展至科学文献知识图谱构建(如SciERC数据集)。


此报告系统梳理了CTIKG的研究设计、技术突破与实践意义,为网络安全与自然语言处理领域的交叉研究提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com