分享自:

利用大型语言模型构建威胁情报知识图谱

期刊:computers & security

学术研究报告:基于大语言模型的威胁情报知识图谱构建方法LLM-TIKG

一、作者与机构
本研究的核心作者团队来自上海交通大学电子信息与电气工程学院(Yuelin Hua, Futai Zou*)和国网浙江省电力有限公司电力科学研究院(Jiajia Han, Xin Sun, Yilei Wang)。论文目前以预印本形式发布于SSRN平台(2023年12月6日),尚未经过同行评审。

二、研究背景与目标
科学领域:本研究属于网络安全与自然语言处理(NLP)交叉领域,聚焦于开源威胁情报(Open-Source Threat Intelligence, OSCTI)的自动化分析。

研究动机:当前OSCTI多为非结构化文本(如安全报告、博客),难以直接用于入侵检测。传统知识图谱构建方法面临三大挑战:
1. 领域特异性:威胁实体(如恶意软件、攻击者)边界模糊且存在多义性,导致命名实体识别(NER)准确率低;
2. 长文本处理瓶颈:现有模型对长序列的解析能力有限;
3. 标注数据依赖:缺乏权威标注数据集,人工标注成本高昂。此外,现有研究常忽略攻击行为描述(如“向文件注入shellcode”),导致高阶威胁信息(如MITRE ATT&CK框架中的TTPs)丢失。

研究目标:提出LLM-TIKG方法,利用大语言模型(LLM)从非结构化OSCTI中自动构建知识图谱,实现威胁情报的标准化与关联分析。

三、研究方法与流程
研究分为四个核心阶段,流程如下:

1. 数据采集与预处理
- 数据源:从Symantec、Fortinet等安全厂商平台及The Hacker News等媒体爬取12,545篇威胁情报报告,保留标题、链接、正文结构(分段存储)。
- 预处理:去除广告等噪声,按段落划分文本以保留上下文语义。

2. 基于GPT的少样本学习数据标注
为解决标注数据稀缺问题,利用GPT-3.5的少样本学习能力生成训练集:
- 任务设计:针对三类任务设计提示模板(见图3):
- 主题分类:判断文本是否涉及网络攻击(如“是/否”二分类),并提取核心对象(如恶意软件名称);
- 实体与关系抽取:定义10类实体(如Malware、IP、TTP)及关系(如“use”“hash”),通过示例引导模型输出结构化结果;
- TTP分类:将攻击行为映射至MITRE ATT&CK技术(如“侧载DLL”→T1574)。
- 数据增强:通过翻译回译和语义改写(Rewriting)扩充TTP标注数据集至38,946条。

3. 模型微调(LoRA-based Instruction Tuning)
- 基模型选择:采用开源模型Llama2-7B,因其参数量适中且可本地部署,降低数据泄露风险。
- 微调策略:使用低秩自适应(LoRA)技术,仅训练新增的秩分解矩阵(公式1),冻结原始参数以减少计算开销。
- 输入格式:指令(Instruction)+输入文本+输出示例,最大序列长度设为1024(实体抽取)或512(其他任务)。

4. 知识图谱构建与融合
- 实体关系融合
- 规则匹配:对同义恶意软件名称(如“backdoor.pterodo”与“pterodo”)进行合并;
- 聚类算法:基于词嵌入余弦相似度,对攻击类型和关系进行层次聚合聚类(HAC),选取高频词作为代表节点。
- 图谱存储:将50,745个实体和64,948条关系导入Neo4j图数据库,形成多层级关联网络(见图6)。

四、主要实验结果
1. 命名实体识别(NER)
- 对比模型:BERT-CRF、GPT-3.5、GPT-4。
- 结果:微调后的Llama2-7B在手动修正的1,600条数据上达到最高精确率(87.88%),优于BERT-CRF(70.98%)和GPT-4(79.30%),证明高质量小数据集对模型性能的关键作用。

  1. TTP分类
  • 技术层级分类:在229类MITRE ATT&CK技术上准确率达97.47%,显著高于规则匹配工具TTPDrill(10.23%)和TRAM(23.83%)。
  • 子技术分类:595类子技术的F1-score为87.50%,反映模型对细粒度攻击行为的理解能力。
  1. 知识图谱应用案例
  • 威胁狩猎:图7展示恶意软件Pivnoxy的攻击链(钓鱼邮件→文件加载→进程注入),为行为检测提供模板。
  • 攻击归因:图8通过共享TTP和IOC(如哈希值),揭示BlackSuit与Royal勒索软件的关联性,辅助溯源分析。

五、研究结论与价值
科学价值
1. 方法论创新:首次将LLM的少样本学习与指令微调引入威胁情报分析,实现端到端知识图谱构建;
2. 性能突破:通过LoRA微调和数据增强,在小规模标注数据下超越传统NLP模型。

应用价值
- 自动化分析:降低对安全专家人工标注的依赖;
- 威胁关联:融合低阶IOC与高阶TTP,提升攻击链还原和意图推理能力。

六、研究亮点
1. 跨领域融合:结合网络安全领域知识(MITRE ATT&CK)与LLM的通用语义理解能力;
2. 数据高效性:通过GPT生成标注数据,减少90%以上人工成本;
3. 可扩展性:框架支持动态新增实体类型和关系,适配新兴威胁。

七、其他贡献
- 开源数据集:发布手动修正的标注数据集(GitHub: netsec-sjtu/llm-tikg-dataset);
- 工程实践:提供本地化部署方案,避免敏感数据外泄风险。

未来方向:探索更长文本输入(如整篇报告)的处理方法,并优化实体消歧算法以提升图谱精度。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com