本研究由Su Wang, Zhiliang Wang (IEEE会员), Tao Zhou, Xia Yin (IEEE高级会员), Dongqi Han, Han Zhang, Hongbin Sun, Xingang Shi (IEEE会员), Jiahai Yang (IEEE高级会员)合作完成,发表于Journal of LaTeX Class Files(第14卷第8期,2021年8月)。
研究领域与背景
该研究属于主机入侵检测(Host-based Intrusion Detection, HIDS)领域,针对现代攻击者常用的程序攻击、恶意软件植入和高级持续性威胁(Advanced Persistent Threat, APT)等主机级威胁(host-based threats)。传统基于数据溯源(data provenance)的方法通过分析系统审计数据构建的有向无环图(DAG)检测威胁,但存在两大局限:
1. 全局图特征提取方法对少量威胁相关实体不敏感;
2. 路径级检测方法难以应对APT等分散式攻击。
研究目标
开发一种无需先验攻击知识、能够在节点级别检测和追踪隐蔽威胁的实时系统,解决现有方法的低效性和滞后性问题。
ThreatRace包含四个核心模块:
- 数据溯源生成器:通过外部工具CamFlow采集系统审计数据,构建带时间序的全局溯源图。
- 数据存储:采用磁盘-内存混合存储策略。全量图存于磁盘,内存中维护包含活跃节点及其2跳邻居的子图(如图3所示),平衡实时性与资源开销。
- 模型:核心为基于GraphSAGE(一种归纳式图神经网络)的多模型框架,关键创新包括:
- 特征提取:将节点类型(如进程、文件)作为标签,边类型分布(如read/write系统调用)作为特征(公式1)。
- 多模型训练:通过概率阈值(r=1.5)分阶段训练子模型,解决数据不平衡问题(算法1)。
- 动态检测:以流式处理方式实时分析子图(默认大小ss=200,000边),通过概率比对判定异常节点。
- 告警与追踪:设置等待时间阈值(t=168秒)和容忍阈值(t̂=2)降低误报,并定位异常节点的2跳邻域。
在三个公开数据集上评估:
- StreamSpot数据集:500个良性图和100个攻击图,ThreatRecall达到100%的检测率(表V)。
- Unicorn SC-2数据集:对比现有最优方法(Unicorn、ProvDetector),F1-score提升15%(表VI)。
- DARPA TC数据集:验证长期隐蔽攻击检测能力,节点级召回率达99%(表VII),案例研究显示其可捕获早期攻击阶段(图4)。
检测性能优势
创新方法论
系统级价值
ThreatRace通过图神经网络与动态溯源分析的结合,解决了隐蔽威胁检测中的三大挑战:
1. 无需攻击模式先验知识:通过良性节点角色建模实现零样本检测。
2. 细粒度追踪能力:直接定位异常实体(如恶意文件路径)。
3. 实时性保障:流式处理与内存优化设计支持长期监控。
(注:专业术语如GraphSAGE、data provenance等首次出现时保留英文原词,后续使用中文译名。)