分享自:

基于插值一致性正则化的孪生模糊网络在弱监督异常检测中的应用

期刊:ieee transactions on fuzzy systemsDOI:10.1109/tfuzz.2024.3412435

基于双模糊网络与插值一致性正则化的弱监督异常检测研究

作者与发表信息

本文由Zhi Cao(南方科技大学计算机科学与工程系/悉尼科技大学CIBCI实验室)、Ye Shi(上海科技大学信息科学与技术学院)、Yu-Cheng Chang(悉尼科技大学CIBCI实验室)、Xin Yao(香港岭南大学数据科学学院)及Chin-Teng Lin(悉尼科技大学CIBCI实验室)共同完成,发表于IEEE Transactions on Fuzzy Systems2024年9月刊(第32卷第9期)。研究受中国国家自然科学基金(62250710682)、广东省重点实验室(2020B121201001)及广东省创新创业团队计划(2017ZT07X386)资助。

研究背景与目标

科学领域与问题背景
异常检测(Anomaly Detection)是识别偏离“正常”模式数据的关键技术,广泛应用于金融欺诈识别、网络入侵检测、医学影像分析等领域。传统方法分为三类:
1. 全监督方法:需大量标注数据,成本高昂;
2. 无监督方法(如Isolation Forest、深度自编码器):假设异常点稀疏分布,但无法处理聚集性异常(如集中爆发的网络攻击);
3. 弱监督异常检测(WSAD, Weakly Supervised Anomaly Detection):利用极少量标注异常(仅占训练集的0.01%~0.6%)提升检测性能,但现有方法(如Prenet)面临标注数据利用率低、模型泛化能力不足等问题。

研究目标
作者提出双模糊网络(TFN, Twin Fuzzy Networks)框架,结合模糊C均值聚类(FCM, Fuzzy C-Means)插值一致性正则化(ICR, Interpolation Consistency Regularization),旨在实现三大突破:
1. 高精度:通过模糊规则学习增强对数据不确定性的鲁棒性;
2. 高效性:封闭式优化替代梯度下降,加速训练;
3. 可解释性:基于模糊规则提供异常检测的逻辑解释。

研究方法与工作流程

1. 数据增强与问题重构

  • 输入数据:训练集包含*未标注数据*(xu, nu个样本)与*标注异常*(xa, na个样本,na ≪ nu),污染率ε控制xu中异常比例。
  • 数据对构造:生成三类数据对(共m=10,240对):
    • 异常-异常对(xa, xa):标签caa=8
    • 异常-未标注对(xu, xa):标签cua=4
    • 未标注-未标注对(xu, xu):标签cuu=0
  • 测试阶段:通过随机采样xu和xa构建测试对,计算平均异常得分。

2. 双模糊网络(TFN)结构

TFN由两个结构相同的模糊推理网络组成,采用Takagi-Sugeno一阶模型
- 模糊规则:每条规则形式为“若xi属于模糊集Ak,则输出线性组合yi,k=wk0+∑wkjxij”。
- 模糊C均值聚类(FCM)
- 迭代优化目标函数(式3),计算样本xi对聚类中心mk的隶属度uik(式4)并更新中心(式5)。
- 参数:模糊重叠度α=2,最大迭代次数100次。
- 隶属度加权预测:最终异常得分通过隶属度加权各规则输出(式6)。

3. 插值一致性正则化(ICR)

为避免模型过拟合少量标注异常,ICR通过数据插值增强泛化性
- 虚拟样本生成:对未标注数据对(ul1, ur1)和(ul2, ur2)随机插值(λ~Beta(0.5,0.5)),生成虚拟对(ũl, ũr)。
- 一致性约束:强制模型对插值样本的输出等于原样本输出的插值(式13),引导决策边界向数据分布的低密度区域偏移。

4. 封闭式优化

TFN参数通过最小化损失函数(式14)求解:
- 总损失:包含数据对预测误差(式10)与ICR正则项(式15)。
- 求解:直接计算权重矩阵w的闭式解(式15),避免梯度消失问题,显著加速训练。

主要结果与发现

1. 性能对比实验

在10个真实数据集(如“donors”“fraud”“backdoor”)上测试,设置ε=0.02、na=60,TFN显著优于基线:
- AUC-ROC:比Prenet提升1.39%,比无监督方法(如iForest)提升32.68%。
- AUC-PR(关注异常类):比Prenet提升5.38%,验证其对少数类的敏感性。
- 训练速度:封闭式优化使TFN训练时间仅为Prenet的1/3(见表II)。

2. 鲁棒性测试

  • 高污染率(ε=0.15):TFN在“thyroid”“exploits”等数据集上AUC-ROC保持稳定,而iForest性能下降40%(图3)。
  • 少标注场景(na=15):TFN仅需15个标注异常即可达到Prenet使用60个标注的精度(图4)。

3. 可解释性案例

以“donors”数据集为例:
- 样本1:隶属度u4=0.984(异常原型m4),特征f1(教师推荐标记)差异导致异常得分微调(图5b)。
- 样本2:虽隶属u3=0.425(异常原型m3),但因f1=0被判定为正常(图5d),符合领域逻辑。

研究结论与价值

科学价值
1. 理论创新:首次将模糊逻辑与ICR结合,解决WSAD中的不确定性建模与标注效率问题。
2. 方法普适性:TFN无需概率假设(如DevNet的高斯先验),适用于复杂异常模式(如聚集性异常)。

应用价值
1. 工业场景:适合标注成本高的领域(如医疗、网络安全)。
2. 开源贡献:代码发布于GitHub(https://github.com/lflfdxfn/tfn)。

研究亮点

  1. 双模糊架构:通过模糊规则提取原型,增强对小样本的利用率。
  2. ICR正则化:无需梯度计算的低密度分离策略,提升泛化性。
  3. 封闭式优化:突破深度模型依赖梯度下降的局限,训练速度提升3倍。

其他发现

  • 消融实验(表III):移除ICR(n-TFN)或改用k-means(k-TFN)均导致性能下降,验证FCM与ICR的必要性。
  • 可扩展性(图7):TFN在百万级数据量下仍保持高效,时间复杂度为O(mtd²)。

该研究为弱监督异常检测提供了兼具精度、效率与可解释性的新范式,其方法框架可扩展至其他小样本学习任务。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com