基于插值一致性正则化的孪生模糊网络在弱监督异常检测中的应用

分享自：
基于插值一致性正则化的孪生模糊网络在弱监督异常检测中的应用

期刊:ieee transactions on fuzzy systemsDOI:10.1109/tfuzz.2024.3412435
基于双模糊网络与插值一致性正则化的弱监督异常检测研究作者与发表信息本文由Zhi Cao（南方科技大学计算机科学与工程系/悉尼科技大学CIBCI实验室）、Ye Shi（上海科技大学信息科学与技术学院）、Yu-Cheng Chang（悉尼科技大学CIBCI实验室）、Xin Yao（香港岭南大学数据科学学院）及Chin-Teng Lin（悉尼科技大学CIBCI实验室）共同完成，发表于IEEE Transactions on Fuzzy Systems2024年9月刊（第32卷第9期）。研究受中国国家自然科学基金（62250710682）、广东省重点实验室（2020B121201001）及广东省创新创业团队计划（2017ZT07X386）资助。
研究背景与目标科学领域与问题背景
 异常检测（Anomaly Detection）是识别偏离“正常”模式数据的关键技术，广泛应用于金融欺诈识别、网络入侵检测、医学影像分析等领域。传统方法分为三类：
 1. 全监督方法：需大量标注数据，成本高昂；
 2. 无监督方法（如Isolation Forest、深度自编码器）：假设异常点稀疏分布，但无法处理聚集性异常（如集中爆发的网络攻击）；
 3. 弱监督异常检测（WSAD, Weakly Supervised Anomaly Detection）：利用极少量标注异常（仅占训练集的0.01%~0.6%）提升检测性能，但现有方法（如Prenet）面临标注数据利用率低、模型泛化能力不足等问题。
研究目标
 作者提出双模糊网络（TFN, Twin Fuzzy Networks）框架，结合模糊C均值聚类（FCM, Fuzzy C-Means）与插值一致性正则化（ICR, Interpolation Consistency Regularization），旨在实现三大突破：
 1. 高精度：通过模糊规则学习增强对数据不确定性的鲁棒性；
 2. 高效性：封闭式优化替代梯度下降，加速训练；
 3. 可解释性：基于模糊规则提供异常检测的逻辑解释。
研究方法与工作流程1. 数据增强与问题重构输入数据：训练集包含*未标注数据*（xu, nu个样本）与*标注异常*（xa, na个样本，na ≪ nu），污染率ε控制xu中异常比例。
 
数据对构造：生成三类数据对（共m=10,240对）：
 异常-异常对（xa, xa）：标签caa=8
 
异常-未标注对（xu, xa）：标签cua=4
 
未标注-未标注对（xu, xu）：标签cuu=0
 
测试阶段：通过随机采样xu和xa构建测试对，计算平均异常得分。
 
2. 双模糊网络（TFN）结构TFN由两个结构相同的模糊推理网络组成，采用Takagi-Sugeno一阶模型：
 - 模糊规则：每条规则形式为“若xi属于模糊集Ak，则输出线性组合yi,k=wk0+∑wkjxij”。
 - 模糊C均值聚类（FCM）：
 - 迭代优化目标函数（式3），计算样本xi对聚类中心mk的隶属度uik（式4）并更新中心（式5）。
 - 参数：模糊重叠度α=2，最大迭代次数100次。
 - 隶属度加权预测：最终异常得分通过隶属度加权各规则输出（式6）。
3. 插值一致性正则化（ICR）为避免模型过拟合少量标注异常，ICR通过数据插值增强泛化性：
 - 虚拟样本生成：对未标注数据对（ul1, ur1）和（ul2, ur2）随机插值（λ~Beta(0.5,0.5)），生成虚拟对（ũl, ũr）。
 - 一致性约束：强制模型对插值样本的输出等于原样本输出的插值（式13），引导决策边界向数据分布的低密度区域偏移。
4. 封闭式优化TFN参数通过最小化损失函数（式14）求解：
 - 总损失：包含数据对预测误差（式10）与ICR正则项（式15）。
 - 求解：直接计算权重矩阵w的闭式解（式15），避免梯度消失问题，显著加速训练。
主要结果与发现1. 性能对比实验在10个真实数据集（如“donors”“fraud”“backdoor”）上测试，设置ε=0.02、na=60，TFN显著优于基线：
 - AUC-ROC：比Prenet提升1.39%，比无监督方法（如iForest）提升32.68%。
 - AUC-PR（关注异常类）：比Prenet提升5.38%，验证其对少数类的敏感性。
 - 训练速度：封闭式优化使TFN训练时间仅为Prenet的1/3（见表II）。
2. 鲁棒性测试高污染率（ε=0.15）：TFN在“thyroid”“exploits”等数据集上AUC-ROC保持稳定，而iForest性能下降40%（图3）。
 
少标注场景（na=15）：TFN仅需15个标注异常即可达到Prenet使用60个标注的精度（图4）。
 
3. 可解释性案例以“donors”数据集为例：
 - 样本1：隶属度u4=0.984（异常原型m4），特征f1（教师推荐标记）差异导致异常得分微调（图5b）。
 - 样本2：虽隶属u3=0.425（异常原型m3），但因f1=0被判定为正常（图5d），符合领域逻辑。
研究结论与价值科学价值
 1. 理论创新：首次将模糊逻辑与ICR结合，解决WSAD中的不确定性建模与标注效率问题。
 2. 方法普适性：TFN无需概率假设（如DevNet的高斯先验），适用于复杂异常模式（如聚集性异常）。
应用价值
 1. 工业场景：适合标注成本高的领域（如医疗、网络安全）。
 2. 开源贡献：代码发布于GitHub（https://github.com/lflfdxfn/tfn）。
研究亮点双模糊架构：通过模糊规则提取原型，增强对小样本的利用率。
 
ICR正则化：无需梯度计算的低密度分离策略，提升泛化性。
 
封闭式优化：突破深度模型依赖梯度下降的局限，训练速度提升3倍。
 
其他发现消融实验（表III）：移除ICR（n-TFN）或改用k-means（k-TFN）均导致性能下降，验证FCM与ICR的必要性。
 
可扩展性（图7）：TFN在百万级数据量下仍保持高效，时间复杂度为O(mtd²)。
 
该研究为弱监督异常检测提供了兼具精度、效率与可解释性的新范式，其方法框架可扩展至其他小样本学习任务。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问