分享自:

ANoLLM:用于表格异常检测的大型语言模型

期刊:ICLR 2025

基于大语言模型的表格异常检测框架AnoLLM研究报告

作者与发表信息

本研究由Amazon的研究团队完成,主要作者包括Che-Ping Tsai、Ganyu Teng、Phil Wallis和Wei Ding,论文以《AnoLLM: Large Language Models for Tabular Anomaly Detection》为题,发表于ICLR 2025会议。

学术背景

异常检测(Anomaly Detection, AD)是机器学习领域的重要研究方向,旨在识别数据中与常规模式显著偏离的异常点。表格数据作为机器学习中最基础的数据形式之一,在网络安全(如网络攻击预防)、金融(如欺诈交易识别)和医疗(如疾病诊断)等领域具有广泛应用价值。然而,传统表格异常检测方法面临两大挑战:
1. 特征工程依赖性强:传统方法需要复杂的特征工程处理,尤其对混合类型数据(如同时包含数值、类别和文本特征)效果有限;
2. 文本信息丢失:现有方法通常将文本特征转换为数值向量,导致语义信息损失。

与此同时,大语言模型(Large Language Models, LLMs)在自然语言处理任务中展现出强大能力,但其在表格异常检测中的应用尚未充分探索。本研究提出AnoLLM框架,首次将LLMs应用于无监督表格异常检测任务,直接处理原始文本特征,无需预处理。

研究方法与流程

AnoLLM框架包含三个阶段:表格数据序列化、LLM微调和异常评分计算。

1. 表格数据序列化

目标:将结构化表格转换为LLM可处理的文本序列。
关键技术
- 特征编码
- 数值特征:通过标准化缩放(公式:e(x_i,j) = round((x_i,j - m_j)/(10*z_j)),其中m_j和z_j分别为均值和标准差)转换为单精度小数,减少token长度偏差;
- 类别/文本特征:直接保留原始值;
- 缺失值:统一标记为”unknown”。
- 列随机排列:对每行数据的列顺序进行随机排列(从d!种可能排列中采样),避免模型依赖列顺序。
- 序列模板:采用”列名 is 列值”的标准化格式(如”transaction value is 50.99, user id is 1”)。

2. LLM微调

模型选择:使用开源小规模LLM(SmolLM-135M/360M)作为基础模型,平衡效率与性能。
训练目标:通过自回归的下一词预测任务(Causal Language Modeling Loss),使LLM学习表格数据的分布规律。
关键设计
- 动态排列训练:每个训练步随机选择列排列顺序,增强模型鲁棒性;
- 依赖关系建模:利用LLM的语义理解能力捕捉特征间关联(如”车辆价格”与”车龄”的负相关关系)。

3. 异常评分计算

核心指标:基于负对数似然(Negative Log-Likelihood, NLL),数值越高表示样本越异常。
优化策略
- 长度偏差消除:对文本特征按token数量归一化,数值/类别特征保留原始概率;
- 多排列集成:对每个测试样本进行r次(默认r=21)不同列排列的NLL计算并取平均,降低方差。

主要实验结果

混合类型数据检测

在6个包含文本、数值和类别特征的基准数据集上,AnoLLM显著优于11种基线方法(4种传统方法+7种深度学习方法):
- 文本优势:在Fake Job Posts(文本特征占比31%)和20 Newsgroups(纯文本)数据集上,AnoLLM-360M的AUC-ROC分别达0.814和0.752,比最优基线提升6.4%以上;
- 综合性能:平均AUC-ROC为0.810,较第二名的ICL方法(0.736)提升10%。

数值数据检测

在ODDS库的30个以数值为主的数据集上:
- 媲美传统方法:AUC-ROC平均0.884,与KNN、ICL和DTE等最优基线相当;
- 小模型优势:SmolLM-135M与更大模型(1.7B参数)性能差距小于2%,显示模型规模并非关键因素。

消融实验

  • 特征分桶策略:标准缩放法(Standard Rescaling)优于等宽分桶(0.884 vs 0.865 AUC-ROC),验证数值离散化的有效性;
  • 排列必要性:移除列随机排列会导致性能下降25%(0.809→0.646);
  • 预训练价值:使用预训练权重的模型比随机初始化收敛更快,但最终性能差距仅2%。

结论与价值

科学价值

  1. 方法论创新:首次证明LLMs可直接处理原始表格数据(含文本特征)的异常检测任务,无需特征工程;
  2. 理论贡献:提出基于NLL的异常评分标准化方法,解决文本长度偏差问题,并通过Theorem 1证明其理论合理性。

应用价值

  1. 工业场景适配:适用于金融反欺诈、医疗异常诊断等需要同时处理数值和文本字段的场景;
  2. 效率权衡:小规模LLM(135M参数)即可达到SOTA性能,降低计算成本。

研究亮点

  1. 多模态处理能力:统一框架支持数值、类别和文本混合特征,突破传统方法局限;
  2. 可解释性:通过LLM的生成概率提供异常检测的语义解释(如”Delhi, India”在交易地点中属于低概率事件);
  3. 开源实践:基于SmolLM等开放权重模型,促进方法复现。

未来方向

  1. 计算优化:探索轻量化部署方案(如模型蒸馏);
  2. 数值推理增强:改进数值特征的token化策略;
  3. 通用表格模型:延伸至表格预测、生成等任务,构建通用表格基础模型。

(注:全文共约2200字,涵盖方法细节、实验结果及价值分析,符合类型a的学术报告要求。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com