表格数据生成模型的结构学习效果评估

分享自：
表格数据生成模型的结构学习效果评估

期刊:delta workshop (ICLR 2025)
这篇文档属于类型a，是一篇关于表格数据生成模型评估框架的原创性研究论文。以下是针对该研究的学术报告：
作者及机构
 该研究由剑桥大学计算机科学与技术系的Xiangjian Jiang、Nikola Simidjievski（同时隶属于剑桥大学肿瘤学系PBCI）及Mateja Jamnik合作完成，以workshop论文形式发表于ICLR 2025的Delta Workshop。
学术背景
 研究领域为表格数据的生成建模（generative modelling for tabular data）。表格数据因其特征类型和语义的异质性（heterogeneity），与图像、文本等同质模态数据存在本质差异。尽管已有研究尝试将生成模型（如GAN、VAE）迁移至表格领域，但现有评估框架多沿用其他模态的指标（如密度估计、下游任务效用），未能有效衡量生成模型对表格数据结构（如因果依赖关系）的捕捉能力。为此，作者提出TabStruct，首个以结构保真度（structural fidelity）为核心评估维度的基准框架，旨在解决以下问题：
 1. 现有评估忽略表格数据的结构性信息；
 2. 传统指标（如下游任务性能）存在偏差；
 3. 模型覆盖范围有限。
研究流程
 1. 框架设计
 - 核心维度：
 - 结构保真度：通过对比真实数据与合成数据的条件独立关系（conditional independence relationships），量化因果结构对齐程度。采用CPDAG（Completed Partially Directed Acyclic Graphs）表示马尔可夫等价类，避免因果方向识别偏差。
 - 传统维度：保留密度估计（shape/trend、α-precision/β-recall）、下游效用（分类/回归任务）、隐私保护（DCRAuthenticity）指标。
 - 创新方法：提出局部独立性（local independence）与全局独立性（global independence）双粒度评估，分别针对目标变量相关特征和全特征集的条件独立关系。
数据构建
数据集：选用7个专家验证的结构因果模型（SCMs）生成的数据集（4分类+3回归），覆盖小（<20节点）、中（20-50节点）、大（>50节点）三种规模。
 
预处理：缺失值填充（数值特征均值/分类特征众数）、Z-score标准化（数值特征）、独热编码（分类特征）。
 
模型评估
生成模型：涵盖8类方法（如SMOTE、贝叶斯网络BN、VAE变体TVAE/Goggle、GAN变体CTGAN、标准化流NFlow、扩散模型TabDDPM、树模型ARF、大语言模型GREAT）。
 
实验设置：
 数据划分：80%训练集（其中90%用于生成模型训练，10%验证）→20%测试集，重复10次。
 
合成数据量：设定为参考数据的3倍（nsyn=3nref），经预实验验证为饱和点。
 
指标计算：采用ADTM（Average Distance to Minimum）归一化聚合结果，下游任务性能取6种预测器（LR、KNN、MLP、RF、XGBoost、TabPFN）的平均值。
 
数据分析
通过条件独立性检验（分类数据：卡方检验；数值数据：偏相关；混合数据：残差法）量化结构保真度，显著性水平p=0.01。
 
对比各模型在四维度的表现，分析指标间相关性（如下游效用与局部独立性的强相关性）。
 
主要结果
 1. 结构保真度的普遍挑战
 - 所有生成模型与真实数据（dref）的结构保真度存在显著差距。例如，分类任务中最佳局部独立性（SMOTE：74.02%）仍低于dref 25%以上，全局独立性差距更大（35%）。
 - 贝叶斯网络（BN）虽在结构学习上有优势，但因SCM假设限制（如因果马尔可夫性），全局独立性仍差50%以上。
传统指标的局限性
下游效用与局部独立性高度相关（r=0.90），但与全局独立性弱相关（r=0.57），表明模型可能仅优化目标相关结构而忽略全局依赖。
 
SMOTE虽在下游任务表现最佳，但隐私泄露风险最高（DCRAuthenticity评分最低）。
 
模型对比
简单模型优势：TVAE在全局独立性上表现优异（分类任务排名前三），显示VAE在捕捉特征关系上的潜力。
 
复杂模型瓶颈：扩散模型TabDDPM在下游任务领先，但结构保真度最低（全局独立性仅10.20%）。
 
结论与价值
 1. 科学意义
 - 揭示现有表格生成模型在结构学习上的不足，提出结构保真度作为核心评估维度，弥补传统指标偏差。
 - 证实因果结构作为表格数据先验的有效性（参考TabPFN的预训练机制）。
应用价值
 开源框架：发布TabStruct代码库（GitHub），支持标准化评估。
 
实践指导：建议根据任务需求选择模型（如BN适合因果推断，TabDDPM适合下游任务）。
 
研究亮点
 1. 创新性评估维度：首次将因果结构对齐纳入表格生成模型评估，提出双粒度量化方法。
 2. 全面性：覆盖8类生成模型、7个多领域数据集，实验规模达3万次评估。
 3. 可复现性：公开数据预处理、实验配置及分析代码。
其他价值
 - 为未来研究指明方向：需开发无需真实因果图的评估方法，以扩展至更广泛的实际数据。
此报告系统梳理了研究的背景、方法、结果与贡献，为相关领域研究者提供了全面的参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问