分享自:

基于置信加权一致性正则化的半监督回归器提升方法

期刊:knowledge-based systemsDOI:10.1016/j.knosys.2025.113319

本文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:


基于置信度加权一致性正则化的半监督回归增强算法研究

一、作者与发表信息

本研究由Liyan LiuLuxuan FengFan Min(通讯作者)共同完成,三位作者均来自中国西南石油大学(Southwest Petroleum University)的计算机科学与软件工程学院、机器学习实验室及人工智能研究所。研究成果发表于期刊《Knowledge-Based Systems》第315卷(2025年),文章编号113319,标题为《Boosting Semi-Supervised Regressor via Confidence-Weighted Consistency Regularization》。

二、学术背景

研究领域:本研究属于机器学习中的半监督回归(Semi-Supervised Regression, SSR)领域,旨在利用少量标注数据和大量未标注数据提升回归模型的性能。

研究动机:传统半监督学习方法(如一致性正则化和伪标签技术)在分类任务中表现优异,但在回归任务中面临挑战。现有增强方法(如AdaBoost和GBDT)依赖弱学习器集成,对噪声敏感且难以并行化。本研究提出BS2C算法(Boosted Semi-Supervised Regressor with Confidence-weighted Consistency Regularization),通过动态调整伪标签权重和融合神经网络与现有SSR模型,解决上述问题。

目标
1. 提升复杂半监督回归器的性能;
2. 通过置信度加权减少噪声影响;
3. 验证算法在多样化数据集上的普适性。

三、研究流程与方法

1. 算法框架设计

BS2C包含三个阶段:
- 阶段1(并行预测):构建一个与现有SSR模型并行的神经网络,通过高斯噪声增强数据生成初始伪标签。
- 阶段2(伪标签筛选):基于置信度(预测值差异范围)选择高可靠性伪标签,动态加权一致性损失。
- 阶段3(损失优化):结合监督损失(标注数据)和一致性损失(未标注数据),采用动态权重函数调整两者比例。

2. 关键技术
  • 动态权重函数:训练初期以监督损失为主,后期逐步增加一致性损失的权重(公式7)。
  • 置信度计算:通过神经网络与基回归器的预测差异衡量伪标签可靠性(公式3-4)。
  • 网络结构:三层全连接神经网络(32-256-32神经元),第二层加入Dropout(比率0.2)以增强泛化性。
3. 实验设计
  • 数据集:15个真实世界数据集(UCI、Delve、StatLib),覆盖物理、生物医学和商业领域,样本量3107~20460。
  • 基回归器:对比5种SSR算法(COREG、SAFER、MSSRA、BHD、S3VR)。
  • 评估指标:均方根误差(RMSE)和决定系数(R²),采用五折交叉验证。

四、主要结果

  1. 性能提升:BS2C在多数数据集上显著降低RMSE(平均降幅7.40%~17.05%)。例如,在Pollen数据集上,BS2C仅用50个标注样本即优于基回归器MSSRA使用400样本的结果(RMSE降低40%以上)。
  2. 鲁棒性:动态权重策略有效平衡了监督与一致性损失,避免模型过度依赖有限标注数据。
  3. 统计显著性:Friedman检验(α=0.05)和Nemenyi事后检验表明,BS2C基于MSSRA的表现最优,且与基回归器差异显著。

五、结论与价值

科学价值
- 提出了一种新型半监督回归增强框架,通过置信度加权和动态损失整合提升模型鲁棒性。
- 验证了神经网络与传统SSR模型协同训练的可行性。

应用价值
- 适用于标注成本高的场景(如医疗、工业监测),可减少对标注数据的依赖。
- 开源代码(GitHub仓库)便于社区复现与扩展。

六、研究亮点

  1. 创新方法:首次将置信度加权与动态一致性正则化结合用于半监督回归。
  2. 普适性:在15个跨领域数据集和5种基回归器上验证有效性。
  3. 可扩展性:框架支持替换基回归器和神经网络结构,适应不同任务需求。

七、其他贡献


(报告总字数:约1500字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com