类型a:这篇文档报告了一项原创研究,以下是学术报告内容:
主要作者和机构及发表信息
本文的主要作者包括Wenzhang Ge、Liu Zhang、Xiaolong Li、Chuanshuai Zhang、Mengyao Sun、Dong An 和 Jianwei Wu。其中,Dong An 和 Jianwei Wu 是通讯作者,分别来自中国农业大学信息与电气工程学院(College of Information and Electrical Engineering, China Agricultural University)和国家农业信息技术工程研究中心(National Engineering Research Center for Information Technology in Agriculture)。该研究于2021年9月15日在线发表在期刊《Biosystems Engineering》上。
研究背景
本研究属于农业工程和数据科学交叉领域,旨在通过多模态数据融合技术解决玉米单倍体识别问题。近年来,随着传感器技术的发展,多模态传感器的应用越来越广泛,但如何有效整合这些传感器获取的多源数据成为重要研究课题。流形学习(Manifold Learning)是一种非线性降维方法,能够提取数据的内在结构,因此被应用于多模态数据融合问题。然而,现有方法如交替扩散映射(Alternative Diffusion, AD)在分类任务中存在不足,尤其是在边界模糊的情况下性能下降明显。此外,AD 方法缺乏显式映射,难以扩展到新样本。针对这些问题,本研究提出了一种改进的框架,结合核磁共振(Nuclear Magnetic Resonance, NMR)和近红外光谱(Near Infrared Spectroscopy, NIRS)数据进行玉米单倍体识别,并验证了其有效性。
研究流程
本研究包含以下几个主要步骤:
实验对象与仪器设备
研究使用了两种玉米品种的实验样本,均由国家玉米改良中心提供。第一种是高油诱导产生的“郑单958”(Zhengdan958),第二种是常规诱导产生的“豫单112”(Yudan112)。每种品种各选取100个单倍体和100个二倍体作为实验对象。NMR 数据通过苏州纽迈分析仪器公司生产的 NMI20-015VEI 型 MRI 分析仪采集,NIRS 数据则通过布鲁克公司的傅里叶变换近红外光谱仪(Fourier Transform Near Infrared Spectroscope)采集。
交替扩散算法(AD)
本研究基于交替扩散算法实现多模态数据融合。首先,根据高斯核函数计算每个观测集的权重矩阵 ( W^{(1)} ) 和 ( W^{(2)} ),然后通过归一化得到扩散算子 ( K^{(1)} ) 和 ( K^{(2)} )。接下来,构建交替扩散核 ( K^{(1)\cap(2)} ),并定义扩散距离以衡量样本间的相似性。
核宽度选择方法改进
针对传统自适应核宽度方法(Self-Tuning, ST)在分类任务中的不足,本研究引入了共同近邻(Common-Near-Neighbour, CNN)概念来调整核宽度。对于不同类别的样本点,根据其共同邻居数量动态调整核宽度参数,从而减少类别间扩散的概率。
样本外点处理
为解决样本外点问题,本研究扩展了 Nyström 方法,通过插值公式将低维嵌入结果扩展到新样本,避免重新训练整个模型。
数据分析设置
为了验证改进框架的有效性,研究进行了对比实验。单传感器算法包括主成分分析(PCA)和支持向量机(SVM),多传感器融合算法包括扩散映射(DM)和原始 AD 算法。所有算法均通过交叉验证优化参数,并使用 k 最近邻(KNN)分类器进行分类。
主要结果
1. 高油诱导玉米样本的表现
对于高油诱导的“郑单958”样本,PCA 方法表现良好,NMR 数据的识别率略高于 NIRS 数据。然而,在特征空间中,二倍体样本分布更为紧凑,而单倍体样本分布较为离散,这使得固定核宽度的方法不适用。
常规诱导玉米样本的表现
对于常规诱导的“豫单112”样本,两类样本在特征空间中高度重叠,导致识别率显著下降。DM 方法由于基于马尔可夫随机游走的扩散过程,在边界模糊区域容易加剧类别混淆,性能接近 PCA。
改进框架的表现
在 DADA 框架下,通过利用样本标签信息和 CNN 调整核宽度,成功保留了高维数据点的局部几何特性,并使同类样本更加聚集,异类样本更加分离。对于常规诱导玉米样本,DADA 框架的识别率比其他方法高出约 9%,验证了该框架的有效性。
结论与意义
本研究通过改进交替扩散算法,提出了一种新的数据融合框架(DADA),用于玉米单倍体识别。该框架充分利用了样本标签信息,解决了边界模糊问题,并通过 Nyström 方法扩展了样本外点处理能力。研究结果表明,DADA 框架能够有效提取 NMR 和 NIRS 数据中的共同隐藏变量,同时保留数据的本质结构,从而实现良好的分类效果。
这项研究具有重要的科学价值和应用价值。在科学层面,它为多模态数据融合提供了新思路,特别是在分类任务中边界模糊的情况下表现出色。在应用层面,该方法可以克服单一技术因噪声误差导致的识别问题,为玉米单倍体育种技术提供了高效、非破坏性的解决方案。
研究亮点
1. 提出了基于流形学习的改进交替扩散算法(DADA),解决了传统方法在分类任务中的不足。
2. 引入共同近邻(CNN)概念调整核宽度,提高了边界模糊区域的分类性能。
3. 扩展了 Nyström 方法,解决了样本外点问题,提升了算法的实用性。
4. 首次将 NMR 和 NIRS 数据融合应用于玉米单倍体识别,取得了显著的识别率提升。
其他有价值内容
本研究还讨论了核宽度选择对算法性能的影响,以及 Nyström 插值方法可能带来的误差。这些讨论为进一步优化算法提供了方向。此外,研究团队通过国家重点项目资助完成了这项工作,体现了该领域的研究潜力和实际需求。