本文旨在向国内科研工作者介绍一篇发表于国际期刊《computers and electronics in agriculture》的研究论文。该论文题为《Discriminant analysis and comparison of corn seed vigor based on multiband spectrum》,由来自中国农业大学(China Agricultural University)工学院、国家农产品加工技术装备研发中心的王雅丽(Yali Wang)、彭彦昆(Yankun Peng)*、乔鑫(Xin Qiao)、庄奇斌(Qibin Zhuang)共同完成,发表于2021年。
一、 研究背景与目的
本研究隶属于农业工程与食品科学交叉领域,具体聚焦于种子质量快速无损检测技术。种子活力(Seed Vigor)是决定种子发芽潜力和田间表现的关键因素,直接影响作物产量和农业生产效率。传统的种子活力检测方法,如标准发芽试验、生化测试等,虽然准确,但存在操作繁琐、耗时耗力、破坏样本等缺点,难以满足现代大规模、工厂化农业生产的快速检测需求。
近年来,振动光谱技术,特别是可见/近红外光谱(Visible/Near-Infrared Spectroscopy, Vis-NIRS)技术,因其快速、无损、无需试剂等优势,在农业和食品品质检测中展现出巨大潜力。该技术通过测量物质对特定波长光的吸收或反射,反映其内部化学成分(如蛋白质、淀粉、脂肪、水分)的信息,从而间接评估其品质。已有研究将Vis-NIRS技术用于小麦、水稻等谷物损伤检测和纯度分析,但在针对玉米种子活力检测,尤其是系统比较不同光谱波段(Bands)检测效能方面,仍存在研究空间。
因此,本研究的主要目标是:评估利用不同波段(500–1100 nm 和 1000–1850 nm)的可见/近红外光谱技术,结合有效的变量选择算法,对玉米种子活力进行快速、准确、低成本判别分析的可行性。具体研究内容包括:1)比较两种光谱仪对正常种子与两种劣变处理(热损伤和人工老化)种子的判别效果;2)应用竞争性自适应重加权采样法(Competitive Adaptive Reweighted Sampling, CARS)算法筛选特征波长变量,建立优化模型;3)评估基于全波段和特征波段模型在判别精度、数据量和成本方面的差异,为开发低成本、高效率的种子活力检测设备提供理论与技术基础。
二、 详细研究流程与方法
本研究流程严谨,主要分为以下几个步骤:
1. 样品准备与处理 研究选用甜玉米品种“Tuxpenosweet”的种子,共计400粒。首先,随机选取100粒进行标准发芽试验,确认初始发芽率为99%,证明种子原始活力很高。剩余的300粒种子被随机平均分为三组: * 对照组(正常种子):100粒,不做任何处理。 * 人工老化组:100粒,置于40–45°C、100%相对湿度的培养箱中处理10天,模拟长期不良储存条件导致的活力丧失。 * 热损伤组:100粒,采用微波中高火(490 W)加热40秒,重复三次,模拟热损伤导致的活力丧失,且处理确保种子外观无明显变化。
所有处理后的种子均单独编号,以备后续光谱采集和发芽验证。
2. 光谱数据采集 研究构建了一套玉米种子光谱采集平台,核心是两台光谱仪:一台用于采集300-1100 nm波段(Vis-NIRS),一台用于采集1000-1850 nm波段(NIRS)。通过三叉光纤将两台光谱仪与同一光源和计算机连接,确保对同一样品可同时采集两个波段的光谱数据。采集环境保持恒温(约25°C)恒湿以减少干扰。每个种子样本的积分时间和平均次数经过优化设置。采集数据前,光谱仪预热30分钟。最终,对三组共300个样本均采集了其在两个波段范围内的反射光谱。
3. 标准发芽试验验证 光谱采集后,对所有300粒种子按照国际种子检验协会(ISTA)标准进行为期7天的发芽试验。以胚芽长度≥5毫米作为有活力种子的标准。结果显示:对照组发芽率高达99%;人工老化组和热损伤组的发芽率分别仅为2%和5%,且发芽的种子幼苗弱小,被判定为无活力种子。这为后续光谱模型的建立提供了准确的分类标签。
4. 数据分析与建模 本研究采用偏最小二乘判别分析(Partial Least Squares Discriminant Analysis, PLS-DA)作为主要的分类建模方法。数据分析在Matlab R2016b环境中进行。具体流程如下: * 数据分组与建模策略:将数据分为两类判别问题:正常种子 vs. 热损伤种子(标记为NH),以及正常种子 vs. 人工老化种子(标记为NA)。针对每一类问题,分别使用500-1100 nm(标记为I)和1000-1850 nm(标记为II)两个波段的全光谱数据建立PLS-DA模型。建模时,样本按3:1的比例划分为校正集和预测集,通过交叉验证选择最佳潜变量数。 * 特征波长筛选:为了降低数据维度、提高模型效率并识别关键光谱信息,研究引入了竞争性自适应重加权采样法(CARS)这一变量选择算法。该算法模拟“适者生存”原理,通过蒙特卡洛采样、指数衰减函数强制波长淘汰和自适应重加权采样等步骤,从全光谱中迭代筛选出与种子活力最相关的特征波长子集。CARS算法的参数设置包括:蒙特卡洛模拟采样次数为500,采用5折交叉验证确定最终变量数,交叉验证最大潜变量数为5。 * 优化模型建立:利用CARS算法筛选出的特征波长变量,重新建立PLS-DA模型(即CARS-PLS-DA模型),并与基于全波长的PLS-DA模型在判别精度、潜变量数等方面进行比较。
三、 主要研究结果与分析
1. 光谱特征分析 原始光谱图显示,正常种子与两种劣变处理种子的光谱曲线形状相似,但非活力种子的反射率整体高于正常种子,这可能与处理后种子内部成分(如水分、脂肪、蛋白质)含量发生变化有关。光谱中观察到了明显的吸收峰:在500-1100 nm波段,约932 nm处有一个尖锐的吸收峰,主要由种子中水分的强吸收引起。在1000-1850 nm波段,主要吸收峰位于约1000 nm(由N-H和O-H键的倍频引起,代表水和脂肪吸收)、1200 nm附近(C-H键倍频,代表碳水化合物和脂肪)、1400–1500 nm(O-H和N-H键合频,与水和蛋白质相关)以及1700 nm附近(C-H键合频,与脂肪酸相关)。这表明采集的光谱数据包含了丰富的与玉米种子营养成分相关的信息。
2. 基于全光谱的PLS-DA模型判别结果 基于全波长数据建立的四个模型(NH-I, NH-II, NA-I, NA-II)均表现出优异的判别性能。其校正集和交叉验证集的判别准确率均很高(96% 至 100%),且两个数据集的准确率非常接近,表明模型稳定可靠。具体而言,两个波段(I和II)对于两种劣变处理(NH和NA)的判别准确率均超过了95%,且波段II的判别准确率略高于波段I。这可能是因为波段II包含了更多的特征吸收峰,从而蕴含了更丰富的种子成分信息。建模所需的潜变量数很少(2到4个),说明样本量充足,模型泛化能力强。
3. CARS算法筛选特征波长结果 CARS算法成功地从全光谱数据中大幅减少了用于建模的变量数量。对于波段I,NH和NA数据筛选出的特征波长数量分别从1076个减少到43个和18个;对于波段II,则分别从223个减少到12个和6个。分析筛选出的特征波长发现,它们集中在一些具有明确生化意义的波段范围内:在波段I,主要集中于500–550 nm(可见光区,反映颜色差异)、710 nm附近以及900–1100 nm区域;在波段II,则主要集中于1200–1300 nm、1400–1500 nm和1700 nm附近。这些区域恰好对应了之前分析过的水分、蛋白质、脂肪和碳水化合物的特征吸收带,说明筛选出的波长确实代表了与种子活力相关的关键化学成分信息。
4. 基于特征波长的CARS-PLS-DA模型性能 使用筛选出的特征波长建立PLS-DA模型后,取得了与全波长模型相当甚至更优的判别效果。所有基于特征波长的模型的判别准确率都在97%以上,其中NA-II模型仅用6个特征波长就达到了100%的校正集准确率和99.33%的交叉验证准确率。与全波长模型相比,特征波长模型在保证或提升判别准确率的同时,显著降低了建模所需的数据量,提高了计算效率。这证明了利用CARS算法提取有效变量进行种子活力判别的可行性和优越性。
四、 研究结论与价值
本研究的核心结论是:利用可见/近红外光谱技术快速、无损判别玉米种子活力是完全可行的。具体可总结为以下几点: 1. 光谱范围适用性:研究证实,无论是500–1100 nm(Vis-NIRS)还是1000–1850 nm(NIRS)的光谱范围,均可有效区分正常种子与经过热损伤或人工老化处理的低活力种子,判别准确率均超过95%。 2. 模型优化有效性:通过CARS算法筛选特征波长,能够在大幅减少数据量(变量数减少90%以上)的前提下,建立判别准确率与全波长模型相当或更高的简化模型(CARS-PLS-DA)。这为实现快速、低计算成本的在线检测提供了关键技术路径。 3. 成本与精度平衡:虽然两个光谱波段在判别精度上差异不显著,但从成本和设备复杂性考虑,500–1100 nm波段的检测成本远低于1000–1850 nm波段。结合CARS算法筛选出的少量特征波长,可以进一步降低对光谱仪硬件和数据分析技术的要求。 4. 应用前景明确:该研究筛选出了适用于种子活力检测的特征光谱范围及波长点,为后续开发低成本、专用化的玉米种子活力快速检测仪器奠定了坚实的理论基础,并提供了具体的技术方案(如选用特定波段的光谱传感器、基于少量特征波长建立判别模型),有望推动该技术的市场化和推广应用。
五、 研究亮点
本研究的亮点主要体现在以下几个方面: 1. 系统性比较:研究并未局限于单一光谱设备,而是系统性地对比了两种不同波段宽度(覆盖Vis-NIR和部分NIR)的光谱仪在玉米种子活力检测上的性能,为实际应用中的设备选型提供了直接依据。 2. 方法创新性结合:创新性地将CARS变量选择算法与PLS-DA分类模型相结合,用于种子活力判别研究。这种方法不仅实现了高精度判别,更重要的是实现了模型的大幅简化,突出了“数据降维”和“特征提取”在光谱分析中的关键作用,对开发实时、嵌入式检测系统具有重要价值。 3. 明确的成本导向:研究结论明确指出,基于500–1100 nm波段结合特征波长筛选的方案,能够在保证高判别准确率的同时,有效降低测试成本和数据处理量。这种对技术经济性的考量,使研究更具实用价值和产业化前景。 4. 严谨的实验设计:采用两种明确的物理/化学处理(微波热损伤和高温高湿人工老化)模拟不同原因的种子活力丧失,并结合标准发芽试验进行严格验证,确保了光谱模型所关联的“活力”标签具有可靠的生物学意义,增强了研究结论的说服力。
六、 其他有价值内容
本研究还对筛选出的特征波长的生化意义进行了探讨。例如,500-780 nm的可见光波段可用于反映种子颜色的细微差异;900 nm和1100 nm附近的波段分别与C-H键的三级倍频和二级倍频相关;800 nm附近与N-H键的三级倍频相关;750 nm附近与O-H键的三级倍频相关。这些关联性分析将光谱特征与种子内部成分(如碳水化合物、蛋白质、水分)的变化联系起来,为光谱判别模型提供了物理解释,增强了模型的可解释性。这不仅是单纯的数据驱动建模,更是将化学计量学与农业生物学知识相结合的范例。