本文题为《machine learning-enhanced flavoromics: identifying key aroma compounds and predicting sensory quality in sauce-flavor baijiu》,主要作者包括 Shuai Li、Yueran Han、Li Wang 等,他们分别来自贵州大学(College of Liquor and Food Engineering, Guizhou University)、贵州省发酵工程与生物制药重点实验室(Key Laboratory of Fermentation Engineering and Biological Pharmacy of Guizhou Province)及贵州国泰数字智能白酒有限公司(Guizhou Guotai Digital-Intelligent Liquor Co., Ltd.),共同完成了这项研究。该论文发表在国际期刊《Food Chemistry》上,于 2025 年 2 月正式在线发布。
《食品化学》领域中的“风味组学(flavoromics)”是一种通过化学计量学技术将食品样品的化学组分与其感官属性关联起来的科学方法。近年来,贵州省的酱香型白酒作为一种具有独特风味特征的中国白酒,受到广泛关注。然而,酱香型白酒生产工艺复杂,涉及传统固态多轮次双重发酵技术,并受地域性微生态环境显著影响。这为关键香气化合物的识别及质量评价带来了重大挑战。
传统依赖人工经验的感官质量评估方法存在主观性问题,而风味组学与先进的检测手段结合,可实现香气化合物的高效识别。然而,高维复杂数据的干扰和预测的不确定性仍是风味组学面临的难点。为解决以上问题,研究团队结合风味组学与机器学习的分析优势,首次通过解释性机器学习方法(如 SHAP 模型,Shapley Additive Explanations)来识别酱香型白酒的关键香气化合物及其浓度阈值,进而建立感官质量预测模型。
研究旨在: 1. 解析不同轮次酱香型白酒基酒的感官属性及其影响因素; 2. 基于 GC–MS(气相色谱–质谱联用)、AEDA(香气萃取稀释分析)和 OAV(气味活性值)技术,识别关键香气化合物; 3. 运用机器学习构建感官质量预测模型并解释模型特征; 4. 对优化白酒风味调控及智能化质量评估提供理论依据。
本文研究分为以下五大部分并详细展开:
(1)样本采集与实验材料
酱香型白酒的基酒样本来自位于贵州茅台镇的贵州国泰智能数字白酒有限公司(2024 年生产周期)。研究选取了酱香型白酒的七轮次基酒(编号为 BJ1 至 BJ7),共收集 988 个样本,按照生产周期分别采自 BJ1(161 个)、BJ2(151 个)、BJ3(148 个)等。所有样本储存于 4°C 下进行后续分析,化学试剂包括高纯度标准品(乙酸乙酯、乙酸丁酯等),保证了实验检测的高精度。
(2)感官描述与评估方法
研究建立了针对“粮香”、“酸香”、“酱香”、“窖香”等 6 大感官属性的定量描述分析体系,通过《GB/T 33404–2016》感官评价标准及 ISO11035 的国际标准,选取具备国家级品酒资质的 10 位酱香型白酒评审员进行评估,采用 0–10 的评分系统。感官实验通过随机编码、重复测试及休息间隔设计避免了疲劳和主观偏差的影响。
(3)化学成分分析与香气分子筛选
(a)气相色谱与质谱联用实验:对白酒样本的挥发性化合物进行定量分析;
(b)香气化学活性测定:结合 AEDA 技术,通过稀释分析确定香气贡献因子,并用 OAV 来筛选关键影响化合物。
(4)机器学习模型的构建与评价
共选择 10 种机器学习模型,包括 XGBoost(极端梯度提升模型)、MLP(多层感知机)、随机森林(Random Forest)等,同时结合 K-Means、GMM(高斯混合模型)等聚类算法,通过 SHAP 对模型进行解释性分析,识别影响感官质量的关键香气化合物及其阈值浓度。
(5)统计分析
运用 ANOVA 方差分析评估样本间的显著性差异;相关网络图、热图和主轴坐标分析(PCoA)用于揭示不同发酵轮次样本的香气和感官变化。
(1)不同轮次白酒的感官特性变化
- 酸香:BJ1 和 BJ2 中具有明显的酸香(平均评分 7.5);随着轮次增加,酸香逐渐减弱。
- 酱香:BJ3 至 BJ5 的样本酱香特质显著(平均 6.6)。
- 焦香( caramel): BJ6 和 BJ7 轮次样本中得分最高(平均 6.2),表现出更浓的焦香和棕色糖香。
(2)感官属性与香气化合物之间的相关性
Spearman 相关网络显示:
- 酸性化合物在 BJ1 和 BJ2 中含量最高(38%),主要包括乙酸等有机酸;
- 中轮次的酱香与醇类化合物(如四甲基吡嗪)显著相关;
- 后轮次的焦香由乙烯基呋喃醇等带来的木质及甜香支撑。
(3)风味组学与关键化合物识别
通过 AEDA 技术确认了 18 种关键活性化合物,其中乙酸乙酯(ethyl acetate)、正己酸乙酯(ethyl hexanoate)及苯乙酸乙酯(ethyl phenylacetate)等具有最高的 OAV 值,对白酒感官特性的果香和酸味贡献较大。
(4)机器学习模型的预测表现
- 酸香预测:MLP 模型结合 HCA 聚类,准确率达到 85%。
- 酱香预测:XGBoost 模型性能最佳,准确率达 97%。
- 焦香预测:GMM 结合随机森林的表现最佳,准确率为 84%。
SHAP 解读发现,二乙基琥珀酸酯(diethyl succinate)和四甲基吡嗪(tetramethylpyrazine)是感官分级的关键特征化合物。
该研究首次通过机器学习和风味组学结合,揭示了酱香型白酒的感官特性与化学特性的动态关联。实验不仅为白酒风味调控提供了科学依据,也为传统酿造工业向智能化、数字化转型提供了规范化的路径。
科学价值: 1. 提供了标准化的方法用于识别香气化合物及预测感官质量; 2. 通过数据驱动的方法揭示感官评价的机制及优化措施。
应用价值: 1. 机器学习的引入大幅提升了质量评估效率与精度; 2. 研究成果为白酒调味技术及多样化产品开发提供逻辑依据。
尽管研究涉及多种算法建模及高维数据分析,但在商业化应用中仍需关注模型普适性和实际生产中的数据获取质量。此外,随着消费者口味多样化,对风味定制化的研究将是未来发展的重要方向。