这篇文档属于类型a,即报告了一项原创性的研究。以下是关于该研究的学术报告:
一、研究团队及发表信息
该研究由Xiaozhi Wang、Hailong Wu*、Tong Wang*(通讯作者)、Yao Chen等研究者共同完成,团队成员来自湖南大学化学化工学院的化学生物传感与计量学国家重点实验室。研究成果发表在Analytical Chemistry期刊(2025年,第97卷,第1992-2002页),标题为《nirfluor: a deep learning platform for rapid screening of small molecule near-infrared fluorophores with desired optical properties》。
二、学术背景与研究目标
研究领域为近红外(Near-Infrared, NIR)荧光探针的设计与开发。NIR荧光染料因其组织穿透能力强、自发荧光干扰低、信噪比高等优势,在疾病诊断和活体成像中具有重要应用价值。然而,传统NIR荧光团的设计依赖专家经验,实验验证周期长、成本高。现有理论预测方法(如密度泛函理论)计算成本高且普适性有限。因此,该研究旨在开发一个深度学习平台(nirfluor),通过结合大数据与算法模型,快速筛选具有目标光学性质的NIR荧光小分子。
三、研究流程与方法
1. 数据收集与预处理
- 数据集构建:从文献中收集5179个NIR荧光分子和5179个非NIR分子,涵盖2940种独特结构(如菁类cyanine、氟化硼二吡咯BODIPY、方酸菁squaraine等)和168种溶剂。
- 特征工程:提出混合指纹(hybrid fingerprints),包括:
- 摩根指纹(Morgan fingerprints)(2048维)
- 理化性质(17种)
- 溶剂性质(11种,如溶剂极性ET30、氢键供体/受体能力等)
- 数据标准化:利用RDKit生成SMILES序列(简化分子线性输入规范),并通过“mask”策略处理缺失值。
模型开发
模型验证与解释
平台部署
四、主要研究结果
1. 模型性能:MT-FinGCN在测试集上表现最优,吸收/发射波长预测误差较Deep4Chem降低50%以上(如λabs的RMSE为24.51 nm vs. 52.87 nm)。
2. 可扩展性:模型对混合溶剂的兼容性优于现有平台(如支持PBS缓冲液模拟为水)。
3. 发现新规律:通过可解释性分析,明确电子供体-受体结构对斯托克斯位移的调控作用。
五、结论与价值
1. 科学价值:
- 首次将多任务GCN与混合指纹结合,解决了NIR荧光分子多性质协同预测的难题。
- 公开的5179个NIR分子数据集填补了该领域的数据空白。
2. 应用价值:
- nirfluor平台可缩短荧光分子设计周期,减少实验试错成本。
- 为分析化学家提供结构优化指导(如引入特定官能团以红移波长)。
六、研究亮点
1. 方法创新:MT-FinGCN模型首次实现NIR荧光分子的“端到端”多性质预测。
2. 技术整合:融合图神经网络与化学指纹,提升模型泛化能力。
3. 平台开源:代码(GitHub)与Web平台均公开,推动领域内合作。
七、其他重要内容
- 局限性:模型对未见分子骨架的预测精度不足,需持续扩展数据库。
- 未来方向:计划结合生成模型(如变分自编码器VAE)直接设计新型荧光分子。
这篇报告详细介绍了nirfluor平台的开发流程、技术创新和应用潜力,为NIR荧光探针的理性设计提供了重要工具。