利用化学信息学计算方法解析气味-受体相互作用空间以扩展嗅觉编码

分享自：
利用化学信息学计算方法解析气味-受体相互作用空间以扩展嗅觉编码

化学
信息科学
期刊:elifeDOI:10.7554/elife.01120
【点击此处】阅读全文、收藏及针对性提问
关于《通过计算机解码气味-受体化学空间以扩展嗅觉编码》研究的学术报告
本研究由美国加州大学河滨分校的Sean Michael Boyle、Shane McInally以及通讯作者Anandasankar Ray共同完成，研究团队隶属于该校的遗传学、基因组学与生物信息学项目、昆虫学系以及整合基因组生物学研究所。该原创性研究论文于2013年10月1日发表在开放获取的学术期刊《eLife》（卷次：2; 文章编号：e01120）上。
一、 研究背景与目标
本研究属于神经科学，具体为嗅觉神经生物学与计算化学信息学的交叉领域。嗅觉系统，尤其是外周嗅觉系统，能够检测并区分环境中数量极其庞大的挥发性化合物。这一功能依赖于嗅觉感觉神经元（Olfactory Sensory Neurons）上表达的大量气味受体（Odorant Receptors, ORs）。每种气味分子通过与特定受体子集的相互作用，形成一种组合编码（Combinatorial Code），最终被大脑解读为特定的嗅觉感知。
然而，全面解析这种“嗅觉代码”存在两大瓶颈：第一，自然界中潜在的挥发性化学物质空间（Chemical Space）极其巨大（仅植物来源就已超过2000种），能够通过实验系统测试其活性的气味分子比例极低；第二，已通过实验测试的气味受体数量占受体总库的比例也很小。传统的电生理或钙成像筛选方法耗时、昂贵且通量有限。例如，在果蝇（Drosophila melanogaster）这一重要的嗅觉研究模型中，此前十余年的研究仅积累了大约250种已知的激活气味分子。
为了克服这一挑战，本研究团队旨在开发一种基于化学信息学（Cheminformatics）的计算预测方法。其核心目标是：利用有限的已知受体-气味分子相互作用实验数据（训练集），建立计算模型，从而高效地从包含超过24万种化合物的巨大化学空间中，预测特定气味受体的新型配体（包括激活剂和抑制剂）。这不仅能够极大地扩展已知的嗅觉受体配体库，为理解嗅觉编码提供系统层面的视角，也为发现新型昆虫引诱剂或驱避剂等应用研究提供了强有力的工具。
二、 研究详细工作流程
研究流程可概括为以下几个关键步骤：
步骤一：数据准备与化学描述符计算 研究团队首先收集并整理了一个核心训练数据集：来自前人研究的24个果蝇触角气味受体对109种气味分子的定量反应数据（Hallem and Carlson, 2006）。这109种气味分子构成了初始的“已知化学空间”。同时，他们构建了两个用于虚拟筛选的化合物库：一个是包含3197种已知天然来源挥发物的“天然气味库”；另一个是从PubChem数据库中筛选出的、分子量小于200且原子组成与已知挥发物类似的超过24万种化合物的“扩展化学库”。
为了量化分子的化学结构特征，研究采用了多种方法计算了这超过24万个化合物的“分子描述符”（Molecular Descriptors）。描述符是用于数值化表征分子结构、物理化学性质或拓扑特征的参数。研究特别测试了四类方法：Cerius2（200个描述符）、Dragon（3224个描述符）、最大公共子结构（Maximum-Common-Substructure, MCS）和原子对（Atom-Pair, AP）。所有化合物的三维构象均使用Omega2软件包进行预测和优化，以便计算与三维结构相关的描述符。
步骤二：为单个气味受体优化分子描述符子集 这是本研究的创新核心。研究团队没有直接使用全部描述符，而是提出了一种“受体特异性优化”策略。他们意识到，不同的气味受体识别不同的配体子集，因此，对每个受体而言，并非所有描述符都与其配体识别相关。为此，他们采用了顺序前向选择（Sequential-Forward-Selection, SFS）算法。
具体流程如下：对于每一个果蝇气味受体（共有19个受体符合分析条件），算法从初始的3424个描述符（Dragon + Cerius2）集合开始迭代。在每次迭代中，算法评估将当前未选中的任一描述符加入到已选描述符集中后，新描述符集计算得到的化合物间距离矩阵，与基于已知配体活性数据（大于50 spikes/s定义为激活剂）构建的化合物间活性距离矩阵之间的相关性。选择能够最大程度提升相关性的那个描述符加入集合。此过程反复进行，直到添加任何新描述符都无法进一步提高相关性为止。最终，为每个受体获得了一个独特的、经过优化的分子描述符子集（平均每个受体约30个描述符）。
分析发现，这些优化描述符子集在受体间重叠度很低（平均仅13%），且绝大多数为二维（2D）和三维（3D）描述符，强调了分子形状特征在受体-气味相互作用中的重要性。
步骤三：计算验证优化描述符集的预测能力 在用于实际预测之前，研究通过计算交叉验证评估了该方法的可靠性。对于12个拥有足够已知强效配体的受体，他们进行了五次独立的五折交叉验证。每次验证时，将109种训练气味中的20%作为测试集隐藏，用剩余的80%进行上述的受体特异性描述符优化。然后，使用优化得到的描述符集，预测测试集化合物与已知激活剂在化学空间中的距离，并根据距离排序。通过接收者操作特征曲线（Receiver-Operating-Characteristic, ROC）分析评估预测的准确性。结果显示，平均曲线下面积（Area Under the Curve, AUC）达到0.815，表明该方法具有强大的预测新型配体的潜力。
步骤四：大规模虚拟筛选预测新型配体 在验证了方法的有效性后，研究团队使用每个受体的优化描述符子集，对整个超过24万种化合物的化学库进行了虚拟筛选。对于每个受体，计算库中每个化合物与其已知最强激活剂（基于训练集数据）在优化描述符空间中的距离。然后，根据距离由近到远对所有化合物进行排序。对于每个受体，他们选取了距离最近的500个化合物（约占总库的0.2%）作为“顶级预测配体”。
步骤五：电生理学实验验证预测结果 为了在功能上验证计算机预测的准确性，研究团队从9个选定的果蝇气味受体（OR7a， OR10a， OR22a， OR47a， OR49b， OR59b， OR85a， OR85b， OR98a）的“顶级预测配体”列表中，选择了141种商业可得、高纯度的气味分子进行实验测试。他们使用单单位点细胞外记录（Single-unit electrophysiology）技术，在果蝇触角上记录表达这些受体的特定嗅觉感觉神经元的电活动。每种预测的配体都以标准浓度（10^-2稀释度）进行刺激，并记录神经元的反应。
步骤六：特异性分析与系统级探索 除了验证预测的激活反应，研究还测试了预测配体对非目标受体的交叉激活情况（作为假阳性率评估），并分析了预测配体的来源（如植物、昆虫等）。此外，他们还利用优化描述符集，计算了所有受体的预测配体分布频率，以估计每个受体在巨大化学空间中的理论识别广度，并构建了受体-气味相互作用的预测网络图。
三、 主要研究结果
优化描述符方法的有效性得到计算验证：交叉验证的ROC分析（AUC=0.815）和累积活性百分比（Accumulative-Percentage-of-Actives, APOA）分析均表明，受体优化描述符方法在聚类已知激活剂和预测新配体方面，显著优于使用全部描述符或其他非优化方法。对109种训练气味的聚类分析也显示，每个受体的已知激活剂在其特定的优化描述符空间中紧密聚集。
电生理验证证实高预测成功率：对9个受体的141对预测受体-气味相互作用的电生理测试表明，总体成功率（定义为引发激活或抑制反应）高达约71%。其中，58%的预测化合物是激活剂（反应>50 spikes/s），37%是强激活剂（>100 spikes/s）。特别值得注意的是，约13%的预测化合物表现为抑制剂（反向激动剂，基线活性降低>50%），这表明该方法不仅能发现激活剂，还能发现结构相似但功能相反的配体。作为对比，随机测试非预测化合物（作为阴性对照）的激活率仅为10%，凸显了该方法的特异性。
成功扩展了多个受体的配体谱：实验为所有9个测试受体都发现了新的激活剂和/或抑制剂，显著扩展了这些受体的已知配体范围。例如，OR7a， OR22a， OR59b， OR85a， OR85b和OR98a的预测验证成功率超过85%。研究还发现，激活剂分子的平均蒸气压远高于非活性分子，提示部分预测失败可能与化合物挥发性不足有关。
预测具有高度特异性：在504对非目标受体-气味组合的测试中，仅有10%引发了超过50 spikes/s的激活反应，表明预测的配体主要针对其目标受体，交叉激活率较低。此外，激活的可能性与化合物在预测排名中的位置高度相关：排名越靠前（距离已知激活剂越近），被验证为激活剂的概率越高。
揭示了受体配体识别与系统编码的新见解：
描述符与序列和活性的关系：通过聚类分析比较基于优化描述符、已知配体活性、预测配体重叠度以及受体氨基酸序列的系统发育树，研究发现优化描述符树与已知活性树的关联性最强，而与系统发育树的关联较弱。这表明受体识别的化学特征（由优化描述符反映）与其进化亲缘关系不完全一致，更多由配体结合特异性决定。
对嗅觉编码模型的启示：对预测的天然配体库分析发现，许多天然气味分子（在低浓度下）可能仅被少数几个受体检测到，这与普遍认为的“大多数气味通过组合多个受体来编码”的观点有所补充。研究数据支持一种整合模型：大部分气味由少数受体特异性检测以保证编码容量，而部分重要气味（可能在高浓度下）会激活大量受体以实现精细的浓度区分。
四、 研究结论与意义
本研究成功开发并验证了一种高效的化学信息学流水线（Pipeline），能够利用有限的实验数据，大规模预测气味受体的新型配体。该方法将已知的果蝇外周嗅觉受体配体空间扩展了数个数量级（从约250个到预测超过10，000个新的配体相互作用），为系统水平上研究嗅觉编码提供了前所未有的资源。
其科学价值在于： 1. 方法论创新：首次系统地将受体特异性的分子描述符优化与大规模虚拟筛选相结合，应用于嗅觉研究，为解决“化学空间巨大”与“实验通量有限”之间的矛盾提供了切实可行的计算方案。 2. 知识扩展：极大地丰富了果蝇气味受体的配体谱，使得研究受体调谐广度（Breadth of Tuning）、配体结构-活性关系、以及嗅觉编码的进化等问题成为可能。 3. 理论深化：研究结果对经典的“组合编码”模型进行了重要补充，提出了嗅觉编码可能整合了“少数受体特异性检测”和“多受体广泛检测”两种策略，以平衡检测特异性和对重要信号的浓度分辨能力。
其应用潜力包括： 1. 工具开发：可用于理性设计新型昆虫行为调控剂，如针对传播疾病或危害农作物的昆虫的驱避剂或引诱剂。 2. 跨物种研究：该流水线可推广至其他已解码部分受体功能的昆虫（如蚊子）乃至脊椎动物（如小鼠、人类）的嗅觉系统研究。 3. 工业应用：在香料和风味工业中，有助于发现新型的气味活性分子。
五、 研究亮点
高成功率与特异性：通过实验验证的~71%的总体预测成功率是本研究的核心亮点，远高于此前类似尝试的预测成功率，证明了方法的可靠性和强大预测能力。
受体特异性的描述符优化策略：创新性地为每个受体定制化学描述符子集，而非使用通用集合，这是实现高预测精度的关键。
同步发现激活剂与抑制剂：方法不仅能预测激活剂，还能有效预测结构相似的反向激动剂（抑制剂），这为研究受体抑制机制和开发行为阻断剂打开了新途径。
系统级的数据产出：研究不仅提供了具体的新配体，更产出了一个涵盖大量受体、面向巨大化学空间的预测性外周嗅觉编码图谱，这是一个可用于后续深入挖掘的宝贵数据资源。
交叉学科的成功典范：研究完美融合了计算化学、生物信息学、神经生物学和电生理学，是跨学科方法解决复杂生物学问题的优秀案例。
六、 其他有价值的内容
研究也坦诚地指出了当前方法的局限和未来方向：例如，未能成功区分激活剂和抑制剂的描述符特征，可能源于训练集中抑制剂数据不足；方法本质上是保守的，主要寻找与已知配体结构相似的分子，可能遗漏具有全新骨架的配体；未来可以引入机器学习方法（如支持向量机）或更复杂的描述符选择算法（如顺序浮动搜索）以进一步提升性能。这些反思为后续研究指明了改进空间。此外，文中提供的补充文件包含了每个受体的优化描述符列表和顶级预测化合物信息，具有很高的参考价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问