学术研究报告:Terokit平台中TeroEnz与TeroMap模块的开发及其在萜类研究中的应用
作者及机构
本研究由中山大学药学院的Nianhang Chen、Rong Zhang、Tao Zeng(并列第一作者)、Xuting Zhang及通讯作者Ruibo Wu*共同完成,成果发表于2023年的*Database*期刊(DOI: https://doi.org/10.1093/database/baad020)。
学术背景
萜类化合物(terpenoids)及其衍生物统称为萜组(terpenome),是天然产物中结构最丰富、生物活性最多样的一类,其生物合成依赖多种酶(如萜类合酶TPS、细胞色素P450单加氧酶、UDP-糖基转移酶UGT等)。尽管萜类在药物、香料、生物燃料等领域应用广泛,但长期以来缺乏一个系统的萜类相关酶数据库,这限制了酶挖掘、代谢工程及新天然产物的发现。
为解决这一问题,研究团队在已开发的萜类化合物数据库TeroMol(含18万种分子)基础上,进一步构建了TeroEnz(萜类酶数据库)和TeroMap(萜类代谢网络可视化模块),并将其整合至Terokit平台(http://terokit.qmclab.com/),旨在为萜类研究提供数据支持与工具集成。
研究流程与方法
数据收集与整合
- 酶数据来源:从UniProt、NCBI RefSeq等公共数据库通过模糊搜索获取萜类相关酶,结合人工注释筛选,最终收录13,462个酶(覆盖2,541个物种和4,293个反应)。
- 反应数据提取:从MetaCyc、KEGG、Rhea等数据库提取萜类相关反应,通过分子指纹匹配反应底物与产物,并与TeroMol中的分子结构关联。
- 结构注释:整合346个实验晶体结构(来自PDB)、2,931个AlphaFold预测结构,并对剩余185个酶进行本地AlphaFold2预测。
分类与功能注释
- 酶分类:按催化反应类型(环化酶、氧化还原酶、转移酶等)和物种来源(细菌、植物、真菌等)分类。
- 关键酶分析:重点标注TPS、P450和UGT,构建系统发育树(如植物P450分为7个clan、26个家族)。
平台开发
- TeroEnz模块:支持按名称、UniProt编号或序列BLAST搜索酶信息,并提供结构可视化工具。
- TeroMap模块:将酶与分子反应构建交互网络(节点为分子,边为反应),支持子网络缩放与路径预测。
- 工具集成:整合了逆向生物合成预测工具BioNavi-NP和基于分子动力学的萜类反应机制预测模块。
主要结果
数据库规模与特征
- TeroEnz是目前最大的萜类酶数据库,涵盖13,462个酶,其中细菌来源占比最高(尤其是转移酶),植物来源的TPS和P450则主要参与单萜、二萜和三萜的合成。
- 功能分布:环化酶集中于单萜/倍半萜,氧化还原酶多见于三萜修饰,转移酶则主导二萜修饰(图2b)。
关键酶的系统发育分析
- 植物P450:71和85 clan是主要家族,其中CYP71参与二萜合成,CYP51/CYP72等催化三萜(图2e)。
- 植物TPS:按底物明确分为Class I(单/倍半萜)和Class II(三萜),且多数来源于被子植物(图2f)。
平台应用案例
- 通过TeroMap可视化青蒿素(artemisinin)和紫杉二烯(taxadiene)的生物合成网络,辅助代谢路径设计。
- 结合BioNavi-NP预测未知萜类的潜在合成路径。
结论与意义
科学价值
- 首次系统整合萜类酶与反应数据,填补了该领域数据库空白。
- 通过多维度分类(功能、物种、结构)和网络可视化,为萜类生物合成机制研究提供新视角。
应用价值
- 代谢工程:加速萜类高产菌株的设计(如青蒿素工程酵母)。
- 新药发现:通过酶-反应关联挖掘活性萜类衍生物。
研究亮点
- 数据全面性:TeroEnz覆盖酶数量远超同类数据库(如植物专用的Terzyme或TRIForce)。
- 方法创新:
- 结合AlphaFold2预测酶结构,弥补实验数据不足。
- TeroMap首次实现萜类代谢网络的动态交互分析。
- 平台集成:Terokit将化合物、酶、反应与计算工具统一,推动萜组学研究从数据挖掘到设计的闭环。
未来方向
团队计划通过用户投稿和定期更新扩充数据,并开发更多预测工具(如酶催化活性优化算法),进一步巩固Terokit作为萜类研究核心平台的地位。
(注:文中图、表及补充材料详见原文,部分术语保留英文以保持专业性。)