本研究由日本国立农业生物科学研究所分子遗传学部的Hisako Ooka、Shoshi Kikuchi等领衔,联合了长冈技术科学大学、国际科学振兴财团、理化学研究所基因组科学中心、基因组探索研究小组及日立软件工程株式会社等多家机构的科研人员共同完成。研究成果以《Comprehensive analysis of NAC family genes in Oryza sativa and Arabidopsis thaliana》为题,于2003年发表于学术期刊《DNA Research》第10卷第239-247页。
一、 研究背景与目标
NAC转录因子家族是植物特有的、参与多种发育过程和逆境响应的关键调控因子。其名称来源于最初发现并定义该结构域的四个蛋白:矮牵牛(Petunia)的NO APICAL MERISTEM (NAM)以及拟南芥(Arabidopsis thaliana)的ATAF1、ATAF2和CUP-SHAPED COTYLEDON2 (CUC2)。NAC结构域位于蛋白N端,包含A到E五个亚结构域,其中D和E亚域被认为与DNA结合有关。而蛋白的C端区域则具有转录激活区(Transcriptional Activation Region, TAR),负责激活下游基因表达。
尽管此前已有研究报道过个别NAC家族基因,但在全基因组层面对模式植物水稻和拟南芥中该家族进行系统性、全面性的分析尚属空白。随着水稻(单子叶植物模型)和拟南芥(双子叶植物模型)全基因组测序的完成,以及大规模全长cDNA计划的推进(如水稻的KOME计划),为这种全面的比较基因组学研究提供了前所未有的数据基础。本研究旨在: 1. 从水稻全长cDNA数据和拟南芥基因组数据中,系统鉴定并收集所有预测的NAC家族蛋白。 2. 对这些蛋白的NAC结构域进行系统发育和序列比对分析,揭示其分类和进化关系。 3. 分析NAC蛋白C端转录激活区(TAR)的保守基序(motif),探索其结构与功能的关系。 4. 综合以上分析结果,并结合已发表的NAC基因功能数据,推测不同亚组NAC蛋白的潜在功能,特别是与单子叶/双子叶植物特异性相关的功能,为后续的功能研究提供重要的线索和框架。
二、 研究材料与工作流程
本研究是一项基于生物信息学分析的综合性研究,主要工作流程如下:
1. 数据收集与NAC蛋白鉴定: * 数据来源: 研究使用了两个核心数据集。一是来自水稻(Oryza sativa L. ssp. japonica cv. ‘Nipponbare’)的全长cDNA项目(KOME),包含28,469个克隆的预测最长开放阅读框(ORF)。二是来自拟南芥基因组计划(TAIR)的预测蛋白序列数据集,包含28,581条序列。 * 鉴定方法: 使用InterPro(版本3.1)数据库对所有预测蛋白进行结构域扫描。研究者以InterPro中的NAM结构域(IPR003441)为指引进行初步筛选。考虑到已有研究报道NAC结构域包含A-E五个亚域,而D亚域侧翼的E亚域(50个氨基酸)在DNA结合中至关重要,因此研究者将包含这五个亚域的蛋白定义为预测的NAC蛋白。在水稻数据中鉴定出75个预测的NAC蛋白(对应56个非冗余克隆),在拟南芥中鉴定出105个预测的NAC蛋白。它们分别被命名为“ONAC”和“ANAC”。此外,研究还从文献和GenBank中收集了已知的NAC家族蛋白序列用于后续比较分析。
2. NAC结构域的系统发育与分类分析: * 序列比对与建树: 将收集到的所有预测和已知NAC蛋白的NAC结构域序列,使用Clustal X(版本1.81)程序进行多序列比对。基于比对结果,采用邻接法(Neighbor-Joining method)构建系统发育树,并使用1000次重复的bootstrap分析评估分支可靠性。 * 分类: 根据系统发育树的结构和bootstrap支持值,将NAC结构域划分为两大组(Group I 和 Group II)以及多个亚组(subgroup)。亚组的划分依据高bootstrap值(≥800)和至少包含三个成员等标准。 * 序列共识分析: 利用GeneDoc程序,对不同亚组的NAC结构域序列进行量化共识分析,生成各亚组的共有序列,以揭示各亚组在A-E五个亚域上的序列特征和保守性差异。
3. 转录激活区(TAR)保守基序分析: * 区域定义: 将每个NAC蛋白中位于NAC结构域(N端)之后的C端区域定义为转录激活区(TAR)。 * 基序搜寻: 由于TAR序列高度分化且InterPro中没有已知对应结构域,研究者使用MEME程序(版本3.0)在所有预测NAC蛋白的TAR区域中搜寻保守的序列基序(motif)。 * 基序验证与关联: 进一步使用Clustal X对包含特定基序的TAR序列进行比对验证,并将发现的基序与系统发育分析得到的NAC结构域亚组进行关联分析,探究N端结构域分类与C端激活区基序构成之间的关系。
三、 主要研究结果
1. NAC家族是一个庞大的基因家族,且在两个物种中存在差异。 * 本研究在水稻中鉴定出75个(56个非冗余)预测NAC蛋白,在拟南芥中鉴定出105个,远超过此前文献报道的数量(两者合计仅18个)。这证实了NAC家族在植物中是一个庞大的转录因子家族。除OsNAC7外,所有已知的NAC家族成员都能在本次鉴定的ONAC或ANAC中找到对应物。研究发现OsNAC7对应的cDNA克隆(AK102224)因其预测的最长ORF不包含完整的NAM结构域而被遗漏,但通过序列比对发现它与OsNAC7位于同一转录单元,提示可能存在可变剪接等情况,体现了全长cDNA数据对准确基因注释的重要性。
2. NAC结构域可被系统地分为两大组和18个亚组,并显示出序列保守与分化的模式。 * 系统发育分析将所有NAC结构域清晰地分为Group I和Group II两大分支。所有已知功能的NAC蛋白都位于Group I中。Group I可进一步划分为14个亚组,其中包括已知的OsNAC3、ATAF和NAM等亚家族。Group II则主要包含新发现的、功能未知的NAC蛋白,可划分为4个亚组(ANAC001, ONAC003, ONAC001, ANAC063)。 * 序列比对分析揭示了NAC结构域各亚域的保守性差异:亚结构域A、C和D高度保守;而亚结构域B和E则相对多变,尤其在Group II中更为发散。值得注意的是,在Group I的某些亚组(如NAP、ATNAC3、ATAF和OsNAC3)中,E亚域的序列又表现出很强的保守性。 * 研究推断,高度保守的C和D亚域主要承担DNA结合的核心功能。而序列多变的B和E亚域,特别是E亚域,可能与蛋白功能的多样性、发育阶段或组织特异性调控有关,也可能协同D亚域参与DNA结合。
3. 转录激活区(TAR)存在与NAC结构域亚组相关联的保守基序。 * 通过对TAR区域的深入分析,研究者在12个亚组中发现了13个保守的基序(命名为I至XIII)。结果显示,在大多数情况下,属于同一亚组的NAC蛋白共享一个或多个特定的TAR基序。 * 例如,在密切相关的NAM和NAC1亚组中,TAR分别含有基序X(和XI)以及基序IX。在ATAF亚组中,所有成员都含有基序V。而在ATNAC3亚组中则发现了基序III和IV。 * 这一发现表明,NAC蛋白的C端转录激活区虽然整体序列分化较大,但其功能模块(基序)的组成与N端NAC结构域的进化分类(亚组划分)存在强烈的相关性。这暗示NAC蛋白的功能可能由N端DNA结合域(决定靶基因特异性)和C端激活域(决定激活强度或方式)共同决定,两者的结构是协同进化的。研究还发现,与拟南芥WRKY转录因子家族相比,NAC家族的TAR基序组合模式更为简单(通常一个亚组对应一种主要基序),表明其分化可能更早或更具独立性。
四、 研究结论与意义
本研究首次对两种重要的模式植物——水稻和拟南芥中的NAC转录因子家族进行了全面、系统的生物信息学分析,取得了以下主要结论和价值:
五、 研究亮点