今天分享的文献是一篇biorxiv上公开的预印本“Resistify - A rapid and accurate annotation tool to identify NLRs and study their genomic organisation”,该文章总结了目前用于注释NLR基因的流程,并开发了新工具Resistify,用于高效识别植物NLR基因。
NLR是植物天然免疫系统的重要组成部分,在植物基因组中,NLR具有丰富的变异和序列多样性,从基因组中识别NLR能够帮助我们理解并发现植物抗病性产生机制和来源。
虽然目前已经公开发表了几种工具来预测NLR,但它们的准确性、速度和可用性都很低。Resistify是一种易于使用,快速,准确的工具,用于从蛋白质序列中识别和分类NLR,作者将Resistify应用于RefPlantNLR数据库表明,它可以正确识别各种物种的NLR。
Resistify能够快速鉴定植物基因组中的NLR,并提供准确的结构分类。
https://github.com/SwiftSeal/resistify
背景知识
植物天然免疫系统是植物抗病性的重要组成部分,其中一个关键组成部分是核苷酸结合域富含亮氨酸重复序列(NLR)蛋白。NLR充当细胞内免疫受体,其在检测到病原体衍生因子或其活性后引发免疫应答.自发现以来,已克隆了数百种功能性NLR,并鉴定了许多NLR序列,NLR的丰度及其序列多样性在整个植物界中显示出很大的差异。
NLR多样化的原因之一是转座因子(TE)的增殖,在拟南芥中,高TE插入频率的位点先前已被鉴定为含有NLR,并且表现出升高的种内多样性的NLR与TE非常接近。LTR-反转录转座子在植物基因组中是最多的,并且是基因组扩增的主要因素,辣椒基因组表现出嵌套在LTR-反转录转座子内的NLR的显著扩增,并且这种效应在包括番茄和马铃薯的其他茄科中可见。
NLR结构的中心是高度保守的NB-ARC结构域,其调节蛋白质的活性,其下游是富含亮氨酸重复序列(LRR)结构域,其在配体结合和自身抑制中起作用。NB-ARC结构域的上游是可变的,通常存在CC、RPW8、TIR等结构域。总之,这种模块化结构意味着NLR可以分为不同的分类:CNL,RNL,TNL或NL。
NLR识别工具
由于其保守性和模块化结构,NLR有助于自动识别和分类。到目前为止,已经开发了几种工具来实现该过程,例如DRAGO2, NLGenomeSweeper, NLR-Annotator, RGAugury, RRGPredictor, 和 NLRtracker,RefPlantNLR数据库的开发已经允许这些工具针对功能性表征的NLR的序列进行基准测试。
不同工具的性能不同,NLRtracker是最灵敏准确的。所有工具在鉴定高度保守的TIR、RPW8和NB-ARC结构域方面表现良好,但在预测CC结构域方面通常不太准确,可能是由于CC结构域变化更多且经常被InterProScan遗漏。
除了这些工具之外,还有NLR express,一个用于识别CC、TIR、NB-ARC和LRR的机器学习预测器,虽然NLR express不能直接识别或分类NLR,但它非常适合快速准确地筛选NLR相关基序的大量序列。
当前工具的一个缺点是依赖InterProScan注释信息,InterProScan是一个通用的结构域注释工具。因此,每个输入序列都针对几个数据库进行扫描,每个数据库总共包含超过180,000个蛋白质序列,其中绝大多数与NLR无关,NLR仅代表植物蛋白质组的一部分,导致对非NLR序列的不必要搜索。
所以作者开发了一个新的NLR注释工具Resistify,它克服了当前可用工具的一些限制,准确预测了来自不同植物的NLR序列,并可用于茄科基因组中NLR的泛基因组分析,使用Resistify与EDTA工具结合来研究NLR的基因组及转座子的关联。
RefPlantNLR性能评估
为了评估Resistify的性能,将其应用于RefPlantNLR数据库(包含不同物种已克隆的NLR基因),并与其他工具进行比较,结果发现默认模式下,只有三个RefPlantNLR条目未被Resistify识别。
RefPlantNLR和Resistify分类之间的最大变异来源是29个NLR,其根据RefPlantNLR具有NL结构,但根据Resistify具有CNL结构,这些都属于CNL相关的子类,该分析表明,Resistify在检索规范NLR和准确描述其结构方面具有高灵敏度。
总之,作者认为Resistify在从各种物种中识别典型NLR方面表现良好,在默认模式下,它不会将基因分配为具有极度截短或完全缺失NB-ARC结构域的NLR,因此Resistify基于结构域的分类方法非常适合正确分类NLR,包括具有挑战性的CNL子类型。
Araport11性能评估
为了评估Resistify在注释的基因组中的性能,作者分析了Araport 11的代表性基因模型。Resistify总共确定了166个NLR,其中大多数是TNL和CNL,在CNLs中,25%具有MADA基序,44.4%的NLs和41.2%的TNL具有C-JID结构域,还鉴定了不具有N-末端或LRR结构域的部分NLR。
对这些序列中的基序进行人工检查证实,它们不是由于未能识别这些元件而导致的。大多数NLR携带所有9个保守的NB-ARC基序,成功鉴定了具有少至两个保守NB-ARC基序的NLR,Resistify鉴定的NB-ARC结构域的系统发育树验证了分类正确,并将不明确的NL或N分类序列放置到不同亚群中。
标准化工作流程(NLR泛基因组)
使用Resistify来鉴定新的抗性基因,并进行了泛基因组分析。作者下载了18个茄属基因组,并用标准工作流程进行处理,该工作流程从头预测基因,鉴定直系同源基因,并用Resistify对NLR进行分类,该工作流程还用EDTA预测转座因子,因为最近的分析表明该物种中NLR的大量扩增与LTR转座因子相关。
在所有基因组中总共鉴定了8144个NLR,CNLs是最丰富的NLR分类,有显著扩张的趋势,这与先前的研究结果一致,即携带马铃薯的茄属物种NLR扩增,这种效应与转座子占据的基因组比例无关。
总共确定了38,590个正交群,其中687个(1.8%)包含NLR。正交群的分布显示出泛基因组内core和shell之间的明显划分,其中大多数NLR存在于shell内。这反映了泛基因组的相对较大的丰度,其捕获了属水平上的NLR变化,物种特异性NLR也表现出shell集中趋势,反映了基因组中NLR的高度可变性
作者检查了先前鉴定的茄科NLR直系同源基因在泛基因组中的分布,与先前的发现一致,NRC在泛基因组中保持相对稳定。相比之下,Hero在不结块茎和结块茎的基因组中具有明显的扩张趋势。
以前有报道称,基因组中NLR有18%的比例具有LTR嵌套,这种现象也存在于番茄和马铃薯。为了探索这种效应是否与茄属块茎基因组内NLR的扩增有关,作者重复了类似的分析。
出乎意料的是,该效应不能被复现,并且在所有基因组中,仅5个完整的LTR被鉴定为含有NLR。
相比之下,Helitron相关的NLRs在结块茎的基因组中扩张,所有预测的Helitron都具有预期的5’-TC…CTRR-3’
特征,并且在3'末端具有富含GC的区域。NRC 1是一个典型的例子,可以看出除了在S. tuberosum和S. verrucosum之外,它都以单个拷贝存在。
Resistify原理和方法
Resistify在Python中作为命令行可执行文件实现。首先,Resistify对来自Pfam的HSPs的定制数据库执行输入蛋白质序列的hmm搜索,这些模型用于鉴定CC、RPW8、TIR和NB-ARC结构域。
结构域识别过程
如果相同类型的结构域彼此重叠或在100个氨基酸内,则将它们进行合并。蛋白质最初被分类为属于CNL、RNL、TNL或NL,不具有任何NB-ARC结构域的蛋白质在此阶段被遗弃。
在此之后,用NLR express模型筛选经过滤的含有NB-ARC的蛋白质组的NLR相关基序,然后使用以下逻辑对序列进行重新分类:
- 如果蛋白质属于N类(不具有上游CC、RPW8或TIR结构域),扫描其上游TIR或CC基序,由于基序搜索可能混杂,因此将基序搜索限制在这种条件下可以防止它们干扰非模糊NLR分类。
- 筛选序列中的LxLxxL基序以定义LRR结构域,根据先前的定义,如果四个或更多个LxLxxL基序被鉴定为具有小于75个氨基酸的基序间缺口,则注释LRR结构域。大于75个氨基酸的空位被预测为LRR结构域中的GAP位置,因此LRR注释过程从该位置向前重新开始。
排序并进行分类
然后将结构域按起始位置排序,并形成“域串”,例如,如果排序的域采用TIR、NB-ARC、LRR、C-JID的顺序,则域字符串将是TNLj。或者,具有MADA基序的典型CNL将采取mCNL的形式,在域字符串中搜索子字符串CNL、RNL、TNL或NL,并相应地进行分类。
序列进一步分类的基础上,可以得到它们是否含有N-末端结合的MADA基序或CJID结构域。此外,保守NB-ARC基序出现的次数可以作为NB-ARC完整性的评价指标。
总结
Resistify是一个新的植物NLR识别工具,它为NLR提供了高质量的分类参考。将Resistify应用于RefPlantNLR数据库表明,它可以正确地对各种植物的NLR进行分类,将Resistify应用于茄科基因组,证明了其适用于在大型数据集中研究NLR,揭示了重要的NLR家族正在进行扩张。
参考资料
https://github.com/SwiftSeal/resistify
https://github.com/SwiftSeal/pangenomics