一作解读|Mol Plant中国农大小麦研究中心提出泛基因组时代同源基因推断新策略并构建小麦族同源基...
2020年9月23日,中国农业大学农学院小麦研究中心郭伟龙副教授作为通讯作者在Molecular Plant在线发表了题为“A Collinearity-incorporating Homology Inference Strategy for Connecting Emerging Assemblies in Triticeae Tribe as a Pilot Practice in the Plant Pangenomic Era”的研究论文。通过融合序列相似性和基因共线性信息开发了适用于植物泛基因组时代同源基因推断的新策略(GeneTribe),并构建了以小麦族物种为核心的“小麦族同源基因数据库”(Triticeae-GeneTribe, http://wheat.cau.edu.cn/TGT/)。基于小麦族物种基因组间和亚基因组间的共线性分析,该研究提出了六倍体普通小麦的“4A-5A-7B染色体重排”是两次染色体易位事件的结果,并明确了重排的基因组区间的精细边界;同时研究了春化基因Vrn2的复杂进化历史,提出Vrn2同源基因在普通小麦基因组中的复杂分布是包含串联重复、多倍化、染色体易位和基因丢失在内的一系列事件叠加的结果。该工作为泛基因组时代的植物比较基因组学研究和功能基因挖掘提供了新思路。
近年来,随着多种测序技术的结合和分析策略的进步,越来越多的物种完成了高质量基因组参考序列的组装。植物中许多物种已经从“一个物种,一个基因组”的时代进入了“一个物种,多个基因组”的“泛基因组时代”(pan-genomicera)。特别是如小麦、玉米和水稻等主要作物,在近缘种、亚种、个体水平都已经完成多个参考基因组的组装和基因的注释。在泛基因组时代,如何整合诸多的参考基因组信息并将这些宝贵的数据利用起来,是我们目前面临的新挑战。
我们开发了GeneTribe (https://chenym1.github.io/genetribe/)工具用于同源关系的推断,既考虑了复杂的基因组间的层级关系,也针对富集异源多倍体的小麦族物种的复杂的网状进化关系进行了特殊设计;通过综合共线性分数和序列相似性分数进行动态加权优化,并引入基因注释质量等因素进行罚分质控,形成可动态适用于不同进化距离的基因组之间的同源基因推断策略(图1)。通过和传统仅基于序列相似性的同源推断方法进行综合评估,GeneTribe具有更好的准确率和检测效率。
考虑到同源基因分析中“直系同源”、“旁系同源”等经典概念的定义具有不可传递性,且应用于遗传距离较近的基因组间的研究时容易出现“歧义”,该工作提出了包含四类同源基因表格的基础数据结构方案(图1)。该方案既可满足不同比较基因组学分析的需要,也使得在新基因组不断涌现的常态下更易及时扩展;同时也支持“传递性同源推断”,可降低未来更大规模的基因组的同源基因数据库的构建和维护的复杂度。
图1.同源关系推断工具GeneTribe的原理示意图和TGT数据库的设计架构
小麦族(TriticeaeTribe)的物种中包含了普通小麦(Triticumaestivum, BBAADD)、硬粒小麦(Triticumtrugium, BBAA)、大麦(Hordeumvulgare, HH)等重要经济作物;其基因组普遍较大,重复序列比例高,富集不同倍型的异源多倍体物种,具有复杂的物种进化历史。本研究整合了目前已经发表的12个小麦族物种参考基因组和3个外群基因组(水稻、玉米和拟南芥),借助GeneTribe算法搭建了“小麦族同源基因数据库”——Triticeae-GeneTribe(http://wheat.cau.edu.cn/TGT/),可满足同源基因查询、序列分析、基因注释查询等分析,也支持基于同源基因映射的GeneOntology富集分析、宏共线性(macrocollinearity)和微共线性(microcollinearity)等创新分析功能,并提供了灵活的可视化和数据下载支持;为相关领域的研究者提供了功能丰富的同源基因大数据分析平台(图2)。
图2.TGT数据库的主要分析和可视化功能展示
在宏观尺度上,通过对小麦多个物种间的染色体共线性区间进行综合分析,对普通小麦中4A-5A-7B染色体的重排区间进行了精确定位和溯源分析,解析了该复杂易位关系的形成过程,提出了包含两次主要易位事件的重排模型(图3)。
图3.经过两次主要易位事件形成普通小麦的4A-5A-7B染色体重排区间的模型
在微观尺度上,TGT数据库可为研究基因重复、基因丢失、基因簇扩张等提供丰富的信息。以著名的小麦春化基因Vrn2为例,本研究指出其在六倍体小麦中的“奇怪”位置和拷贝数多态性是伴随小麦进化过程中出现的易位、复制、多倍化和丢失的进化事件的叠加结果(图4)。
图4.小麦春化基因Vrn2的同源基因的基因进化模型
随着越来越多高质量基因组的完成,针对特定物种或者特定领域构建同源数据库将成为趋势,这也有利于更及时的数据更新和更专业的数据库维护。本研究提出的同源基因推断策略可为其它植物物种(特别是多倍体植物)在泛基因组时代进行多基因组数据整合和比较基因组研究提供新的参考方案。
中国农业大学农学院小麦研究中心(http://wheat.cau.edu.cn)的郭伟龙副教授(http://guoweilong.github.io)为该论文的通讯作者,博士研究生陈永明为第一作者。小麦研究中心已毕业硕士宋皖君、硕士研究生谢小明(参与时为本科生)、博士研究生王梓豪,博士后关攀峰为共同作者。中国农业大学小麦研究中心孙其信教授、倪中福教授、彭惠茹教授和中国科学院植物研究所焦远年研究员对该工作进行了指导和帮助。该工作得到了国家自然科学基金(31991210和31701415)项目的资助。
图5.中国农业大学农学院小麦研究中心团队
感谢余阔海、秦震、杨正钊、王小波等同学提供技术支持。感谢中国农业大学农学院小麦研究中心的百余位师生在该数据库的设计、开发和试用阶段提出的宝贵建议!期待各位同行的宝贵建议和使用反馈!
一作心声:
至今年长穗偃麦草的参考基因组序列公布,小麦族已经公开发表了接近10个染色体水平的参考基因组序列,而未来10 genome等项目也将公布,小麦的研究已经进入了泛基因组时代,这些基因组都是在2017年,也就是我刚本科毕业之后发表的,我们赶上了一个好时代。小麦族内部物种数目多,错综复杂,而之前的数据库不支持或不适合于小麦族同源基因分析,将小麦族中海量的数据联系起来,建立一个我们自己的数据库来帮助基因功能的挖掘尤为重要。项目诞生之初是为满足小麦研究中心的师生们查询小麦基因对应其他物种的同源基因和注释信息的需求,已毕业硕士宋皖君进行了初期同源基因鉴定方法的探索,后来项目交到了我手上。在项目进行了一段时间后,在去年烟台举办的第十届全国小麦基因组学及分子育种大会提交了该工作的墙报和摘要,虽然还只处在初步阶段,但在墙报交流过程中不少前辈和研究生对该工作表达出了兴趣,让我们更加有信心和动力来把这个工作做好。工作进行并不一帆风顺,中间遇到了很多困难,在尝试了许多此方法后才有了现在的版本。在数据库开发过程中,我们决定投稿,让数据库能帮助到更多的研究者。
特别感谢郭译文同学的陪伴和鼓励。
最后,我们欢迎同行、专家、朋友为数据库的提供建议和反馈。
(联系方式:chen_yongming@126.com)
原文链接:
https://doi.org/10.1016/j.molp.2020.09.019
小麦族多组学网站:http://202.194.139.32