科研 | Cell:野生大豆与栽培大豆的泛基因组
编译:YQ,编辑:夏甘草、江舜尧。
原创微文,欢迎转发转载。
物种的遗传变异包括插入/缺失变异(PAV)、拷贝数变异(CNV)等,在农作物性状的遗传特性中起重要作用,而泛基因组是研究遗传变异的重要思路,它倾向于构建基因组图形,准确识别基因分型及群体变异。大豆是一种重要的油料和饲料作物,栽培大豆(Glycine max)是从野生大豆(Glycine soja)驯化得来。目前大豆培育超过6万种品种,首个大豆全基因组是Williams 82(Wm82),比较基因组发现野生大豆和栽培大豆有广泛的遗传多样性,不同地理区域的大豆也存在遗传变异,目前中国的两个大豆全基因组是栽培大豆ZH13及野生大豆W05,与Wm82存在大量基因结构变异。
论文ID
原名:Pan-Genome of Wild and Cultivated Soybeans
译名:野生大豆与栽培大豆的泛基因组
期刊:Cell
IF:38.637
发表时间:2020.07
通讯作者:田志喜
通讯作者单位:中国科学院遗传与发育生物学研究所
DOI号:10.1016/j.cell.2020.05.023
实验设计
① 二代测序与系统发育分析。
将2898个样品的二代测序通过参考基因组ZH13拼接,检测基因组内的SNP及Indel,基于SNP构建系统发育树。
② 三代测序。
③ 比较基因组分析。
④ 基因家族分析。
⑤ 转录组分析。
结果
1、26个大豆品种的全基因组分析


表1 26个大豆品种的全基因组注释。
2、核心基因与非必需基因
26个大豆基因组的所有基因分为57492个基因家族,核心基因随样品量的增加而减少,在25个样品时趋于平缓(图2A),因此27个基因组足够用于研究泛基因组。20623个基因家族由核心基因组成,28679个基因家族在25-26个基因组存在(软基因),28679个基因家族在2-24个基因组存在(非必需基因),只在1个基因组存在的定义为特有基因(图2B)。在27个基因组中,特有基因比例49.9%,但在单一基因组中仅占19.1%。(图2C-D)。~77.5%的核心基因和72.1%的软基因编码蛋白质,比例比非必需基因和特有基因高(图2E),而非必需基因的核苷酸多态性和正选择作用高于核心基因(图2F)。这表明核心基因相对非必需基因更保守。GO富集分析表明核心基因富集于发育过程、免疫系统、生殖、细胞组成成分、AP2/WD/WRKY/bZIP转录因子,而特有基因富集于非生物/生物响应基因。KEGG富集分析表明核心基因富集于次生代谢产物的生物合成,非必需基因富集于脂肪酸的生物合成和降解。

图2 大豆品种的核心基因组分析。A:核心基因家族随基因组数量的变化;B:27个基因组个体及总体的核心、软、非必需、特有基因家族数量;C:27个基因组在泛基因组中的存在(红色)及缺失(蓝色)情况;D:27个基因组中各类基因数目;E:各类基因中编码蛋白质(红色)的基因比例;F-G:各类基因的核苷酸多态性及dN/dS(正选择作用)。
3、大豆基因组的序列变异
本研究将26个大豆全基因组与Wm82、ZH13、W05进行比对,共鉴定14604953个SNP和12716823个插入/缺失片段。泛基因组比对的SNP比2898份高通量测序比对的SNP少,但分布模式相似(图3A),且核苷酸多态性位点、正选择作用位点也有相似性,证明了27个大豆基因组的代表性。此外,比较基因组发现723862个大片段插入/缺失,27531个拷贝数变异,21886个基因易位,3120个基因倒位。大部分插入/缺失长度1~2kb,易位长度10~30kb,拷贝数变异2~10倍,说明插入/缺失变异是驱动基因组大小变异的主要因素。比如相比SoyW03,ZH13基因组有1.2Mb的缺失片段,直接导致7号染色体SoyW03序列最长,而SoyW02最短。
4、大豆基因组的结构变异
本研究将所有基因组776399个结构变异事件合并为124222个非重复的结构变异,随基因组数量增加,结构变异数越多,但核心基因的结构变异下降且趋于平缓,共有的结构变异包括130个(图3B)。基于结构变异发生的频率,将其分为四类:核心(存在所有基因组),次要(存在26-27个基因组),非必需(存在2-25个基因组),特有(存在于1个基因组),发现野生大豆的特有结构变异比栽培大豆多(图3C)。此外,结构变异倾向于重复序列区域(图3D),同样插入/缺失变异也多为重复区域(图3E),这表明重复序列的变化明显影响基因组差异。随等位基因的基因频率增加,结构变异的数量减少(图3F)。根据2898个高通量测序样品发现3584个新型的结构变异,而野生大豆的结构变异明显多于栽培大豆(图3G)。研究表明种子光泽是大豆的重要性状,大豆的疏水性蛋白积累与种子光泽的变化有关,本研究对种子光泽的全基因组关联分析表明15号染色体存在10kb结构变异与其相关(图3H),变异区域包括疏水蛋白编码基因(图3I)。10kb片段插入的基因组中种子有光泽的比例较高(图3J),说明这一变异是控制大豆种子光泽的主要遗传变异之一。

图3 大豆基因组的遗传变异。A:26个全基因组与2898重测序基因组的遗传变异分布,a(基因密度),b-e(SNP),f(大片段结构变异(红色)和重复序列分布(蓝色));B:结构变异数量随基因组数量的变化;C:26个基因组中各类结构变异的数量及比例;D:基因组重复/非重复区域的结构变异密度;E:重复片段的插入/缺失变异数量;F:等位基因频率与结构变异数的关系;G:野生大豆/栽培大豆的结构变异数量;H-J:全基因组关联分析筛选种子光泽相关的15号染色体变异区域(插入/缺失片段包括疏水蛋白编码基因),及其插入/缺失下的种子有/无光泽的比例。
5、大豆基因组的全基因组复制与基因融合

图4 大豆E3及邻近基因的遗传变异。A:E3及邻近基因的物理位置;B:E3位点的变异类型;C:一个13.3kb片段缺失将SoyZH13_19G210600与E3基因融合;D:PCR扩增验证SoyZH13_19G210600与E3基因融合,L05/L09/C13/C14属于E3-tr基因型,W02/C12/ZH13属E3-Mi基因型。E:E3及其邻近基因在ZH13中的表达水平。
6、大豆基因组受大豆驯化影响

图5 大豆I基因座的遗传变异。A:基因座的系统发育分析;B:I基因座的结构变异;C:I基因座5个类群的共线性分析。
7、大豆遗传变异对关键基因表达的影响

图6 Fe吸收相关的数量性状基因的结构变异。A:SoyZH13_14G179600的插入缺失片段;B:SoyZH13_14G179600及其高度相关变异的类群;C:两个类群的SoyZH13_14G179600表达模式,A(根),B(茎),C(嫩叶),D(成熟叶),E(老叶),F(花),G(荚果和种子),H(6周后种子),I(8周后种子);D-E:两个类群的地理分布;F:两个类群的纬度分布。
讨论
评论
更多推荐
1 高分综述 | Trends in Biotechnology: 单细胞分辨率下利用空间转录组揭示器官分子结构(国人佳作)