Nature Genetics | CIMMYT发布小麦大规模全基因组选择及关联分析研究结果

基因组学是未来对小麦进行遗传改良的一种必备工具。近期Nature genetics杂志在线发布了CIMMYT利用基因组学的方法,使用小麦大规模群体(多达44624份材料)以及全球多个地区多年多点表型数据,采用GBS简化基因组测序方法,进行全基因组选择和全基因组关联分析的最新研究结果。这项结果无疑是目前为止,最大规模的小麦遗传学研究。

群体材料:八个种质资源,共计44624份材料,其中大部分是育种的中间材料。

表型数据:上述材料分批,分类,分别种植在墨西哥,埃及,阿富汗,加拿大,巴基斯坦,印度,孟加拉国,苏丹,肯尼亚,美国等全球很多地区。每个地区,各种条件下考察各种农艺性状和抗病表型。

图一,表型之间相关性。

基因型:GBS简化基因组测序,使用TASSEL v.5 pipeline进行分析。全基因组一共鉴定到77148个marker(未过滤),使用70%,50%,10%的缺失率为阈值进行过滤分别得到15799,9141,2224个marker。

图2,全基因组maker密度分布图。markers denote filtered sets with 70%, 50% and 10% of missing data, respectively

全基因组选择:使用其中4个种质资源群材料3485份材料,对35个表型,用gBLUP和Bayes B模型,在R软件包BGLR中进行分析。采用5倍交叉验证方法对genome selection准确性进行验证。

有一个概念大家需要理解,genome selection与genome prediction,这里核心是prediction,就是利用全基因组marker预测表型,然后跟预测值进行选择育种。

genome prediction这里面说的很邪乎,数量遗传接触少的人可能压根不知道他在说什么。想深入了解的,推荐大家阅读BGLR的帮助文档,另外GAPIT(强烈推荐)软件也能做genome selection的分析。GAPIT软件还配有例子数据,可以直接拿来学习用。不花一分钱,跑通软件,学会1 1=2,对于10 10,一样的道理。

这里面有一个结果,大家需要注意,如图3所示,作者利用不同的marker数量进行genome prediction,发现使用一万多个marker和一千多个marker的预测效果基本相同。预示着做这个genome selection可能不需要高密度的分子标记(土豪可能只是说说,别太当真,下次土豪再发文章只可能是更多marker。其实小麦marker间高度的LD,也确实不需要太多marker)。

还有一个结果,大家需要留下心,作者在使用missing rate10%对marker进行过滤后,得到2253个marker,然后又把相关性大于0.3的marker进行了去冗余--就是利用LD,把冗余的marker扔了,这一扔不要紧,只剩下了160个marker。这说明什么问题?作者这里可是用了三四千份材料啊!这说明了小麦的遗传资源相对来说是非常狭窄的,其整个基因组几乎都在LD。这将预示着在小麦里的利用自然群体GWAS,对于复杂的数量性状而言,将是灾难级别的大坑,我希望小麦研究人员要意识到这一点。

图三,genome prediction准确性。

GWAS:作者这里利用了一共上万份材料(最多的一个panel 7887)对考察的性状进行关联分析,采用的MLM模型,使用的TASSEL v.5软件进行分析,阈值为-log10(0.2/N)

GWAS这个大家比较熟,我在这里面把阈值单独拎出来,是因为大家对这问题问的比较多,0.01/N,0.05/N,0.1/N,0.2/N,1/N大家都是各取所好,哪个对自己好用哪个,没有什么哪个好,统计这东西为了严谨,很多时候却是很不严谨的。如果大家真要较真,推荐大家使用permutation的方法,得到Null distribution来确定阈值。这是一个让叽叽歪歪的审稿人都闭嘴最终方法,其实做了这个你才能真正了解一点统计学。

这篇文章GWAS的结果比较多,大家可以各取所需的去看看。尤其是对于抗病的,因为很多都是质量性状,定位效果貌似比较好。

图四,抗病性状和质量性状GWAS结果。

图五,抗病性状分布。

Genomic fingerprinting:这一部分里,作者根据GWAS的结果,挑选了195个和表型相关的marker,建立了44624份材料的指纹图谱,并且研究了这些“优异”等位基因的在不同群体里不同年份的动态变化,这些结果“可能”对育种有直接的指导作用。

图注里的2013-2017可能是2003-2017。

(0)

相关推荐