贝壳外表坚硬,里面藏着珍珠,一枚枚地埋在沙滩下。为寻找那颗最大最亮的珍珠,必须刨开粗粝的沙子,撬开坚硬的贝壳,如此反复无穷。科海拾贝就是在科学的大海上拾起一些让人拥有回忆的贝壳。科海拾贝栏目欢迎科学工作者分享与科学有关的研究实践,包括科学史话、名人轶事、经验教训、生涯哲理,……。以倡导“独立之精神,自由之思想”,“厚学而笃志,切问而近思”。以求真明发展,以创新立未来。以期承前启后,继往开来;兼容惟新,与时俱进。——徐云碧(The Crop Journal 执行副主编)
文 | 徐云碧
孟德尔通过豌豆的杂交试验推导出遗传学的分离定律和自由组合定律。曾经有很多学者质疑孟德尔在计算分离比例时,统计数据与理论预期符合得是如此完美以至其数据可能经过了某种程度的选择或处理。关于相关争论的全面解读可以参考Weeden (2016)的论文。现在我们知道要让分离完全符合孟德尔比例必须满足很多条件,比如所有的雌雄配子都有同等的机会参与受精,受精后的合子都能正常发育为成熟的个体并在生长发育过程中没有经受选择的压力等等。而在通常情况下,由于遗传、生理、发育、环境等原因,这些条件难以完全满足,导致很多观察到的不同基因型的分离比例会严重偏离孟德尔定律,这种现象被称为异常分离或偏分离(segregation distortion)。在动物中相关的问题涉及分离异常因子(segregation distortor; Lyttle,1991)或减数分裂驱动(meiotic drive; Lindholm, et al., 2016)。我第一次大规模地观察到偏分离现象是关于水稻亚种间杂交组合中的糯质基因wx。因为胚乳直感(xenia)现象,水稻F1植株上的种子就是F2代,因此很容易把群体做到足够大,从而为偏分离提供可靠的数据样本。对杂交产生的10个籼粳交组合,将收获的1万多个籽粒进行脱壳,然后一粒一粒地进行胚乳特性的判断,发现在其中四个组合中wx基因的分离出现严重异常,糯性籽粒的分离比例从严重低于3:1 (19.05%)到严重高于3:1 (50.00%)等各种类型(表1)。当时这个关于wx基因偏分离的观测结果比较初步,只能在《中国水稻科学》上以简报的形式发表(徐云碧和申宗坦, 1992)(其实这本杂志一直都是很不错的)。
大规模表型观察培养了我对分子标记偏分离的高度敏感性和兴趣。当我作为在职博士生,在中国科学院遗传研究所(现遗传与发育生物学研究所)朱立煌老师实验室(801组)做出第一张RFLP照片时,就立即本能地开始计算不同基因型出现的比例,很快发现了籼粳交组合窄叶青8号/京系17 F2群体的严重偏分离现象(图1)。第7染色体上RG678 三种基因型的分离比例为4:45:27,严重偏离1:2:1 的分离定律。作为博士研究的一部分,我系统地分析了当时所获得的F2群体RFLP数据,将偏分离的结果发表在当时的《植物学报》上(徐云碧等, 1995)。图1 窄叶青8号/京系17 F2群体RG678的三种基因型分离(1-窄叶青8号纯合体;2-杂合体;3-京系17纯合体)
有了这些经历,在康奈尔大学McCouch 实验室做博士后时,对大家不屑一顾、扔在一边的多个群体的RFLP分离数据如获至宝。当时结合中国科学院遗传与发育生物学研究所窄叶青8号/京系17组合两个群体的数据,联合分析了多个群体的偏分离现象(表2),发现了分布在水稻基因组上的多个偏分离热点。通过汇总当时发表的所有不同作物的分子标记数据,综合探讨了偏分离及其可能的遗传、选择和环境因素。与朱立煌老师等人联名发表在Molecular and General Genetics上的论文(Xu et al., 1997)成为一篇经典的高被引论文,Google引用数目前高达538次(图2),在本人为主要作者的论文中排名第二。
图2 Xu et al. (1997) 关于异常分离论文的Google引用次数(引用总次数 = 538; 2020年12月28日)
现在回想起来,这个分析的快速完成和论文发表取决于三方面的因素:一是过去实验观测对不同群体的偏分离现象产生了高度敏感;二是不同实验室积累了大量的可供利用的数据且愿意共享;三是具备对数据进行综合和分析的能力。当时各群体的数据都是以连锁作图所需的格式存在,需要基本的统计处理,并计算出每个标记基因型的数量及其分离比例。本人当时已经具备的基本计算机编程能力大大简化了需要人工进行的数据处理和计算。这段有关偏分离现象的研究,经历了从单个的糯质基因表型到大量的RFLP基因型,从单一群体到多个群体,从水稻到所有报道的其他植物的发展过程。没有对水稻wx基因分离细致的观察分析,就不会有后来关于RFLP标记偏分离的深入观察和思考。没有对单个群体RFLP的研究,也就不会考虑从不同群体去比较分析和综合探讨偏分离的各种可能的原因。因此,大量的观察和积累,可以帮助我们进行良好的实验设计去获取数据,这是实验设计的问题。而在可供利用的大数据面前,因为研究背景和技能的不同,不同的研究者对同一套数据自然会有不同的考量而直接影响到数据的分析和解读。与目前大数据时代的数据量相比,当时的这种数据分析和处理可以算是很小儿科了。随着高通量数据采集技术,包括表型鉴定和基因型检测技术(包括测序技术)等的进步,产生数据所花费的成本占全部研究成本的比例将变得越来越低。相反,实验设计和数据分析所需成本的占比将越来越高。多年前在CIMMYT科学周上Kate Dreher博士就给出了一个大致的估计:预测到2020年,用于数据生产的成本只会占到研究总成本的5%, 而数据分析的成本将占到总成本的50%以上(图3)。虽然目前尚未达到这个比例,但已经非常接近预期。因此,未来的数据积累将呈指数增长,而数据的分析和处理等将面临巨大的挑战。谁能掌握先进的数据分析和处理技术,谁就会在未来的科学研究和创新中占尽先机。未来没有基本的计算机编程能力者基本上就会成为只能使用现存软件进行分析的“残疾人”。
图3 科学研究中数据产生和分析的成本变化趋势(Kate Dreher, 2013; CIMMYT Science Week)
育种家为了获得理想的目标基因型,需要根据群体中各种基因型出现的可能概率,计算出应该培育和种植的群体大小,以最大限度地获得所需要的基因型。偏分离和不同基因组区域遗传重组率的显著差异,是决定群体中不同基因型出现概率、且经常被育种家忽视的两个重要因素,而因此导致的所需群体大小的差异可能会远远超过育种家的想象。感兴趣的朋友可以跟踪一下各种作物中有关偏分离的基因组热点,看看是否可以将影响偏分离(配子和孢子体选择)的有关基因克隆出来并应用于植物育种中提高理想基因型的选择效率。上述有关孟德尔定律偏分离的实验观测、数据积累与论文发表的简单故事告诉我们,科学研究需要专注和积累,研究结果和论文发表也会随着这种积累而日渐水到渠成。科学研究永无止境,作者感到遗憾的是,后来没有进一步对观察到的异常分离位点进行基因克隆并应用于改进育种中的选择效率。这个未竟的事业留给感兴趣的年轻朋友去思考和探索。
徐云碧,申宗坦. 1992. 籼粳杂种糯性基因的异常分离及其特征. 中国水稻科学6: 89–92.徐云碧,申宗坦,陈英,朱立煌. 1995. 水稻籼粳杂种F2群体中RFLP标记的异常分离及其染色体分布. 植物学报37:91–96.Lindholm A. K. et al. 2016. The ecology and evolutionary dynamics of meiotic drive. Trends in Ecology & Evolution 31: 315–326.Lyttle T. W. 1991. Segregation distorters. Annual Review of Genetics 25: 511–581.Weeden N. F. 2016. Are Mendel’s data reliable? The Perspective of a pea geneticist. Journal of Heredity 107: 635–646.Xu Y., Zhu L. Xiao J., Huang N., and McCouch S. R. 1997. Chromosomal regions associated with segregation distortion of molecular markers in F2, backcross, doubled haploid, and recombinant inbred populations of rice (Oryza sativa L.). Molecular and General Genetics 253: 535–545.The Crop Journal
The Crop Journal (《作物学报(英文版)》)是中国科协主管,中国作物学会、中国农业科学院作物科学研究所和中国科技出版传媒股份有限公司共同主办的学术期刊,创刊于2013年10月。办刊宗旨为刊载作物科学相关领域最新成果,开展国际学术交流 ,促进我国作物科学研究水平及国际影响力的提升。主要刊登农作物遗传育种、耕作栽培、生理生化、生态、种质资源以及与农作物有关的生物技术、生物数学、农业气象等领域以第一手资料撰写的研究论文、研究简报以及专题综述等。2019年The Crop Journal的SCI影响因子为3.395,在JCR农学和植物学两个学科位于Q1区,并位列中科院分区农林类期刊一区。2019–2023年获中国科技期刊卓越行动计划重点项目资助。《作物学报》是中国科学技术协会主管、中国作物学会和中国农业科学院作物科学研究所共同主办、科学出版社出版的有关作物科学的学术期刊。前身可追溯到1919年创办的《中华农学会丛刊》。主要刊载农作物遗传育种、耕作栽培、生理生化、种质资源以及与作物生产有关的生物技术、生物数学等学科具基础理论或实践应用性的原始研究论文、专题评述和研究简报等。《作物学报》从2001年起连续18年被中国科技信息研究所授予“百种中国杰出学术期刊”称号。2013年和2015年被国家新闻出版广电总局评为“百强科技期刊”, 2011年和2018年获“第二届中国出版政府奖期刊奖提名奖”。据北京大学图书馆编著的《中文核心期刊要目总览》登载, 《作物学报》被列在“农学、农作物类核心期刊表”的首位。2019-2023年获中国科技期刊卓越行动计划梯队项目资助。2020年入选农林领域中国高质量科技期刊分级目录T1。