古奥基因袁晓辉:大数据及人工智能技术在分子设计育种中的应用丨IFA2020

来源:古奥基因创始人袁晓辉 IFA2020演讲实录

编辑:龙秀兰

种业是现代农业的“芯片”,种业的竞争核心是科技的竞争,更是科技如何引领支撑产业发展的竞争。在技术发展的洪流下,传统种业育种方式发生了极大改变。目前,育种技术的革新逐渐成为了全世界作物育种的主流, 在我国也正在成为作物遗传改良的重要手段。

古奥基因成立于2016年,是一家以二代和三代高通量测序、生物信息分析、交互分析报告、多组学知识库和基因组选择育种平台研发为技术核心的高科技公司,致力于为公共和企业育种研究机构提供基因大数据分析和解读、知识库和基因组选择育种平台构建的服务,协助农林动植物分子育种和基因组选择育种研究事业。

日前,在2020国际未来农业食品百强·白马峰会(IFA 2020)上,古奥基因创始人袁晓辉以“大数据及人工智能技术在分子设计育种中的应用”为主题发表了演讲。以下为演讲实录:

我国种业现状浅析

各位来宾早上好,我是来自古奥基因科技有限公司的袁晓辉,首先非常感谢35斗能组织此次大会让大家能够在这积极分享。今天我也想跟大家介绍一下我们在分子育种中的一些实践的经验和一些不成熟的想法,请大家批评指正。

首先我将简单地从技术的角度来介绍一下育种技术的演变,以及我们国家现在种业的基本情况。

中国是一个人口大国,也是一个农业大国,自新中国成立以来,我国农业取得了举世瞩目的成绩。根据中国种子管理局的数据,从目前主粮的角度来讲,我国自主品种的种植面积达95%以上。虽然说主粮这一方面我国的种子是很好的,但其中有很多其他作物的种子高度依赖于进口,比如说高端的花卉蔬菜、甜菜的种子及食用菌工厂化的菌种等,这对我国种业来讲是很大的问题。这些问题反映出我国种业和国外的先进水平相比差距依然很大。国外的育种大部分都是商业化育种,每年投入的经费都在几十亿美元以上。

那我们怎么去改变现在的状况呢?目前,基本上所有的行业都在面临着由大数据和人工智能带来的巨大变革,现在的种业也在经历“生物技术+信息化”为特征的第四次科技革命,这次技术革命非常有可能实现种业的跨越式发展。

“生物技术+信息化”为种业带来第四次科技革命

简单地来讲,刚才说了种业正在进行第四次科技革命,接下来我讲一下种业的发展过程,育种技术从经验育种到杂交育种,再到分子育种,最后到我们现在讲的精准育种。经验育种基本上是依靠自然的选择;杂交育种是通过杂交优势去加速变异;分子育种是利用分子标记来进行辅助的育种;精准育种在全基因组的测序和基因编制技术的基础上,通过大数据的分析不同基因以及组合对于性状的影响,从而更高效地指引品种的定向培育。

目前来看,不同农业动植物的育种现状也是不同的。比如说水稻,我国的水稻是做得比较好的,现在基本上已经处在分子育种阶段,而且逐渐在往精准育种的方向转变,当然还包括奶牛育种领域。但是更多的农业动植物育种技术还比较初步,比如我们最关注的食药用菌育种,还处在育种方式比较早期的阶段。

精准育种是随着大数据和人工智能技术的演变去推动的,技术的革新会对一个行业产生革命性的变化。比如现在汽车行业里面,特斯拉花了不到十年的时间已经成为了全世界市值最高的汽车公司。中国也有很著名的新能源汽车企业,比如蔚来汽车也是在2020一年的时间内市值翻了10倍以上。可以看到在汽车行业里我国原来根本没有排头兵,但现在在新能源汽车里蔚来已经站在了第一梯队里。这也说明技术能帮助一些行业产生颠覆性转变,实现跨越式发展。

在精准育种这一块,我们的技术储备是什么?有报告显示:中国现在的作物基因组学和人工智能的研究是在全球排第一位,至少从研究的角度来讲我国是站在第一梯队里的。精准育种依赖于全基因组的测序和基因编辑技术,所以现在我们国家其实是有能力在这个技术上去和国外的先进技术去抗衡的。

再拿食药用菌举例来说,目前我们现在还处于经验育种的阶段,但是并不是说我们一定要经过一二三的过程才能走到第四步,我们可以利用作物以及畜牧领域的先进成熟的育种技术直接把食药用菌育种技术跨越式发展进入到精准育种阶段,这也是在育种技术上我们面临的一些机会。当然,这也会带来一些挑战,精准育种完全改变了我们之前传统育种的一些方式,是新的交叉性学科。它需要运用大数据与人工智能技术,等一下我会讲到有关分析的技术及这些技术怎么去融合。

实验驱动变成数据驱动的全新育种

目前,我们要将计算机领域的机器视觉、文献挖掘、深度学习的这些人工智能和大数据的技术应用在作物育种的数据采集、管理和分析的技术难题上。那么做分子育种、精准育种的逻辑是什么?传统的育种实际上都是在做表型的筛先,先做实验,做完实验以后再筛选好的东西。从精准育种的角度来讲,把测序的数据、表型的数据转进来,有了数据以后再建立数据平台,有了数据进行清洗,清洗完了以后我们要做预警方案的模拟,再把方案拿过来做实验。从原来实验驱动的学科变成了数据驱动的学科,从数据的采集到数据的存储、到数据的应用、到数据的分析,这是一个完整的数据产业链的循环。

下面来讲一下我们有哪些关键性的问题需要突破,基因的获取大家都已经知道了。基因测序这块随着技术的发展现在不是问题,最关键的是表型的问题,根据不同的物种、不同的种植状态、不同的目标,对表型的需求是多样的,我们很难用一个仪器或者用一种方案去解决。现在我们基因几千个或者上万个样品去通量测序,但是表型很难做到这一点,这是要解决的问题。

第二个需要解决的问题是有了基因型和表型的数据以后怎么去存储这些数据,让这些数据能够用起来。传统的育种一个PC电脑就能做到。但是现在生物数据越来越大,没有集群、云计算就分析不了海量数据。这时候就需要大数据的算法,里面包括数据的多元化特征,下面简单讲一下我们在这方面做的工作。

表型获取实际上是存在好几个方面的问题,一个是表型精确获取,一个是表型高通量的获取。我们怎么能够通过表型设备获得以前没有定义过的表型,怎样才能把表型更加精细化。其实表型不是在单纯地、精确地去衡量,而是要挖掘新的表型。

那么表型最难的是什么呢?是设备。我们现在整个行业非常缺乏表型测量的设备,所以我们下面就讲我们在表型设备研发方面的一些进展。我们首先使用基于RGB的技术实现自动测量、图像分割、表型识别。我们如果有定量化的研究以后,标准就可以统一,同时利用超光谱技术可以做代谢成分的检测。

我们参与了国家的大科学装置的计划中的作物表型组大科学装置项目,主要做CT设备和数据分析工具的开发。通过CT扫描一个小麦的麦穗,我们可以分析得到每一粒麦粒的形态。包括它的体积、它的角度,实现了无损的观测。现在可以通过CT的扫描知道这个种子在不同的时间段长成什么样子,然后计算生长速度。

利用海量的基因和表型数据,目前我们建了很多数据库,但是数据管理的角度上来讲这些数据库没有充分被利用。为什么会出现这种情况?答案就是因为没有统一标准。从大数据管理原则(FAIR)要求的可发现、可访问、可协作、可重用的标准里面,最关键的标准是可解释这就要求我们必须把数据关联起来才能解决可解释的问题。谷歌和百度在2012年就开始做这件事,现在搜索引擎都是基于知识图谱,但是目前我们的基因、表型和育种数据都是离散的,没有办法把数据联合起来。我们在这里面做了一些工作,数据的存储很简单,数据库只是存储的形式,如何给每一个数据建立身份证、给数据建一个档案,这才是后面可重用的关键。在建立大数据中心之上我们要把人工智能技术、算法放入里面去建立一个开放的程序。有了这个以后,我们再做育种模拟,比如我们开发的软件MVP,提高了生物育种的预测准确率。

基于上述高通量的基因和表型的技术,我们在中国工程院院士李玉院士的带领下,联合吉林农业大学、食药用菌教育部工程研究中心和食用菌新种质资源创制国际联合研究中心,正在利用基因和表型大数据开展食药用菌的精准育种技术的开发,并且已经打下了非常好的基础。目前已经开发了食药用菌菌丝和子实体表型分析的设备和软件,构建了世界上最大的食药用菌基因数据库,并正在联合国内食药用菌领域的研究单位和企业开发育种数据中心。为了这个目标,我们现在也在嘉善建立了食药用菌产业研究院和武汉东西花新品种栽培示范基地,目前就是利用精准育种技术,提升不同育种目标品种选育的效率,实现食药用菌行业的政产学研融合发展。

最后再介绍一下我们公司。古奥基因自成立以来,一直致力于布局基因数据产业,从测序数据产出、数据分析、深度挖掘到基因应用。目前公司已建成武汉古奥基因(总部研发和运营中心)、重庆揩火基因(大数据中心)、嘉兴食药用菌分子育种中心(食药用菌育种)和武汉东西湖新品种栽培示范基地(工程化栽培技术开发和示范)。

古奥基因在2019年完成A轮融资后,将在其基因分析算法和数据优势基础上,加大育种平台和育种应用投入,依托华大基因的支持,推进基因大数据与分子育种技术的产业化发展,构建上游基因测序、中游基因大数据分析、下游分子育种技术服务的一整套服务技术体系,并对高经济价值食药用菌进行定向育种,形成国内现代农业分子育种技术的示范基地,为分子育种企业和研究单位提供育种方案和定向育种服务。

欢迎大家与我们进行深入交流与合作,谢谢大家!

近 期 推 荐

农业食品行业2021数字化趋势展望:人工智能、智慧供应链、新商业模式

不止Beyond Meat!替代蛋白企业正掀起上市潮

中信农业产业基金王思洋:我国种业科技崛起的“势”与“时”

年度盘点:2020年全球农业食品领域Top20融资

替代蛋白三大关键问题和产业趋势解析,创新不能一蹴而就

十年后,全球植物基市场规模将达到1000-1200亿元,完成消费者培育蔚为关键

声明:本文来自35斗,未经授权禁止转载。

(0)

相关推荐