魔方大数据(7)| WeGene陈钢:Genos基因组数据可以给用户带来收益
不同来源的数据有不同的价值。Genos通过用户的基因数据与药厂合作,所获取的收益是要分给样品提供者的。陈刚在此次分享会上告诉我们,虽然他们适当的接了一些测序工作,但未来的重点还是要做数据存储
6月16日,“魔方大数据之——基因大数据产业应用发展高层思享会”在上海贝壳社成功举办。超过70位国内基因领域顶级专家及国内外基因行业领袖企业代表共聚一堂,就基因大数据产业链各环节所面临的机遇与挑战进行了深度探讨。
本次活动由上海大数据联盟、数据猿主办,贝壳社、上海市生物医药科技产业促进中心、上海超级计算中心联合主办;得到上海市科技创业中心、上海市浦东新区科学委员会、上海众创空间联盟的大力支持。
以下是数据猿整理的“Wegene 陈钢”的精彩分享:
本文由“135编辑器”提供技术支持
陈钢:最开始的时候,主办方给了我一个很大的主题,《WeGene的健康管理》,吓到我了。实际上,我要说点更具体的事儿,可能会涉及到睡觉。今天讲到的话题其实都很严肃,比如医学、云计算,而我要说说怎么面对消费者做数据积累,怎么挖掘数据价值,再跟大家分享一些其他好玩的事。
我们会把基因组数据的利益还给样品提供者
首先跟大家讲一下Genos,这对在座的可能不是什么新鲜东西,但它其实才刚刚面向公众。前两天Genosbeta网站上发表一篇文章,公布了Genos 能做的事情:你付399美元,他给你做一个DNA外显组测试,数据结果会保存下来,通过结果你能看到一些解读。听上去没有任何新意,除了他们的界面做的比较漂亮,但如果只做这样一个事情就太简单了。那它的新意在哪儿呢?
这个东西曾经是华大基因组研究方面的利器。它与其他产品有一个很不一样的地方。
大家知道23andme把自己的数据跟药厂合作,当时一份合同6000万美金,我没记错的话,相当于是国内最大的基因公司与药厂好几年的合作量,但是23andme把6000万美金几乎都装进了自己兜里,作为数据的贡献者来讲没有获得任何收益,只是付给了23andme 99美元。但如果Genos来做这件事,通过你的基因数据和当时做的一些问卷与药厂合作获得收益,这些收益是要分给样品提供者的。你的基因组数据反正已经花钱测了,闲着也是闲着,不如让别人用用。
这是跟23andme不一样的地方。Genos的商业模式是希望每个人都获得收益,你的基因组数据不仅可以给你带来健康,还可以给你带来现金收益。
我不知道在座的有没有用过23andme产品的?简单介绍一下,盒子打开后里面有说明书,涂上唾液后把盖子盖起来,然后寄回给厂商,厂商几个礼拜后出一份分析结果。23andme现在的交付时间是12周。实际上这是美国现在消费者花199美元才可以拿到手的东西。如果作为国际用户的话,是99美元。那么它到底能给消费者提供什么样的解读报告呢?
下面是23andme解读报告的形式,包括:有哪些遗传病携带了基因突变、如何运用营养学,还有一项非常有名的被国内叫做“你是否喜欢吃香菜”的报告内容,虽然这个结果被大量使用但是没有经过论证,因为用在中国人身上非常不准,这是人均差异的原因。
另外,这里还有一些有关遗传病特征的,比前面的每一项都详细,包括染色体和线粒体。遗传特征方面的内容其实能提供一些好玩的东西。比如,一个小孩在学校跳远成绩很好,回家之后父母就会说“真棒,跟你爸(妈)一样”,但是如果做了基因组测试,就可以解决“那些好的基因到底是从爸爸那来的还是从妈妈那来的”这样的问题。
还有一种面向消费者的基因检测,叫亲子鉴定。为什么亲子鉴定会准,因为数据少。一个电子制片人,突然被警察追上说,“你的DNA跟九年前的犯罪分子有亲缘关系”。为什么能够判断父子关系,是因为有一半基因跟父亲有关,25%跟爷爷相似。
回到刚才警察那个事情,在美国基因组数据大概300万量,相对美国的总人口比例来说是极小一部分,但他们测了一个人之后,实际上已经掌握了这个人周围五六层的家属关系,这也是为什么警察会找到那个犯罪分子的原因。那么我们是不是应该考虑,当一个人决定测基因组的时候,是不是也该咨询一下他爸爸和爷爷的意见?
不断寻求新用户,不断获得有价值的数据
除了C端消费者可以看到报告外,Genos还做了一个数据互联互通的事情。PPT角落里有一个词API。数据不管存放在什么地方,只要满足一套标准就可以使用API。23andme也有这样一个API,有点像现在人们用微信打开第三方网站的形式。现在很多地方都会用基因组,如果当前的网站或这家医院需要重新测序,可实际上我已经测过,为什么还要重新做呢?测一次需要几周时间,我完全可以把这个数据直接授权给你,这样就能享受跟基因数据有关的其他服务。
国内也有人在做这个事情。如果你有两个选择,一个是要自己付100多英镑进行一次新的基因测序,另一个选择是花99美元去在23andme进行检测,选哪个?这就具有平台性质,平台做的越好,消费者就越愿意选择他。如果大家有兴趣,用手上的苹果手机搜一下23andme,大概有五六个与它相关应用。这是23andme做的事情,那它靠什么挣钱呢?钱是最关键的一个事情。23andme主要在三个方面挣钱。
一是大家都可以看到的,不管它卖99美元还是199美元,即使没有利润这也是现金流;
二是23andme的采购不会亏损,毛利几乎很小。在座的各家公司,毛利率超过30%的有几家,超过40%的又有多少?这个东西虽然能赚钱,但基因检测一个人一辈子做一次就够了,需要不断挖掘新客户,不像开饭店,笼络到了谁的胃,谁就可以吃好几年。
三是它的科技服务,跟我们之前认为的科技服务不一样。
以前在国内做科技服务,如果我要做一个项目,找别人帮我测,然后大家一起分析,一起发文章,但23andme却是这样做的(看PPT)。这是华大的员工在日本会议上帮忙拍的。我们可以看到它所有的检测只有一种,就是用23andme网站上可以买到的盒子。
如果我买了1000个这样的盒子,分别打上标签,在获得结果之前,23andme除了进行基因检测、追访之外,还会帮我找其他一些相关数据。今年,一个50多万人基因组的数据库里发现有15-18人携带严重的遗传病,虽然不确定是否会发病,但可以让他们与23andme联系。在大量的基因组数据中,会相对容易找到一些特定基因,23andme就积累了大量帕金森病的数据。
如果数据库里没有特定的数据,所有样品都一样没有特点,这样的数据价值将大打折扣,二次挖掘也将变得没有意义。如此一来,很自然的大家会开始做另一件事情,23andme也正在做的一件事——药物研发和检测,不过目前还没有看到它有很多临床试验结果出来,虽然已经投入了很多。
大家都在想我们需要积累大量基因组数据,难道数据量越大就真的好吗?换个角度来看,如果我给自己测50个基因位点,但实验室测了200亿个,那这50个在市场上是不是没有价值?如果200个人中只测五六个人的,价值不是不是小?如果我现在的样品数量很少,可不可以先存下了?考虑一下成本问题,究竟是存样品便宜还是直接分析划算?假如我现在做几十个微电检测,数据量太小,就把样品先存下,用小滴管存唾液甚至可以常规存五年,成本很低。
再考虑数据质量问题,大家为什么愿意选择去实验室,为什么交付时间从去年的4周变成现在的12周,都是为了要确保得到的数据结果有保障。数据规模越大,处理的时间越长,结果才越能满足使用的要求,这样的数据才有价值。
不同来源的数据有不同的价值。比如科研数据,每个人的样品都会有标签,别人很难分析,很难在其它项目复用。如果接下来要研究肿瘤或相关药物的研发,那23andme的数据会更有价值。
面对激烈的竞争,控制成本和保持逼格是比较矛盾的
除了大家熟知的23andme之外,还有很多的基因检测公司,比如ancestry,它的数据量很大;pathway genomics做线下推广,专注于健康方面的解读,但是长期接到警告信;Genographic依靠国家地理杂志,成绩也很优异。
再来看中国,回到WeGene。看到23andme的DTC检测,我们认为我们的数据不比它们差,那么接下来要用什么方式做呢?像23andme一样,给每个人60万吗?但这里面会涉及很多因素,比如成本,最终我们选择了跟23andme类似的方案。
你会在我们网站上会看到WeGene的唾液采集器有很多配套方案,国产的15块钱。我们提供的报告是这样的,像风险评估报告,网站上还有很多其他形式,大家可以去看。我们也做自己的API,跟第三方合作,但是实话讲这个东西没有标准,我们的用户基数太小,做5000个检测之后跟那些做了1亿用户的企业谈合作?结果肯定没戏。后来我们看中了芯片这块内容。
市场上,有价值5万人民币的基因组测序,用一些低通量芯片测几百个位点,也有几百块钱到一两千块钱的测序,测几个基因位点,数据量都太小。我们也研发了自己的产品,但对在座的各位来讲,这实在没有什么了不起。
如果一个团队,有了基本的分析能力,有了很大的实验室,那么要怎么把产品卖给别人,做市场推广?我们市场部的负责人是91年的年轻人,团队里还有2个应届生和1个两年前毕业的。我看过无数软文,也看了很多同行推广的文章。我记得华大曾经有一个重大的新闻报道,当时阅读量在1000左右,我们自己公共号上的文章阅读量能到达一两千。我们做市场的小孩们想了很多方法写文章,内容比较正常,推广也不错。但做科研的人写不出这种文章,在座做技术的朋友谁会写“闲的蛋疼”这种内容。
我对市场推广不熟,但他们做的挺有意思,脑洞很大,简称“文谣”,所有的人都等着看他们的文章。他们的故事前面写的跟小说似的,家族小说,父亲把儿子杀掉了,结果却是因为基因检测,然后还写续集。很有意思。
我们的检测结果全部都可以让用户下载,而且兼容国内外网站格式。昨天我在机场时收到朋友发的一个截图。在国外网站上,如果有人上传游戏,在玩家里是可以寻找跟自己有亲缘关系的人的,如果真的有自己的“亲人”在,就可以看到对方的邮箱地址,然后他们就发现了我的工作邮箱。我暂时还不知道怎么解释这事。因为这个东西应该算是三代、四代根源的亲缘关系。
他发了一个邮件给我,告诉我他的小孩在福建,我不知道我祖上做了什么,我猜可能是从台湾移民到了美国。我们有自己的英文版网站,但我不知道是不是与这个有关系。
在做了那么多事情之后,实际上我们的销量还可以。这是上个月的数据,现在大概是4000份,再过两周大概5000份,我们之前出现过一次销量特别高的时候,那是因为一个有趣的视频,但视频不是我们做的,在这里跟大家分享一下。
(播放视频)好,就是因为这样一个视频,WeGene上个月的销量比平时高很多。初步是400多份,销售额到达了30几万,这对一家十几个人的公司来说还挺不错的。除了做面向个人的业务外,我们还做23andme那样的业务。我们帮第三方做随访,只要我帮他随访,用户还在我这儿,后台还会提供系统可以查看统计结果。
对WeGene来说,这些数据是可以应用在其它地方的。曾经我们上线的第一个项目是关于中国人尼古丁成瘾的调查,用户检测的同时顺便帮我们填个问卷就能把测试花的钱挣回来。我们也做了一个开放平台,老实说没人用,接下来会再做点别的事提高应用。
我们团队本身是互联网出身,在技术上比较有经验,但交付却跟不上销售。为了解决问题,我们一方面建立自己的标准流程,一方面建立自己的实验室。如果现在有用户问我什么是基因?基因有什么用?这个人不是我的用户。如果他跟我说刚才那个视频很有趣,里面的东西中国人可不可以做?这个人是我的潜在客户。可是如果他跟我说“我们家族里有这个遗传病,你能不能帮我确诊一下?”那他也不是我们的用户。
我们现在一年要做一万量的基因检测,明年做两到三万,后年是十万,而不是来一个人只要付钱就可以做。另外,23andme的交付时间是12周,我们的交付时间是4周。“为什么已经过去一个礼拜结果还没出来?”中国人的生活习惯已经被快递惯坏了,如果我在饿了么下一个订单,半小时东西送不到就给差评。这样的模式做科研是很麻烦的。我们现在的数据质量与23andme相比,还有一定差距,不过,如果保持在60万量上,每个样品还是比较可靠的。
控制成本和保持逼格是比较矛盾的,因为保持逼格是要烧钱的。虽然我们适当的接了一些测序工作,但重点还是要做数据存储,对分析我们没有太大兴趣,下半年会有更多产品的服务更新,到时可能会在北京召开一个发布会。谢谢大家!
注:本文由数据猿记者yilia(微信:zhangye1209)整理发布
来源:数据猿