看一名“普通”牙医的生信故事,文末领取ATAC-seq数据分析大礼包!
我是一名“普普通通”的口腔医生,因为兴趣和自己强烈的“求生欲”,在我三十岁出头的时候,我开始接触生信,到今天已经有三年的时间了。
01
生信分析数据带来的甜头
因为八年制学制问题,我的博士期间的三年基本过着是白天给病人看牙,晚上给细胞加药的生活。我觉得让我接触生物信息学的一个重要原因就是我那时研究的是转录因子和microRNA。因为研究这两个内容必然不可避免的要接触到RNA序列和DNA序列,而且那个时候关于miRNA和转录因子的网站也没有现在这么丰富,很多都是需要自己从UCSC和NCBI上复制粘贴DNA序列,我也就是通过这个过程才真正认识到本科书本上说的那些开放阅读框(ORF)和3’UTR区域,也真正明白了什么才是转录调控。那个时候,我自己有一种朦胧的感觉,就是自己从数据中挖掘出来的东西要比从别人论文里“借鉴”来的更加有价值。
出于对科研的兴趣,我在毕业后选择了出去“试一试” “闯一闯” 。因为自己科研底子薄,我也只找到了一个美国中流的大学医学研究院的兼职博士后职位,但是我至今仍觉得非常幸运的是我在这里遇见了一个好的博士后导师。因为整个课题组只有我一个华人,所以一开始我一直都处于很“自闭”的状态,老师讲的我听不懂,同事说的我也听不懂。为了缓解我的焦虑,也是为了让我适应语言环境,我的导师每天早上8点都会带着我去喝咖啡,他总会放慢自己的语速但是会跟我聊些自己从没想过的问题。我一开始总会说,“哎,这些自己听不懂,也做不来”,他也总会鼓励我“我哥哥博后的时候做的工作都能拿诺贝尔物理学奖,你要敢想敢做!”。
我的博士后期间主要的研究方向是利用斑马鱼对一种比较常见的遗传病GWAS结果进行功能验证,因为超过90%的GWAS相关SNP都位于非编码区,所以我很多的工作都放在增强子和染色体构象上。那个时候,我们的实验室并没有人开展H3K27Ac ChIP-seq或者HiC的工作,因此我很多的参考数据都来自于别人已经发表工作。我的导师能教我的是如何下载别人的bed文件,但是怎么跟SNP进行比对他主要靠眼睛……于是,我通过Google了解到了一个可以做intersect的软件Bedtools,也接触到能够预测Super Enhancer的ROSE。那个时候,每天白天我做各种克隆和胚胎注射实验,晚上我就在实验室给我的Mac上尝试安装这两个软件。谁能想到,只需要几行命令就能安装运行的软件,我花了整整七个晚上去Google各种报错。虽然每次碰到报错很恼火,但是我一直很享受这种“根据问题不断找原因再尝试”的过程,更重要的是,我觉得电脑的报错比我注射死胚胎的代价要小太多太多了。后来,这两个软件产生的几个表格和对增强子的注释也帮助我发表了博士后期间第一篇论文。
02
被逼无奈学生信
因为过度依赖其他课题组产出的数据,让我在美国的研究显得非常被动,而且我们总觉得当时研究的人类遗传病圈子对于斑马鱼这个模式动物并不是非常的认可。“我们总是用人的功能基因组数据在序列一点都不保守的斑马鱼胚胎中进行验证”这是我在课题组最困难时对导师提出的质疑。说实话,那段时间我也因为实验室的困境和这种研究的被动,几次准备打包回国做医生。可能导师也是感觉到我的不满,以及巨大的科研经费压力,他有一天突然问我“你觉得到底是什么原因能让我们用斑马鱼去验证人类基因组非编码DNA增强子活性?”我很直接的跟他说“我想自己试试ATAC-seq,我想看看所有在斑马鱼这层上皮组织里有增强子活性的DNA是否有一种'语言规律’,这种规律也许能够直接判断出来你要检测的人类基因组DNA在这个组织里是否也有增强子活性。” 我记得非常清楚,那天谈话的下午,实验室的技术员兼经理就把我叫去,跟我说“这是老板从学校要来的几万美元经费,你试试能不能做出你那个ATAC-seq。”
ATAC-seq,中文名是“利用转座酶研究染色质可进入性的高通量测序技术”,现在是我在国内实验室最常用的研究手段,可以用非常少的细胞检测出细胞内染色质开放区域,并结合其他ChIP-seq结果注释其中的活性增强子区域。但是,在几年前,我美国的那个学校里,我是第一个做ATAC-seq的人。我购置了所有建库的试剂,在摸索了细胞分选和转座酶处理条件后,我利用20000个分选的细胞分别建库并在学校测序中心完成了我人生中第一组ATAC-seq和RNA-seq。我本以为,测序中心会给我漂亮的峰图和处理好的motif,可是等到的结果是十分朴实的fq.gz文件。我还跟个傻逼一样,双击了gz满心欢喜的等了几个小时解压时间,没想到拿到的是解压后的fq文件。当时我脑子里只有“fxxk u”。更让我想笑的是,我老板第二天也兴致冲冲的买了一杯咖啡我,跟着我一起盯着fq发呆。我们花了200刀咨询费找到学校的生信部门,得到的回复只是“RNA-seq你可以试试刚刚发布的Kallisto,但是ATAC-seq,我们从来没有见到过”。想着自己开着的摊子,还有课题组的经费,我主动跟老板请缨自己分析。
为了能够顺利的分析那些fq,本来工资就很低的我自掏腰包买了一台两万多的MBP,还花钱买了Coursera的R python的课程,每天晚上自学到深夜甚至通宵。不过,我心里十分清楚,作为一名初学者,“我所有遇到的问题别人也一定遇见过”,因此在掌握了R和Python的一些基本术语和语法后,我更多的是一边运行程序一边在网上Google我的错误。相比于那些标准课程而言,Google,Stack Overflow,中文的生信技能树论坛(后来是它分支的公众号)以及Y叔的博客(后来是他的公众号)极大的加快了我学习和分析的速度。一个月的时间,在无数次错误和纠正后,我自己建立了一套ATAC-seq测序数据质检分析流程,而这些fq文件也变成了热图、火山图、bedfile以及HOMER的分析结果,我对于R和Python的各种报错也有比较深刻的理解。我老板看着这些图,对我说“每天早上给你的咖啡没白买,这比学校的生信人员实惠多了”。
后来,靠着这些数据,我陆续开展了大量的动物实验, 导师也顺利拿到了两个R01。两年前,我带着斑马鱼的数据回国,一边做医生一边延续没有完成的研究。仍然是一个人,我在学生自习室建立着自己的测序分析平台,顺利完成了小鼠和人相关组织的测序和分析,并最终从机器学习的角度解释了斑马鱼、小鼠和人不同物种相同组织特异增强子DNA序列特征,这种规律也极大的优化了遗传病GWAS相关突变功能验证思路。
03
后记
一个月前,我的这个工作在eLife杂志上正式接收发表。而当初那些每运行一次就要反复改写的ATAC-seq命令也在生信技能树这些公众号推文的启发下逐渐简化成一个个 shell,并最终变成了 Snakemake。我想,如果现在的我回到四年前开始那个项目,或者导师当时再招聘一个有这方面经验的博后,也许这个项目只需要一两年(老鼠和转基因鱼要花时间)也许会到更好的杂志,但是换不来每天早上免费的咖啡,换不来自己那段通宵自学生信的经历,更换不来现在科研和临床工作中那种“发现问题,努力解决问题”的感觉。我想,每个人在求学的道路上都会经历一段需要沉下心来思考学习的日子,经过这段时间的积淀才会上更高的台阶,我很庆幸我将这段日子给了生物信息学。生信给我的感觉是一开始接触时会给我一点“甜头”,而在后来很长一段积累的时间里都不会有很大的起色,必须要坚持很长时间时才会“突然”给人惊喜。
医生,本来就是一个需要终生学习的职业。我本以为博士毕业是我学业的终点,没想到30多岁开始的这段生信经历让我认识到“满级才是学习的开始”。我希望将来的我还能带着这种“敢想敢做”的学习热情,在生信的路上越走越远。