看一名“普通”牙医的生信故事,文末领取ATAC-seq数据分析大礼包!

我是一名“普普通通”的口腔医生,因为兴趣和自己强烈的“求生欲”,在我三十岁出头的时候,我开始接触生信,到今天已经有三年的时间了。

01

生信分析数据带来的甜头

因为八年制学制问题,我的博士期间的三年基本过着是白天给病人看牙,晚上给细胞加药的生活。我觉得让我接触生物信息学的一个重要原因就是我那时研究的是转录因子和microRNA。因为研究这两个内容必然不可避免的要接触到RNA序列和DNA序列,而且那个时候关于miRNA和转录因子的网站也没有现在这么丰富,很多都是需要自己从UCSC和NCBI上复制粘贴DNA序列,我也就是通过这个过程才真正认识到本科书本上说的那些开放阅读框(ORF)和3’UTR区域,也真正明白了什么才是转录调控。那个时候,我自己有一种朦胧的感觉,就是自己从数据中挖掘出来的东西要比从别人论文里“借鉴”来的更加有价值

出于对科研的兴趣,我在毕业后选择了出去“试一试” “闯一闯” 。因为自己科研底子薄,我也只找到了一个美国中流的大学医学研究院的兼职博士后职位,但是我至今仍觉得非常幸运的是我在这里遇见了一个好的博士后导师。因为整个课题组只有我一个华人,所以一开始我一直都处于很“自闭”的状态,老师讲的我听不懂,同事说的我也听不懂。为了缓解我的焦虑,也是为了让我适应语言环境,我的导师每天早上8点都会带着我去喝咖啡,他总会放慢自己的语速但是会跟我聊些自己从没想过的问题。我一开始总会说,“哎,这些自己听不懂,也做不来”,他也总会鼓励我“我哥哥博后的时候做的工作都能拿诺贝尔物理学奖,你要敢想敢做!”。

我的博士后期间主要的研究方向是利用斑马鱼对一种比较常见的遗传病GWAS结果进行功能验证,因为超过90%的GWAS相关SNP都位于非编码区,所以我很多的工作都放在增强子和染色体构象上。那个时候,我们的实验室并没有人开展H3K27Ac ChIP-seq或者HiC的工作,因此我很多的参考数据都来自于别人已经发表工作。我的导师能教我的是如何下载别人的bed文件,但是怎么跟SNP进行比对他主要靠眼睛……于是,我通过Google了解到了一个可以做intersect的软件Bedtools,也接触到能够预测Super Enhancer的ROSE。那个时候,每天白天我做各种克隆和胚胎注射实验,晚上我就在实验室给我的Mac上尝试安装这两个软件。谁能想到,只需要几行命令就能安装运行的软件,我花了整整七个晚上去Google各种报错。虽然每次碰到报错很恼火,但是我一直很享受这种“根据问题不断找原因再尝试”的过程,更重要的是,我觉得电脑的报错比我注射死胚胎的代价要小太多太多了。后来,这两个软件产生的几个表格和对增强子的注释也帮助我发表了博士后期间第一篇论文。

02

被逼无奈学生信

因为过度依赖其他课题组产出的数据,让我在美国的研究显得非常被动,而且我们总觉得当时研究的人类遗传病圈子对于斑马鱼这个模式动物并不是非常的认可。“我们总是用人的功能基因组数据在序列一点都不保守的斑马鱼胚胎中进行验证这是我在课题组最困难时对导师提出的质疑。说实话,那段时间我也因为实验室的困境和这种研究的被动,几次准备打包回国做医生。可能导师也是感觉到我的不满,以及巨大的科研经费压力,他有一天突然问我“你觉得到底是什么原因能让我们用斑马鱼去验证人类基因组非编码DNA增强子活性?”我很直接的跟他说“我想自己试试ATAC-seq,我想看看所有在斑马鱼这层上皮组织里有增强子活性的DNA是否有一种'语言规律’,这种规律也许能够直接判断出来你要检测的人类基因组DNA在这个组织里是否也有增强子活性。” 我记得非常清楚,那天谈话的下午,实验室的技术员兼经理就把我叫去,跟我说“这是老板从学校要来的几万美元经费,你试试能不能做出你那个ATAC-seq。”

ATAC-seq,中文名是“利用转座酶研究染色质可进入性的高通量测序技术”,现在是我在国内实验室最常用的研究手段,可以用非常少的细胞检测出细胞内染色质开放区域,并结合其他ChIP-seq结果注释其中的活性增强子区域。但是,在几年前,我美国的那个学校里,我是第一个做ATAC-seq的人。我购置了所有建库的试剂,在摸索了细胞分选和转座酶处理条件后,我利用20000个分选的细胞分别建库并在学校测序中心完成了我人生中第一组ATAC-seq和RNA-seq。我本以为,测序中心会给我漂亮的峰图和处理好的motif,可是等到的结果是十分朴实的fq.gz文件。我还跟个傻逼一样,双击了gz满心欢喜的等了几个小时解压时间,没想到拿到的是解压后的fq文件。当时我脑子里只有“fxxk u”。更让我想笑的是,我老板第二天也兴致冲冲的买了一杯咖啡我,跟着我一起盯着fq发呆。我们花了200刀咨询费找到学校的生信部门,得到的回复只是“RNA-seq你可以试试刚刚发布的Kallisto,但是ATAC-seq,我们从来没有见到过”。想着自己开着的摊子,还有课题组的经费,我主动跟老板请缨自己分析。

为了能够顺利的分析那些fq,本来工资就很低的我自掏腰包买了一台两万多的MBP,还花钱买了Coursera的R python的课程,每天晚上自学到深夜甚至通宵。不过,我心里十分清楚,作为一名初学者,“我所有遇到的问题别人也一定遇见过”,因此在掌握了R和Python的一些基本术语和语法后,我更多的是一边运行程序一边在网上Google我的错误。相比于那些标准课程而言,Google,Stack Overflow,中文的生信技能树论坛(后来是它分支的公众号)以及Y叔的博客(后来是他的公众号)极大的加快了我学习和分析的速度。一个月的时间,在无数次错误和纠正后,我自己建立了一套ATAC-seq测序数据质检分析流程,而这些fq文件也变成了热图、火山图、bedfile以及HOMER的分析结果,我对于R和Python的各种报错也有比较深刻的理解。我老板看着这些图,对我说“每天早上给你的咖啡没白买,这比学校的生信人员实惠多了”。

后来,靠着这些数据,我陆续开展了大量的动物实验, 导师也顺利拿到了两个R01。两年前,我带着斑马鱼的数据回国,一边做医生一边延续没有完成的研究。仍然是一个人,我在学生自习室建立着自己的测序分析平台,顺利完成了小鼠和人相关组织的测序和分析,并最终从机器学习的角度解释了斑马鱼、小鼠和人不同物种相同组织特异增强子DNA序列特征,这种规律也极大的优化了遗传病GWAS相关突变功能验证思路。

03

后记

一个月前,我的这个工作在eLife杂志上正式接收发表。而当初那些每运行一次就要反复改写的ATAC-seq命令也在生信技能树这些公众号推文的启发下逐渐简化成一个个 shell,并最终变成了 Snakemake。我想,如果现在的我回到四年前开始那个项目,或者导师当时再招聘一个有这方面经验的博后,也许这个项目只需要一两年(老鼠和转基因鱼要花时间)也许会到更好的杂志,但是换不来每天早上免费的咖啡,换不来自己那段通宵自学生信的经历,更换不来现在科研和临床工作中那种“发现问题,努力解决问题”的感觉。我想,每个人在求学的道路上都会经历一段需要沉下心来思考学习的日子,经过这段时间的积淀才会上更高的台阶,我很庆幸我将这段日子给了生物信息学。生信给我的感觉是一开始接触时会给我一点“甜头”,而在后来很长一段积累的时间里都不会有很大的起色,必须要坚持很长时间时才会“突然”给人惊喜。

医生,本来就是一个需要终生学习的职业。我本以为博士毕业是我学业的终点,没想到30多岁开始的这段生信经历让我认识到“满级才是学习的开始”。我希望将来的我还能带着这种“敢想敢做”的学习热情,在生信的路上越走越远。

(0)

相关推荐

  • 组蛋白修饰迈入单细胞测序时代 | 单细胞专题

    --单细胞里程碑式的突破:加州大学圣迭戈分校任兵课题组在单细胞层面同时测定转录组和DNA表观遗传修饰水平的新方法突破! 历史的车轮浩浩荡荡向前,永不停息.回首生物学界的这20年,不管是理论还是技术手段 ...

  • Week9

    第9周 2018- 7.16-7.21原文链接:Inherited DNA methylation primes the establishment of accessible chromatin d ...

  • 高通量测序技术极简介绍

    我们在介绍公共数据库的时候,经常会提到RNA-seq.Chip-seq.甲基化芯片等,对于不了解高通量测序的同学而言,不是很清楚这些都具体是什么.这里就很简单,目的性极强的介绍一下. 测序技术分类 高 ...

  • 易基因 | 表观技术:染色质结构构象与DNA互作:ChIP-seq、ATAC-seq - 副本

    表观技术| 染色质结构构象与DNA互作:ChIP-seq.ATAC-seq 大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 关于表观组学测序分析方法,此前已有关于DNA(羟)甲基化.R ...

  • 染色质调控区域的研究: 对CHIP-seq和ATAC-seq发展的深入思考

    摘要 染色质调控区域在许多疾病过程和胚胎发育中起着关键作用.表观基因组测序技术,如染色质免疫共沉淀测序(CHIP-seq)和转座酶开放染色质高通量测序(ATAC-seq),使我们能够通过检测特定的染色 ...

  • Harvard FAS Informatics出品的ATAC

    Harvard FAS Informatics出品的ATAC-seq测序指南 github链接:harvardinformatics/ATAC-seq 参考文献:ATAC-seq: A Method ...

  • 痛风急性发作?看湖北名中医张荒生教授咋用自拟痛风方治愈,收藏【一点资讯】

    这几天天气转凉,再加上国庆节间亲朋团圆聚会,酒肉偏多,二者相结,平时没控制好尿酸的,痛风突然发作的就增多了. 所以,这两天,我想主要把科普的内容放在痛风急性期的中医治疗上. 今天的科普,分享国家第五届 ...

  • 痛风急性发作?湿热痹阻证?看湖北名中医张荒生咋用淡以通阳辩治

    湖北名中医张荒生教授,几十年精炼治痹方药 作为湖北中医药大学博士生导师.国家中医药管理局第五批中老中医药专家学术经验继承工作指导老师.湖北名中医张荒生教授,临床实践几十载,不断探索实践治痹方法,精炼治 ...

  • 师兄和他的生信故事

    又到了一年的毕业季,非常多的小朋友开始咨询我考研或者工作的人生抉择,说老实话,我不是很想回到这样的问题,所以还是分享我自己的亲身经历吧~ 以下是正文,师妹整理的我的故事,谢谢师妹~ 跟健明师兄认识是通 ...

  • 我的生信故事

    Jimmy 一路走来,生信技能树帮助了很多人,今天一起来听听这位朋友的生信故事. 我一直在做基础生物医学研究工作,几个月前因为答辩评委的这一句话,一头扎进了生物信息学的浩瀚海洋,开始了自学之路. 回想 ...

  • 生信故事汇(医科大学博士生学生信)

    ❝ 嗨,大家好,我是小洁.现在你看到的是生信故事汇的新形式,我们将采访一些经历丰富的硕博士,将他们的故事.阅历和经验分享给大家,这是第一篇,讲述的是一所医科大学博士生Dr.6的成长故事. ❞ 1.技能 ...

  • 【测试】20道题,看你有多不了解你的孩子| 文末有福利

    坦诚回答下列问题 有助于您更好地处理与孩子的关系. 1.你孩子最要好的朋友是谁? 2.你孩子最喜爱的老师是谁? 3.你孩子最崇拜什么样的人? 4.你孩子最讨厌什么样的人? 5.你孩子最喜欢哪门课程?最 ...

  • 「特殊视角」我以前怕是看了假的汇丰冠军赛?!(文末有礼)

    世锦赛-汇丰冠军赛上周日以赞德·谢奥菲勒的夺冠结束了,罗斯没有卫冕但收获了全场最高的人气,而其他大咖的表现平平,这点比较可惜.汇丰冠军赛对于中国球迷来说,是一次能最近距离观看世界级球星的机会.每年来上 ...

  • 妙用通便名方麻子仁丸治失眠(参与文末互动得福利)

    小编导读 在仲景经方之中,有一张"麻子仁丸"是行气通便.润肠泻热的经典方.但在近代名医曹颖甫先生的医案中,他治疗失眠患者的时候也选择了麻子仁丸.为什么要选择这张通便方治失眠呢?鲍艳 ...

  • 怀疑非肿瘤生信发不了SCI的朋友,看过来

    有很多人看见肿瘤方向做生信数据挖掘发了很多SCI论文,但是感觉非肿瘤方向发不了.其实,非肿瘤是完全可以发的,今天就分享一篇最新的非肿瘤的纯生信数据挖掘SCI论文,作者研究的是急性心肌梗塞,作者也是挖掘 ...