【直播】我的基因组(五):测试数据及参考基因组的准备
我的全基因组数据还没拿到,而且还会推迟,简单说(tu)明(cao)一下原因(还好当初为了避免广告嫌疑一直没说是哪个公司负责测序,反正用的是illumina的hiseqX10这个测序啦,所以可以尽情的吐槽)。
心烦意乱的吐槽线
负责给我测序的乙方公司项目负责人发了邮件给我,希望我回复确认建库,他们才会走下一个流程,但是这封邮件却被我163邮箱拦截为垃圾邮件,耽误了3天(这个事情告诉我们没事还是要看看垃圾邮件的)。但这个不是重点,因为我重新找回邮件查看他们发给我的样本检测报告分析,我的样本是13号收样品,17号就已经检测完并且审核完成了,但是24号才发邮件给我,对方给我的解释是“上周因工作调动,在办理工作交接过程中,不小心把您的邮件漏掉了,因此耽误了整个项目的进度”。这里不得不吐槽一下中国现在的高通量测序市场环境,真的很差,人才流动性太大,已经有不少老师跟我抱怨过在某某公司,一个项目还没做完,项目经理就换了三个!!!
言归正传,我仔细的看了从垃圾邮件中重新找回的样本检测报告分析,因为我实验方面也不是很懂,就简单提了两个问题,他们公司进行了回答:
1
我的样品提取的DNA从量来讲,报告一直强调只够一次建库测序。因为我抽取的是5ml的全血,所以我想问一下,是不是5ml对一个正常人来说,提取到的DNA量,就是level B呢,也就是本应该就只够一次建库测序呢?
答
首先跟您解释一下,您的血液样本本身没有什么问题,对于检测结果等级的判定是根据我们生产流程来的,作为评估后续建库测序的指标,其次,您的血液样本确实是送来5ml,但是我们检测时,根据积累经验一般会取大约足够一次建库的血液样本用于提取和检测,实际还有剩余3次建库的血液样本被保存起来,这样既可以节约样本,也是作为备份。所以单次检测的结果只是单次使用的标准。
2
我看报告里面提到了Nanodrop,Qubit Fluorometer,Agilent 2100 这3个仪器,分别检测浓度,完整度和纯度。但是只有一个电泳图,我不是很明白,其余的结果呢?
答
我们在检测样本时会用到检测报告前面带勾选的仪器和方法,nanodrop只是初步定量结果不显示;Qubit是对样本DNA的精准定量,也就是检测报告中的浓度;利用琼脂糖凝胶电泳比较直观的看样本DNA的完整度,也就是检测报告中展示的电泳图。
单从这个回答上来看,感觉对方公司还是挺专业的!
好了,下面讲一下本次直播的主题吧,下载测试全基因组测序数据跟参考基因组,使用上一次直播下载安装好的软件对我们的参考基因组进行索引,以待后续操作。
因为我的全基因组测序数据不可能公开供大伙来处理学习,所以我们只能选择一组公开数据进行处理。(Jimmy再次啰嗦的说一遍,我们选择的是还算比较新的illumina机器的测序数据(Korean Personal Genome Project中的,该项目共有68个WGS和11个WES,这里统一下载编号为KPGP-00001的样本的数据吧,网址是ftp://ftp.kobic.re.kr/pub/KPGP/2015_release_candidate/WGS/KPGP-00001/,大家在自己的服务器敲这个命令就好了:nohup wget -c -r -nd -np -k -L -p ftp://ftp.kobic.re.kr/pub/KPGP/2015_release_candidate/WGS/KPGP-00001 1>/dev/null 2>&1 & )
我会同步处理这个数据,还有我自己的数据。下载完了之后,用md5文件进行校验一下(该截图是未完全下载的例子,只是想说md5码相同代表下载完全)。
这个对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。
基因组各种版本对应关系:http://www.bio-info-trainee.com/1469.html
下载好的基因组需要构建索引,因为我们会比较bowtie2,hisat2和bwa这3个主流比对软件的区别,所以我们会构建所有的索引,下载完毕后如下大小:
以下是下载参考基因组及比对软件的代码:
下载hg19:
cd ~/reference
mkdir -p genome/hg19 && cd genome/hg19
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa
下载hg38
cd ~/reference
mkdir -p genome/hg38 && cd genome/hg38
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz &
下载的小鼠基因组
cd ~/reference
mkdir -p genome/mm10 && cd genome/mm10
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > mm10.fa
rm chr*.fa
bowtie软件建立索引文件
cd ~/reference
mkdir -p index/bowtie && cd index/bowtie
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/hg19/hg19.fa ~/reference/index/bowtie/hg19 1>hg19.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/hg38/hg38.fa ~/reference/index/bowtie/hg38 1>hg38.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/mm10/mm10.fa ~/reference/index/bowtie/mm10 1>mm10.bowtie_index.log 2>&1 &
bwa软件建立索引文件
cd ~/reference
mkdir -p index/bwa && cd index/bwa
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/hg19 ~/reference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1 &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/hg38 ~/reference/genome/hg38/hg38.fa 1>hg38.bwa_index.log 2>&1 &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/mm10 ~/reference/genome/mm10/mm10.fa 1>mm10.bwa_index.log 2>&1 &
hisat软件建立索引文件
cd ~/reference
mkdir -p index/hisat && cd index/hisat
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grcm38.tar.gz &
tar zxvf hg19.tar.gz
tar zxvf grcm38.tar.gz
tar zxvf hg38.tar.gz
文:Jimmy、吃瓜群众
图文编辑:吃瓜群众