读 Jimmy 前辈的《Chip-seq 实战分析》后感:新司机驾考不完全指南
原文链接:ChIP-seq实战分析
六月初的时候,在 A 家显卡大涨价前,我攒了人生第一台的 PC,在一位 Linux 老司机的推荐下装了Korora(Fedora 的新手友好版),这个distro ,那么崭新的机器,当然要用来学习了。
于是正在发愁如何入生信坑的我默默开始关注生信技能树,寻找可以上手的项目,然后,噔噔噔,就看到了 Jimmy 前辈的这篇实战教程,于是走起 OvO。
要做起来当然要装好各自软件准备好环境嘛,这么一想似乎没问题,但是事实上好像没这么简单。
软件,从哪里下载啊!
下好了放哪儿啊!
怎么运行啊!
以上三问还是好解决的,万能的谷哥和度娘就好,但产生了另一个问题,我应该怎么组织软件们,数据们?要不要加到 PATH 里去?以后更新怎么搞?这个问题在 Jimmy 前辈的代码里找到了一些端倪,于是就照猫画虎咯~
以 bowtie2 为例,在 ENCODE project 的网站上拿到了 2.2.5 的压缩包,折腾许久无法跑起来,于是果断换回了 2.2.4 ,顺利!
对于要用到的比对用 index,如果机器强劲又有参考基因组 fasta ,就可以直接自己build ! 或去 bowtie 的网站上下载做好的 index (只有常见的),这里是小鼠mm10 :
ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip
当然网速坑且机器渣的小伙伴,就只能稍微等一等进度条了。
以及之后的 deeptools 需要用到的一个 python package 是 pyBigWig,它需要 python-devel(在 ubuntu是python-dev),由于机器上装了 python3 和 2.7 ,pip 也有两个版本,颇花了一段时间搞对这个东西,期间科普了一堆 gcc 相关的知识,补上了一些 lib,最后终于搞定。
关于 deeptools ,参见这篇文章:http://www.bio-info-trainee.com/2136.html
看到奇怪的命令就去问问谷哥和度娘,基本都能得到解答!(比如 nohup 和 xargs)
等等等一下,跑起来之前,先搞清楚那些参数是什么个意思啊
比如这个:
第一部分:
用于召唤macs2 的 callpeak 功能 ;
第二部分:
告诉macs2 去哪里找 control ;
第三部分:
谁是要找 peak 的文件
第 n 部分:
一些参数,比如,-m 建立“双峰模型”用到,默认就算10 30,-p p-value 大于 1e-5,-f 文件来源是bam格式,-g 基因组大小是小鼠的(代号mm),-n 起名字的话叫 cbx7 ;
各种参数的选择就是见真章的时候啦,需要多年修行
当然,这…………不需要先自宫。
在选择输出位置时,仔细组织下文件避免混乱。
为了在批量处理文件时不需要手工输入,学会一些 shell 和正则的用法超有用的,比如这里:
(没截全,但循环主体在)
最后终于拿到了 TSS 周围的分布:
这!是!神!么!鬼!
好吧还记得这个操作么:
computeMatrix reference-point -p 10 --referencePoint TSS -b 2000 -a 2000 -S ../*bw -R
~/annotation/CHIPseq/mm10/ucsc.refseq.bed --skipZeros -o tmp4.mat.gz
这里用到的~/annotation/CHIPseq/mm10/ucsc.refseq.bed 是从这里下载的: http://genome.ucsc.edu/cgi-bin/hgTables
(参阅http://www.bio-info-trainee.com/2136.html)
这是下载的页面:
嗯,是的,我坑了自己一把 (又),选成人的基因组了。
于是,重来一遍之后是这样:
虽然还有哪里微妙的不对,但,先睡一觉再说好啦!
这么一圈下来,初窥了一下深渊,发现了更多要学的东西,和更多不清楚的东西,但事情总得开始 ovo
于是收拾好实验台面,整理好文件,感谢Jimmy 前辈的分享,继续读文献逛论坛咯~
(备注:赵小凡,纯新司机,基础医学专业,机器是为了图像处理搭建,bioinfo 入门中)