读 Jimmy 前辈的《Chip-seq 实战分析》后感:新司机驾考不完全指南

原文链接:ChIP-seq实战分析

六月初的时候,在 A 家显卡大涨价前,我攒了人生第一台的 PC,在一位 Linux 老司机的推荐下装了Korora(Fedora 的新手友好版),这个distro ,那么崭新的机器,当然要用来学习了。

于是正在发愁如何入生信坑的我默默开始关注生信技能树,寻找可以上手的项目,然后,噔噔噔,就看到了 Jimmy 前辈的这篇实战教程,于是走起 OvO。

Step 1:装软件和准备原材料

要做起来当然要装好各自软件准备好环境嘛,这么一想似乎没问题,但是事实上好像没这么简单。

软件,从哪里下载啊!

下好了放哪儿啊!

怎么运行啊!

以上三问还是好解决的,万能的谷哥和度娘就好,但产生了另一个问题,我应该怎么组织软件们,数据们?要不要加到 PATH 里去?以后更新怎么搞?这个问题在 Jimmy 前辈的代码里找到了一些端倪,于是就照猫画虎咯~

以 bowtie2 为例,在 ENCODE project 的网站上拿到了 2.2.5 的压缩包,折腾许久无法跑起来,于是果断换回了 2.2.4 ,顺利!

对于要用到的比对用 index,如果机器强劲又有参考基因组 fasta ,就可以直接自己build ! 或去 bowtie 的网站上下载做好的 index (只有常见的),这里是小鼠mm10 :

ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip

当然网速坑且机器渣的小伙伴,就只能稍微等一等进度条了。

以及之后的 deeptools 需要用到的一个 python package 是 pyBigWig,它需要 python-devel(在 ubuntu是python-dev),由于机器上装了 python3 和 2.7 ,pip 也有两个版本,颇花了一段时间搞对这个东西,期间科普了一堆 gcc 相关的知识,补上了一些 lib,最后终于搞定。

关于 deeptools ,参见这篇文章:http://www.bio-info-trainee.com/2136.html

看到奇怪的命令就去问问谷哥和度娘,基本都能得到解答!(比如 nohup 和 xargs)

Step 2:跑起来! 

等等等一下,跑起来之前,先搞清楚那些参数是什么个意思啊

比如这个:

第一部分:

用于召唤macs2 的 callpeak 功能 ;

第二部分:

告诉macs2 去哪里找 control ;

第三部分:

谁是要找 peak 的文件

第 n 部分:

一些参数,比如,-m 建立“双峰模型”用到,默认就算10 30,-p p-value 大于 1e-5,-f 文件来源是bam格式,-g 基因组大小是小鼠的(代号mm),-n 起名字的话叫 cbx7 ;

各种参数的选择就是见真章的时候啦,需要多年修行

当然,这…………不需要先自宫。

在选择输出位置时,仔细组织下文件避免混乱。

为了在批量处理文件时不需要手工输入,学会一些 shell 和正则的用法超有用的,比如这里:

(没截全,但循环主体在)

Step 3:见证奇迹的时刻 

最后终于拿到了 TSS 周围的分布:

这!是!神!么!鬼!

好吧还记得这个操作么:

  1. computeMatrix reference-point -p 10 --referencePoint TSS -b 2000 -a 2000 -S ../*bw -R

  2. ~/annotation/CHIPseq/mm10/ucsc.refseq.bed --skipZeros -o tmp4.mat.gz

这里用到的~/annotation/CHIPseq/mm10/ucsc.refseq.bed 是从这里下载的: http://genome.ucsc.edu/cgi-bin/hgTables

(参阅http://www.bio-info-trainee.com/2136.html)

这是下载的页面:

嗯,是的,我坑了自己一把 (又),选成人的基因组了。

于是,重来一遍之后是这样:

虽然还有哪里微妙的不对,但,先睡一觉再说好啦!

step 4:之后的事情

这么一圈下来,初窥了一下深渊,发现了更多要学的东西,和更多不清楚的东西,但事情总得开始 ovo

于是收拾好实验台面,整理好文件,感谢Jimmy 前辈的分享,继续读文献逛论坛咯~

(备注:赵小凡,纯新司机,基础医学专业,机器是为了图像处理搭建,bioinfo 入门中)

(0)

相关推荐