ChIP-seq基础入门传送门
写在前面
参加了RNA-seq基础入门 的朋友可以先看看 我以前分享过有参组学(全基因组,全外显子组学,转录组学,表观)的几个NGS测序数据分析的表现形式的异同点,主要是各个地方的测序深度,各个地方的覆盖情况的区别!
分析流程都是fastq→bam→vcf/expression/peaks,中间选择不同软件,不同参数而已。 视频在链接: http://pan.baidu.com/s/1jIQFGSA 密码:48uj
本次其实已经有不少人已经完成了,优秀作业如下:
step1:计算机资源的准备
这个跟转录组对计算资源的要求是大同小异的,最好是有mac或者linux系统,8G+的内存,500G的存储即可。
如果你是Windows,那么安装必须安装 git,notepad++,everything,还有虚拟机,在虚拟机里面安装linux,最好是ubuntu。
如果本身就是mac或者linux,那么很简单了,安装好wget,brew吧
需要安装的各种ChIP-seq软件包括 sratoolkit,fastqc,bowtie2,samtools,htseq-count,bedtools,macs2,HOMER,R,Rstudio
软件安装的代码,在生信技能树公众号后台回复老司机即可拿到。
如果呀详细了解计算机配置清单,软件安装等,请查看我们公众号推文
作业1
安装好软件,下载软件的说明书,整理它们的官网链接。
step2:读文章拿到测序数据
本次讲解选取的文章是为了探索PRC1,PCR2这样的蛋白复合物,不是转录因子或者组蛋白的CHIP-seq,请注意区别。
文章题目
RYBP and Cbx7 define specific biological functions of polycomb complexes in mouse embryonic stem cells
https://www.ncbi.nlm.nih.gov/pubmed/23273917
从文章里面找到数据存放地址如下:
数据下载:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42466
ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311
作业2
看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式,把规律和笔记发在论坛上面
step3:了解fastq测序数据
需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件及MultiQC汇总查看测试测序文件的质量!
作业3
理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。
step4:了解参考基因组及基因注释
在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
作业4
截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。
step5:序列比对
比对软件很多,首先大家去收集一下,因为我们是带大家入门ChIP-seq基础,请统一用bowtie2,并且搞懂它的用法。 再思考一下为什么不同的组学数据有着不同的最佳比对软件。
直接去bowtie2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。
接着用samtools把它转为bam文件,并且排序索引好,考虑一下是否需要去重PCR重复,载入IGV,再截图几个基因看看!
顺便对bam文件进行简单QC,参考直播我的基因组系列。
作业5
把ChIP-seq比对得到的bam跟转录组的bam统一载入IGV,看看各种genomic features上面的reads分布的区别,想一想为什么是这样。
step6:寻找peaks
peaks-calling的软件也不少,如果需要了解原理,请看我前面的推文 这里统一用MACS2软件
作业6
把通过macs2得到的bed格式peaks文件,也载入IGV,跟bam文件进行比较。
step7:peaks注释
得到的bed格式peaks文件只是记录每个peaks的染色体以及起始终止坐标,一般情况下需要看看该peaks在基因组的哪一个区段。
看看它们在各种基因组区域(基因上下游,5,3端UTR,启动子,内含子,外显子,基因间区域,microRNA区域)分布情况,但是一般的peaks都有近万个,所以需要批量注释!
能做CHIP-seq的peaks注释,有R的bioconductor包ChIPpeakAnno,以及chipseeker包,还有HOMER软件,大家都可以用一下。 注释完毕,顺便可视化一下。
作业7
找到R包,并读文档,整理文档和链接,以及文档里面的例子,如何学习一个R包。 比较多种注释的结果的差异。
step8:信号的可视化
因为peaks在基因组的分布是有规律的,如果是集中在TSS附近,就可以画TSS附近的信号强度图,一些人为处理可以改变peaks的分布,同理信号强度也会改变,这个是大家的注意分析结果以及生物学一样。
可以选择NGSPLOT这个R包,或者deeptools这个python软件,个人比较喜欢deeptools
这里可以选择
作业8
得到一些genomic features的信号强度可视化图。
后记
因为本文选择的是PRC1,PCR2这样的蛋白复合物,不是转录因子或者组蛋白的CHIP-seq,所以一般不需要做motif等等。
而且我们文章并没有设计处理前后的IP实验,没有peaks的变化,也不需要找差异结合位点。