ChIP-seq基础入门传送门

写在前面

参加了RNA-seq基础入门 的朋友可以先看看 我以前分享过有参组学(全基因组,全外显子组学,转录组学,表观)的几个NGS测序数据分析的表现形式的异同点,主要是各个地方的测序深度,各个地方的覆盖情况的区别!

分析流程都是fastq→bam→vcf/expression/peaks,中间选择不同软件,不同参数而已。 视频在链接: http://pan.baidu.com/s/1jIQFGSA 密码:48uj

本次其实已经有不少人已经完成了,优秀作业如下:

step1:计算机资源的准备

这个跟转录组对计算资源的要求是大同小异的,最好是有mac或者linux系统,8G+的内存,500G的存储即可。

  • 如果你是Windows,那么安装必须安装 git,notepad++,everything,还有虚拟机,在虚拟机里面安装linux,最好是ubuntu。

  • 如果本身就是mac或者linux,那么很简单了,安装好wget,brew吧

需要安装的各种ChIP-seq软件包括 sratoolkit,fastqc,bowtie2,samtools,htseq-count,bedtools,macs2,HOMER,R,Rstudio

软件安装的代码,在生信技能树公众号后台回复老司机即可拿到。

如果呀详细了解计算机配置清单,软件安装等,请查看我们公众号推文

作业1

安装好软件,下载软件的说明书,整理它们的官网链接。

step2:读文章拿到测序数据

本次讲解选取的文章是为了探索PRC1,PCR2这样的蛋白复合物,不是转录因子或者组蛋白的CHIP-seq,请注意区别。

文章题目

RYBP and Cbx7 define specific biological functions of polycomb complexes in mouse embryonic stem cells

https://www.ncbi.nlm.nih.gov/pubmed/23273917

从文章里面找到数据存放地址如下:

数据下载:

  • https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42466

  • ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311

作业2

看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式,把规律和笔记发在论坛上面

step3:了解fastq测序数据

需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件及MultiQC汇总查看测试测序文件的质量!

作业3

理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。

step4:了解参考基因组及基因注释

在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。

作业4

截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。

step5:序列比对

比对软件很多,首先大家去收集一下,因为我们是带大家入门ChIP-seq基础,请统一用bowtie2,并且搞懂它的用法。 再思考一下为什么不同的组学数据有着不同的最佳比对软件。

直接去bowtie2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。

接着用samtools把它转为bam文件,并且排序索引好,考虑一下是否需要去重PCR重复,载入IGV,再截图几个基因看看!

顺便对bam文件进行简单QC,参考直播我的基因组系列。

作业5

把ChIP-seq比对得到的bam跟转录组的bam统一载入IGV,看看各种genomic features上面的reads分布的区别,想一想为什么是这样。

step6:寻找peaks

peaks-calling的软件也不少,如果需要了解原理,请看我前面的推文  这里统一用MACS2软件

作业6

把通过macs2得到的bed格式peaks文件,也载入IGV,跟bam文件进行比较。

step7:peaks注释

得到的bed格式peaks文件只是记录每个peaks的染色体以及起始终止坐标,一般情况下需要看看该peaks在基因组的哪一个区段。
看看它们在各种基因组区域(基因上下游,5,3端UTR,启动子,内含子,外显子,基因间区域,microRNA区域)分布情况,但是一般的peaks都有近万个,所以需要批量注释!

能做CHIP-seq的peaks注释,有R的bioconductor包ChIPpeakAnno,以及chipseeker包,还有HOMER软件,大家都可以用一下。 注释完毕,顺便可视化一下。

作业7

找到R包,并读文档,整理文档和链接,以及文档里面的例子,如何学习一个R包。 比较多种注释的结果的差异。

step8:信号的可视化

因为peaks在基因组的分布是有规律的,如果是集中在TSS附近,就可以画TSS附近的信号强度图,一些人为处理可以改变peaks的分布,同理信号强度也会改变,这个是大家的注意分析结果以及生物学一样。

可以选择NGSPLOT这个R包,或者deeptools这个python软件,个人比较喜欢deeptools

这里可以选择

作业8

得到一些genomic features的信号强度可视化图。

后记

因为本文选择的是PRC1,PCR2这样的蛋白复合物,不是转录因子或者组蛋白的CHIP-seq,所以一般不需要做motif等等。

而且我们文章并没有设计处理前后的IP实验,没有peaks的变化,也不需要找差异结合位点。

(0)

相关推荐