生物信息学入门使用 RNAseq counts数据进行差异表达分析（DEG）

2024-06-25 11:21:38

差异表达分析通常作为根据基因表达矩阵进行生物信息学分析的第一步，有助于我们观察基因在不同样本中的表达差异，从而确定要研究的基因和表型之间的联系。常用的基因表达数据来自基因芯片或高通量测序。虽然矩阵看起来差不多，但是由于服从不同的分布，因此在进行差异表达的时候需要用不同的方法。对于一般的生命科学领域科研人员来说，了解晦涩的算法并没有太大价值。本文力求精简，从数据——算法——结果三个方面给出最简单的示范。注意：文中代码仅适用于RNAseq的counts数据！使用的是edgeR算法！

1.数据准备

数据准备包括表达矩阵和分组矩阵。

表达矩阵：

分组矩阵：

第一列为样本名称，第二列为组名称，注意每一列都要有列名

2. 使用edgeR包进行差异分析

首先要安装edgeR包和gplots包

source("http://bioconductor.org/biocLite.R")biocLite("edgeR")biocLite("gplots")

读取数据

library("edgeR")library('gplots')setwd("C:/Users/lenovo/Desktop/sample")foldChange=1 #fold change=1意思是差异是两倍padj=0.05#padj=0.05意思是矫正后P值小于0.05rt=read.csv("fpkm.csv",header=TRUE,row.names=1,check.names = FALSE)#读取矩阵文件，这是输入的数据路径，改成自己的文件名#exp=as.matrix(rt) #转化为矩阵#dimnames=list(rownames(exp),colnames(exp))data=matrix(as.numeric(as.matrix(exp)),nrow=nrow(exp),dimnames=dimnames)#15,16行意思是将带引号的数据转换成数值#data=data[rowMeans(data)>1,] #去除低表达的数据#

读取分组矩阵

group <- read.csv("datTraits.csv",header=TRUE,row.names=1,check.names = FALSE)group <- group[,1] #定义比较组，按照癌症和正常样品数目修改#design <- model.matrix(~group) #把group设置成一个model matrix#

计算步骤

y <- DGEList(counts=data,group=group) #group哪些是正常，哪些是癌症样本，让edgeR可以识别#y <- calcNormFactors(y) #对因子矫正#y <- estimateCommonDisp(y)#25,26估计变异系数，即估计方差；估计内部差异程度，看组间差异是否比内部差异大，如果大，可选为差异基因#y <- estimateTagwiseDisp(y)et <- exactTest(y,pair = c("healthy","T2D"))topTags(et) #预览结果summary(de <- decideTestsDGE(et))  #结果的统计信息，基于FDRordered_tags <- topTags(et, n=100000)allDiff=ordered_tags$tableallDiff=allDiff[is.na(allDiff$FDR)==FALSE,]diff=allDiffnewData=y$pseudo.counts

输出结果

write.csv(diff, "edgerOut.csv")diffSig = diff[(diff$FDR < padj & (diff$logFC>foldChange | diff$logFC<(-foldChange))),]#筛选有显著差异的##write.table(diffSig, file="diffSig.xls",sep="\t",quote=F)#输出有显著差异表达的到diffSig这个文件#write.csv(diffSig, "diffSig.csv")diffUp = diff[(diff$FDR < padj & (diff$logFC>foldChange)),]#foldchange>0是上调，foldchange<0是下调##write.table(diffUp, file="up.xls",sep="\t",quote=F)#39-42把上调和下调分别输入up和down两个文件#write.csv(diffUp, "diffUp.csv")diffDown = diff[(diff$FDR < padj & (diff$logFC<(-foldChange))),]#write.table(diffDown, file="down.xls",sep="\t",quote=F)write.csv(diffDown, "diffDown.csv")

差异表达矩阵制作教程：https://blog.csdn.net/tuanzide5233/article/details/83659768

差异表达的热图绘制详见：https://blog.csdn.net/tuanzide5233/article/details/83659501

使用limma包对基因芯片数据进行差异表达分析教程：https://blog.csdn.net/tuanzide5233/article/details/83541443

GEO芯片数据差异表达分析时需要log2处理的原因：https://blog.csdn.net/tuanzide5233/article/details/88542805

GEO芯片数据差异表达分析时是否需要log2以及标准化的问题：https://blog.csdn.net/tuanzide5233/article/details/88542558

试一下我的差异分析软件

我本身是不喜欢把差异分析这种需求包装成软件的,甚至它都算不上软件.当然,我也很不太喜欢写软件(需要考虑太多的用户意外),不过,总有一天我还是得面对.为什么让大家试一下我的 `差异分析软件` ,其实是想 ...
居然可以把rpkm这样的归一化并且带小数点的转录组表达量矩阵直接取整

rm(list = ls()) ## 魔幻操作,一键清空~ options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为 ...
插件 | 点点点，基因差异表达分析~几分钟就掌握了

于是,TBtools - RNAseq 全家桶到位! 写在前面很久很久以前,TBtools 解决了 RNAseq 数据分析中几个常见问题: 基因功能注释,NR,SWISSPROT,GO注释等基因集 ...
转录组学习七（差异基因分析）

任务载入表达矩阵,然后设置好分组信息用DEseq2进行差异分析,也可以走走edgeR或者limma的voom流程基本任务是得到差异分析结果,进阶任务是比较多个差异分析结果的异同点. 了解差异基因 ...
【后续来了】有了这个包，猪的GSEA和GSVA分析也不在话下（第二集）

书接上文,gsva后续的处理很简单,如果熟悉差异基因分析包limma的话,更是简单.之前我们得到的gsva分数的矩阵就类似于基因表达矩阵,按照这个思路继续往下即可: 从通路的表达矩阵开始,我们进行差异 ...
limma和edgeR对RNA-seq表达矩阵差异分析的区别

前面我们在生信技能树系统性介绍了大量RNA-seq相关背景知识,以及表达矩阵分析的一般流程 RNA-seq这十年(3万字长文综述) RNA-seq的counts值,RPM, RPKM, FPKM, T ...
转录组差异表达分析和火山图可视化

利用R包DEseq2进行差异表达分析和可视化 count数矩阵差异分析 1. 安装并载入R包 2. count数矩阵导入并对矩阵进行数据处理 3. 查看样本相关性并采用热图展示 4. hclust对 ...
Power Pivot入门前奏：数据透视——各种分析角度，想咋看就咋看

小勤:数据透视表真是好用,但是,现在好像都只能从一个角度分析,要多个角度交叉分析怎么办?上次刁总就提到了对比各地区不同品类的毛利情况,这样就能看出各区域品类的毛利对比情况. 大海:你刚试了将某个分析角 ...
科研 | NC：使用iDEA方法对单细胞转录组数据进行差异表达和基因富集分析

编译:夕夕,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读差异表达分析(DE)和基因富集分析(GSE)常用于单细胞转录组研究中.本研究中,作者开发了一种集成且可扩展的方法--iDEA,可通过分 ...
RNA-seq(7): DEseq2筛选差异表达基因并注释(bioMart)

============================================ 写在前面:可以参考另外一篇<得到差异基因后怎么做?> ====================== ...
直播！R语言入门和ggplot2科研数据可视化入门分享！就在今晚，欢迎大家参加呀！

会议时间:2021/03/17 19:30-21:30 (GMT+08:00) 点击链接入会,或添加至会议列表:https://meeting.tencent.com/s/H9goXk0EWnqO 会 ...
Conquer-对单细胞数据差异表达分析的重新审视

随着单细胞测序技术的流行,我们对复杂疾病和性状的理解从patient,tissue的表达谱(bulk RNA-seq)到单个细胞的表达谱(single cell RNA-seq).究其原因,在于bul ...
改造IGV - 基于RNAseq测序数据 - 人工进行基因结构注释矫正

写在前面课题组目前做一些基因组相关工作.了解基因组的朋友应该明白,基因结构注释错误几乎遍布所有基因组,包括我们目前看到的大多数即使是发表在顶级期刊的工作.生物是复杂的,而算法是存在局限的.所以人工矫 ...
写作新手入门难？大数据告诉你写作大师们的套路

"零基础写作,年入20万"."空闲时间写作,月入10万"."每天30分钟,21天靠写作月入5万"-- 现在打开微信,我们总看到很多吸引大家去 ...
VBA入门教程：获得数据区的最大行最大列

● 本技巧的目的:定位到指定行或者列中的最后一个非空单元格. ● 这个技巧非常重要,在 Excel 操作中是否经常会遇到这样的情景,需要把单元格快速移动到本行或者本列的最后一个有数据的单元格呢?在 ...
DEApp | RNA-seq差异表达分析工具

在之前介绍[[RNA-seq相关内容介绍]]的视频当中,作者提到了一个用来分析 RNA-seq 差异表达分析的工具.DEApp: https://yanli.shinyapps.io/DEApp/ . ...

生物信息学入门 使用 RNAseq counts数据进行差异表达分析（DEG）

相关推荐

生物信息学入门使用 RNAseq counts数据进行差异表达分析（DEG）