明码标价之RNA-Seq数据的内含子保留分析

2024-08-05 00:08:20

前面我们的明码标价之普通转录组上游分析，受到了各大热心粉丝的吐槽，觉得太简单了我们居然还好意思收费。后面我就就加上了稍微有一点难度的《可变剪切》，不过仍然是阻挡不了粉丝无穷无尽的需求，后台有人发给我一个RNA-Seq数据的内含子保留分析需求。

我看了看粉丝发过来的文章，发表于 January 2021, 在CELL杂志的文章《Spliceosome-targeted therapies trigger an antiviral immune response in triple-negative breast cancer》，链接是：https://doi.org/10.1016/j.cell.2020.12.031

这个文章数据比较多：

SUM159 SD6 RNA-Seq #GSE163414 LM2 SD6 RNA-Seq #GSE163411 SUM159 Cytoplasmic RNA-Seq #GSE163232 SUM159 J2 dsRIPseq #GSE163188 Syngeneic model RNA-Seq #GSE163181

可以看到，主要是RNA-Seq数据啦，有两个是普通的细胞系处理前后的表达量差异情况探索，所以出图如下：

表达量差异情况探索标准图表

这个已经是超级简单了，我们的明码标价之转录组常规测序服务（仅需799每个样品）和明码标价之普通转录组上游分析就是对这样的 RNA-Seq拿到了表达量矩阵，然后下游分析也是平淡无奇，仅收费800，代码呢，我也多次分享了，基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可；

这样的分析流程基本上绝大部分粉丝已经是无需委托我们啦，所以粉丝发给我的是 RNA-Seq数据的内含子保留分析需求，步骤如下：

Hisat2-aligned reads were filtered for proper-paired reads (-f 2 flag in SAMtools).
Intron annotations were parsed from UCSC RefSeq gene annotation files and were filtered to exclude features that overlap genomic loci on the same strand.
Reads mapping to introns were counted using Pysam.
For each intron feature, we defined the following two read classes:

(1) ''intronic’’ reads mapping at least 6 bases contiguously within the intron
(2) ''spanning’’ reads with ends mapping to the flanking exons.

The intron retention (IR) score was then computed as the ratio of the RPKM-normalized ''intronic’’ read density over the RPKM-normalized ''spanning’’ read den- sity.
In order to compare commonly expressed IR events across samples, introns with < 10 spanning RPKM in any sample were excluded from all analyses.

对我们有ngs组学数据分析经验的人来说，其实并不难，无非就是安装几个软件，使用几个包。但对于没有学过编程的纯生物学研究者来说基本上不可能完成，也没有这样的网页工具。

但是呢，这个流程又确实是过于个性化，哪怕对我们来说很简单，也其实是耗费时间和精力需要研发调试的。

首先你需要有RNA-seq的fastq文件

如果是TCGA数据库，步骤如下：

Intron retention analysis was performed on BRCA TCGA RNA sequencing datasets (Koboldt et al., 2012).
TCGA fastq reads were mapped using the STAR aligner (v2.3.1) (Dobin et al., 2013) onto the hg19/GRCh37 reference genome as previously described (Hsu et al., 2015).
Level of intron retention (IR level) within each sample was calculated as the number of introns with IR scores > 0.01, as defined previously.
''High’’ and ''Low’’ IR were defined as having an IR level outside one standard deviation of the mean.
RSEM normalized gene expression data from TCGA was obtained from the Broad GDAC Firehose.

一般来说，大家是很难下载TCGA数据库原始fastq文件，这个权限审核比较严厉，不过咱们数据挖掘呢完全没有毕业一直盯着TCGA数据库啊，自己领域的普通RNA-seq肯定也是不少。如果是认真搞科研，你一定会自行调研和阅读文献，找到合适的数据集。

数据挖掘的核心就是通过分类把基因数量搞少

部分粉丝看到这里，可能无法理解RNA-Seq数据的内含子保留分析的意义是什么？

其实就是多了一个维度的指标，来把你的样本分类，分类后就可以找差异。同样的我们可以看这个示例文章，感觉每个样品的IR指标，把病人分成IR高低两个组别，然后走普通的ssGSEA分析，生存分析。

这一套组合拳，大家是不是很眼熟啊？

如果你也想做自己的的RNA-Seq数据的内含子保留分析，赶快联系我们吧。（在公众号留言或者后台联系我们均可）

同样的，我们的分析仍然是明码标价，单个RNA-Seq数据的内含子保留分析收费仅需800元，因为是纯粹的基于Linux平台的各种软件脚本，所以提供你全套数据和脚本但是无法保证你能运行成功，因为你不一定有自己的服务器。

文末友情推荐

肿瘤miRNA靶点预测数据库

miRNA作为ncRNA的一类.其主要发挥功能的主要方式是通过和基因形成双向互补链进而来影响基因的表达.因此通过miRNA和基因序列是否互补就可以遇到miRNA可能的靶基因了.这个基本上就是经典的预测 ...
可变剪切新模式：外显子内含子剪切

关于可变剪切,简单而言就是,一个基因从DNA-mRNA的过程当中,由于剪切位点的不同,会形成不同的mRNA剪切变异体.对于可变剪切模式,之前的介绍TCGA SpliceSeq数据库的时候提到了数据库当 ...
科研│PLANT J: 全球转录组分析揭示了拟南芥剪接事件的昼夜节律控制

编译:微科盟 Nicole,编辑:微科盟景行.江舜尧. 原创微文,欢迎转发转载. 导读拟南芥的昼夜节律控制着许多生理和分子过程,使植物能够预测其环境的每日变化.然而,mRNA水平变化如何与共转录/转 ...
如何筛选单基因进行诊断发3+分

Potential Prognostic and Diagnostic Values of CDC6, CDC45, ORC6 and SNHG7 in Colorectal CancerCDC6.C ...
简单易学5分+单细胞挖掘套路！

Integrated analysis of single‑cell RNA‑seq and bulk RNA‑seq unravels tumour heterogeneity plus M2‑li ...
为什么他就发3+分我就被拒？因为他标题上有机器学习吗？

Identification of a Sixteen-gene Prognostic Biomarker for Lung Adenocarcinoma Using a Machine Learni ...
转录组学习二（数据下载）

转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ...
明码标价之转录组测序数据的可变剪切

前面我们的明码标价之普通转录组上游分析,受到了各大热心粉丝的吐槽,觉得太简单了我们居然还好意思收费. 额,其实呢,这些粉丝应该是"饱汉不知饿汉饥",其实数据分析这个技能啊,难者不会 ...
明码标价之10X转录组原始测序数据的cellranger流程

冷知识:其实一个10X单细胞转录组样品可以有多达84个fastq文件哦! 我们在单细胞天地多次分享过cellranger流程的笔记,大家可以自行前往学习,如下: 单细胞实战(一)数据下载单细胞实战( ...
明码标价之10X技术单细胞（2.5万每个）（标准100G测序数据）

单细胞转录市场活动 for NGS, we only do RNA-seq forever! 活动背景前两年在生信技能树平台的帮助下,我们开展了多期生物信息学培训班.合作了很多RNAseq相关的NG ...
明码标价之WES等DNA测序数据找变异

最近有粉丝在我们<生信技能树>公众号后台付费求助,想重新分析一下某肿瘤队列文献的数据,需要下载几个T的fq数据走比对流程,然后找SNV和CNV等变异. 因为他的课题是保密的,我这里不方便提 ...
不谈标准吹算力就是耍流氓，芯片算力必须“明码标价”

今年四月,黑芝麻正式发布FAD EdgeFAD Edge自动驾驶计算芯片.山海人工智能开发工具平台以及面向车路协同的路侧感知计算平台 FAD Edge . A1000 Pro 的最高的 INT4 算力 ...
真正的强者，从不埋头苦干，而是从这3个方面给自己“明码标价”

真正的强者,从不埋头苦干,而是从这3个方面给自己"明码标价" 前段时间,有一个读者朋友给我发来私信,给我吐槽了她自己亲身经历的事情.听了她的故事以后,小编我深有感触,所以,写下这篇 ...
500元2小时，明码标价暗示“服务”，大打“擦边球”，陌陌变味了

在这些年,很多互联网创业公司崛起,除了BAT之外比较出名的就是以滴滴美团为代表的TMD,他们迅速成长为新一代小巨头. 而值得一提的是美团.滴滴.以及京东.拼多多的背后,都有着腾讯的投资,作为拥有月活超 ...
四川成都顾客在海鲜酒楼用餐后，被收62元加工费，老板：明码标价

四川成都的陈先生,五一期间和家人到犀浦的一家海鲜酒楼吃饭,结账时候发现多了62元的加工费.陈先生以为是店家收错钱了,结果老板却说:这是明码标价.遇到霸王餐厅了?该怎么办? 这是怎么回事呢? 原来啊,当 ...
教育部明码标价，谈人生从初中开始

为什么我们必须接受教育?因为人类必须一代强似一代,至少我们不能被文明社会淘汰.比如不会用电脑的人,不会开车的人,被称作"现代文盲". 现在,学历歧视十分严重,原因是垃圾大学太多了, ...

明码标价之RNA-Seq数据的内含子保留分析

首先你需要有RNA-seq的fastq文件

数据挖掘的核心就是通过分类把基因数量搞少

相关推荐