汇总 | 转录本表达矩阵 到 基因表达矩阵

写在前面

前天,我写了一个 TBtools 插件,意在让所有人都能自主分析转录组测序数据,进而获得 基因表达量矩阵(TPM) 和 基因读段计数矩阵(Count)。已经提过了,TPM 就直接可用,而 Count 矩阵本身可以在网络上找到各类差异表达基因分析平台,上传矩阵就可以做各种差异表达分析。
不过很多人可能还是没意识到,前述的 Kallisto 插件或者流程出来的结果,其实是 转录本水平的表达矩阵 而不是 基因表达矩阵。基于 Kallisto 的算法实现,我们不应该只分析基因的某个或者某几个代表转录本,因为这样可能会影响 Kmer Counts 的正确计算。
而事实上,不少人关注的还是基因水平,而不是转录本水平(取决于实验设计,精度,深度云云)。于是 ,我又写了一个小功能,可以用于汇总 转录本表达矩阵 为 基因表达矩阵 。

Trans Value Sum

想不到一个合适的名字,按照我的习惯,那么所以写一个。

从界面来看,输入文件有二:

  1. 转录本表达矩阵

  2. 转录本归属基因的信息表,格式为“转录本ID 基因ID”,注意,以制表符分隔。

输入输出均支持 文件 或 文本直接输入。为方便演示,下述直接使用文本输入输出模式。示例如下

可以看到,Tran1 和 Tran2 归属于 Gene1 ,于是值被加和,作为Gene1 的表达量。

一切看起来如此顺畅。那么问题可能就出现了。
转录本表达矩阵,我们当然可以轻松获得,但是转录本ID 和 基因ID 的对应关系,怎么搞?

GXF Position Extract

很久很久以前,我已经写过这个功能了。这里使用拟南芥的 GFF3 文件为示例。

只需要输入一个GFF3或者GTF文件,设置两个输出文件路径

点击 Start 可得

于是,在Excel里面或者使用 TBtools 表格工具就可以快速获得对应表格。

写在最后

轻轻松松,半小时写工具,半小时写推文...
今天也算周末,祝大伙科研顺利。
另,最近的推文阅读量似乎明显下载,一直保持在1000+。。。
我还是直白一点吧,该在看的就点在看,该转发的就转发。写着写着没多少人看了,我就不写了。

(0)

相关推荐

  • GEO数据集详细介绍

    昨天我们GEO数据库的检索方式.但是对于里面的每一个数据集内容没有详细的解释,这次呢,我们就来介绍一下每个数据集里面包括哪些内容. 这次我们用GSE79973数据集进行介绍.(https://www. ...

  • 一个基因有两个id我能肿么办

    有学员提问, 为什么他看到了一个基因,如下所示,居然有两个id,看起来就非常的诡异,让他百思不得其解. 一个基因有两个id 其实这个基因首先是有一个基因名字,是 MATR3 ,是人类基因命名委员会给出 ...

  • 去除细胞效应和基因效应

    前面我们一起学习了单细胞转录组数据的上游分析,而且了解了自己的项目的样本数量和测序量,还过滤了不合格的细胞和基因, 教程目录如下: 上游分析流程 课题多少个样品,测序数据量如何 过滤不合格细胞和基因( ...

  • 在R语言里面,把一个矩阵除以向量会发生什么

    在做表达矩阵的counts值作为RPKM的时候发现的这个知识点细节问题, 因为矩阵需要每一个样本除以它各自的文库大小,然后呢,每个基因又需要除以各自的基因长度. 所以呢,我们的表达矩阵,其实是需要除以 ...

  • 多个探针对应同一个基因到底该如何取舍

    前些天我发现了乳腺癌领域的PAM50算法原理探索,在:PAM50的概念及分子分型算法原理 ,其实并不难,然后我注意到他们在 挑选50个基因的时候,提到了多个探针对应同一个基因到底该如何取舍 原文是:F ...

  • 转录组入门(mac 版本)

    软件安装 安装bioconda: 去官网下载和自己电脑系统一样的版本 https://conda.io/miniconda.html 下载完后,双击解压,然后cd 到文件目录,开始安装. # 安装 b ...

  • 你的ID转换错啦

    最近学员群又有人问到了 Agilent-012391 Whole Human Genome Oligo Microarray G4112A 这样的芯片数据,我让学生打包数据成为rdata发给我,我检查 ...

  • 对featureCounts来源的表达矩阵使用DEXSeq分析可变剪切

    featureCounts我们粉丝都耳熟能详了,我们转录组流程介绍的对比对后的bam文件基于基因注释文件定量的首选软件,用法非常简单,关键是速度飞快,吊打htseq-counts几条街,而用DEXSe ...

  • Jacobian矩阵和Hessian矩阵

    作者:Jacobian 链接: http://jacoxu.com/jacobian%E7%9F%A9%E9%98%B5%E5%92%8Chessian%E7%9F%A9%E9%98%B5/ 编辑:石 ...

  • 基础矩阵,本质矩阵,单应性矩阵讲解

    最近公众号组织了ORB-SLAM2理论与代码的学习会,正常进行中,有兴趣的可以积极参与第三期:一起来学SLAM 其中ORB-SLAM点云地图中相机的位姿初始化,无论算法工作在平面场景,还是非平面场景下 ...

  • 基因的counts矩阵转换为RPKM矩阵

    为什么要做这个计算 大家都知道在真核生物里面,一个基因有多个转录本,每个转录组又是由不同的外显子组合而成,以前老旧的RNA-seq分析流程比较喜欢用RPKM值来量化表达量.大家很容易可以搜索到RPKM ...

  • 长矩阵变成宽矩阵-数据不整齐肿么办

    如果是简单的转换问题,我们的生信技能树: 生信编程直播第四题:多个同样的行列式文件合并起来 里面详细讲解了这个操作:http://www.biotrainee.com/thread-603-1-1.h ...

  • Day 488 情景交际希腊语 | 一首歌汇总时间表达方式

    您好! Καλώς ήρθατε! 欢迎来到"希游记朗读营". 让我们静下 来学习希腊语. 在希游记之旅上你我结伴同行. Πάμε!

  • 网络其实就是一张矩阵-ggplot可视化矩阵(热图)

    ggplot可视化矩阵 可视化谱图案例 library(dplyr) library(ggplot2) # The most common use for rectangles is to draw ...

  • 福彩快乐8选十型14(8,7)矩阵,相同矩阵买不同玩法有巨大差异

    福彩快乐8有10种玩法,一共39种奖级,是目前彩票游戏中奖级最多,容错率最高,也是中奖最容易的游戏,受到了越来越多彩民的青睐.其中选十玩法奖金最高,中10个号码最高可中500万,完全不输双色球和大乐透 ...

  • 15类英语连接词最全汇总,表达逻辑更清晰

    背英语单词 英语单词轻松背 10篇原创内容 公众号 善用连接词,能让你的口语和写作更具逻辑性,条理更清晰,今天整理分享15类英语连接词,超级全. 1. 表示强调 still 然而,仍然 indeed ...

  • 【学术论文】一种极低IO带宽需求的大维度矩阵链式矩阵乘法器设计

    摘要: 大维度矩阵乘法常采用子矩阵分块法实现,子矩阵的最大规模决定了整个矩阵乘法执行速度.针对经典脉动结构直接处理的矩阵规模受IO带宽限制严重的问题,提出了一种极低IO带宽需求的大维度矩阵链式乘法器结 ...