用Expedition来分析单细胞转录组数据的可变剪切

了解我的应该都知道我最近几个月都在奋战一个陌生的领域,单细胞转录组数据处理。真的很有挑战性,笔记累积了一大堆了,但是没有太值得分享的,大多是利用bulk转录组数据处理的经验而已,但是下面这个是单细胞转录组数据独有的,简单分享一下吧。

工具发表于2017,文章是 Single-cell alternative splicing analysis with Expedition reveals splicing dynamics during neuron differentiation  为了展示他们的工具,测了各种细胞,包括 62 iPSCs, 69 NPCs, and 60 MNs 数据库是可以在GSE85908下载 :

  • induced pluripotent stem cells (iPSCs)

  • neural progenitor cells (NPCs)

  • motor neurons(MNs)

软件地址:(http://github.com/YeoLab/Expedition)  其实是一个软件合集,包括下面的3个软件需要分别安装分别使用。

  • (i) outrigger, a de novo splice graph transversal algorithm to detect AS from single cell RNA-seq;

  • (ii) anchor, a Bayesian approach to assign splicing modalities

  • (iii) bonvoyage, using non-negative matrix factorization to visualize modality changes.

当然,主要是第一个软件的运行及解读,后面的两个锦上添花,可以忽略,不影响分析单细胞转录组数据的可变剪切的基本需求。

值得一提的是,该软件只关注mutually exclusive exon (MXE)和skipped exon (SE)这两种 alternative splicing (AS) events !

一、outrigger

软件github地址是:https://github.com/YeoLab/outrigger

软件说明书在:http://yeolab.github.io/outrigger/

可以用conda非常方便的安装

conda config --add channels r
conda config --add channels bioconda
conda create --name outrigger-env outrigger
source activate outrigger-env

使用方法也非常简单,说明书讲解的非常清楚,就三个步骤,针对比对好的bam文件(需要STAR软件比对,才能输出splice junction (SJ.out.tab)文件)

cd ~/projects/tasic2016/analysis/tasic2016_v1
outrigger index --sj-out-tab *SJ.out.tab \
   --gtf /projects/ps-yeolab/genomes/mm10/gencode/m10/gencode.vM10.annotation.gtf
outrigger validate --genome mm10 \
   --fasta /projects/ps-yeolab/genomes/mm10/GRCm38.primary_assembly.genome.fa
outrigger psi

看懂算法需要一点点时间和耐心,https://pypi.python.org/pypi/outrigger, 图文并茂的讲解了。但是作者说这个软件有个很严重的缺点,太耗时间

  • outrigger index: This will run for 24-48 hours.

  • outrigger validate: This will take 2-4 hours.

  • outrigger psi: This will run for 4-8 hours.

起初为了加快软件运行速度,我给定了 --n-jobs 5 多线程,25G的内存,但是内存爆表了,重新分配50G内存,一晚上终于运行完毕了。

得到的结果如下:

outrigger_output/
├── index
│   ├── exon_direction_junction.csv
│   ├── gtf
│   │   ├── gencode.vM12.annotation.gtf
│   │   ├── gencode.vM12.annotation.gtf.db
│   │   └── novel_exons.gtf
│   ├── mxe
│   │   ├── event.bed
│   │   ├── events.csv
│   │   ├── exon1.bed
│   │   ├── exon2.bed
│   │   ├── exon3.bed
│   │   ├── exon4.bed
│   │   ├── intron.bed
│   │   ├── splice_sites.csv
│   │   └── validated
│   │       └── events.csv
│   └── se
│       ├── event.bed
│       ├── events.csv
│       ├── exon1.bed
│       ├── exon2.bed
│       ├── exon3.bed
│       ├── intron.bed
│       ├── splice_sites.csv
│       └── validated
│           └── events.csv
├── junctions
│   ├── metadata.csv
│   └── reads.csv
└── psi
   ├── mxe
   │   ├── psi.csv
   │   └── summary.csv
   ├── outrigger_psi.csv
   ├── outrigger_summary.csv
   └── se
       ├── psi.csv
       └── summary.csv

10 directories, 29 files

二、anchor

软件github地址是:https://github.com/YeoLab/anchor

软件说明书在: https://yeolab.github.io/anchor/

可以用conda非常方便的安装

conda create -n anchor-env pandas scipy numpy matplotlib seaborn
pip install anchor-bio

使用方法也有点诡异,看起来需要进入python的交互界面

import anchor

bm = anchor.BayesianModalities()
modalities = bm.fit_transform(data)

还没看懂干什么的。

三、bonvoyage

软件github地址是: https://github.com/YeoLab/bonvoyage

软件说明书在: http://yeolab.github.io/bonvoyage/

可以用conda非常方便的安装

conda create -n anchor-env pandas numpy matplotlib seaborn scikit-learn
pip install bonvoyage

这个主要是用来可视化上面步骤的anchor推断的可变剪切形式

import bonvoyage

wp = bonvoyage.Waypoints()
waypoints = wp.fit_transform(data)
import bonvoyage

bonvoyage.waypointplot(waypoints)

背景知识

mutually exclusive exon (MXE)skipped exon (SE)这些名词的解释我就不搬运了,但是下面这个原理图还是值得瞧一瞧:

总的来说,你看完这个教程应该是没办法学到什么技巧,只能收藏一下咯,毕竟大部分人根本木有单细胞数据,也没有足够强大的服务器来hold住这样的大数据。

但是,万一,你也正好在做方面的探索,欢迎来信跟我讨论具体细节。

(0)

相关推荐

  • mmdetection最小复刻版(六):FCOS深入可视化分析

    AI编辑:深度眸 0 概要 论文名称:FCOS: A simple and strong anchor-free object detector 论文地址:https://arxiv.org/pdf/ ...

  • 利用单细胞集合做免疫浸润分析

    以前一直用经典的MCP法分免疫浸润 总感觉不好 上篇文章上也写过 这次用肠癌单细胞6万多的细胞的特异性基因,特异性基因我是一个一个看的,我选的标准是logfc大于1,而且如果是肿瘤细胞的特异性基因,那 ...

  • 单细胞工具箱|Cell Ranger-V6.0 开启单细胞之旅(上)

    Cell Ranger是一个10X genomics公司的单细胞分析软件,将原始的fastq文件生成后续分析的feature-barcode表达矩阵.其中包括很多模块,本次主要介绍cellranger ...

  • 霸榜 GitHub:又一款神器面世!

    不论你需要通用目标检测.实例分割.旋转框检测,还是行人检测.人脸检测.车辆检测等垂类算法: 不论是精度效果超强,还是超轻量适合在边缘部署的算法: 不论你是学术科研工作者,还是产业开发者: 不论你是刚入 ...

  • 10X单细胞测序之cellranger介绍

    简介目前10X单细胞测序算是测序行业最热门的方向之一,它可以在低测序深度的情况下一次性的获得成千上万的细胞及其每个细胞内的基因表达情况,对了解细胞异质性和新的细胞类型非常有利.官网介绍的功能和优势如下 ...

  • 综述:目标检测二十年(2001-2021)

    作者丨派派星 来源丨CVHub 编辑丨极市平台 极市导读 目标检测领域发展至今已有二十余载,本文将对目标检测领域近20年的发展做一次系统性的介绍,并为目标检测构建一个完整的知识体系架构. 引言 目标检 ...

  • 用LeafCutter探索转录组数据的可变剪切

    该软件早在2016年就公布了,发表在biorxiv预印本上面,但直到2017年的双11,才发表在NG上面,文章是 : Annotation-free quantification of RNA spl ...

  • 科研 | NC:使用iDEA方法对单细胞转录组数据进行差异表达和基因富集分析

    编译:夕夕,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读 差异表达分析(DE)和基因富集分析(GSE)常用于单细胞转录组研究中.本研究中,作者开发了一种集成且可扩展的方法--iDEA,可通过分 ...

  • 单细胞转录组数据的个性化分析汇总

    都介绍到单细胞转录组数据处理之细胞亚群比例比较部分了,10讲就告一段落了,大家可以回看仔细品读.后面的分析其实都是个性化的了,取决于课题设计,假说,生物学背景知识,而且需要学习大量的R包. 既然是个性 ...

  • 专门分析10x genomic公司的单细胞转录组数据的软件套件

    10x Genomics方法巧妙使用了Barcoding(条形码)和Microfluidics(微流体)技术,在单细胞分离.扩增原理上具有明显的优势,能帮助研究人员实现对细胞群体的划分与细胞群体间基因 ...

  • 10X单细胞转录组数据都分析那么多了,实验过程要不要了解一下

    我的课题只有一个10x样本肿么办? 两个样品的10x单细胞转录组数据分析策略 三个10X单细胞转录组样本CCA整合 多个单细胞转录组样本的数据整合之CCA-Seurat包 在教程:使用seurat3的 ...

  • 比较不同的对单细胞转录组数据聚类的方法

    背景介绍 聚类之前必须要对表达矩阵进行normalization,而且要去除一些批次效应等外部因素.通过对表达矩阵的聚类,可以把细胞群体分成不同的状态,解释为什么会有不同的群体.不过从计算的角度来说, ...

  • 比较不同的对单细胞转录组数据normalization方法

    使用CPM去除文库大小影响 之所以需要normalization,就是因为测序的各个细胞样品的总量不一样,所以测序数据量不一样,就是文库大小不同,这个因素是肯定需要去除.最简单的就是counts pe ...

  • 比较不同的对单细胞转录组数据寻找差异基因的方法

    背景介绍 如果是bulk RNA-seq,那么现在最流行的就是DESeq2 和 edgeR啦,而且有很多经过了RT-qPCR 验证过的真实测序数据可以来评价不同的差异基因算法的表现. 对单细胞测序数据 ...

  • 比较不同单细胞转录组数据寻找features方法

    挑选到的跟feature相关的基因集,有点类似于在某些组间差异表达的基因集,都需要后续功能注释. 背景介绍 单细胞转录组测序的确可以一次性对所有细胞都检测到上千个基因的表达,但是,大多数情况下,只有其 ...