认识免疫组库测序数据

前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。
已经预告了有一个免疫组库的实战,现在终于有时间来带领大家搞定它。
  • 来自于文章;https://www.tandfonline.com/doi/full/10.1080/2162402X.2019.1644110
  • 数据:https://www.ncbi.nlm.nih.gov/bioproject/PRJEB33490
首先研读文献,并且找到其测序数据文件存放的数据库,并且成功下载到!
完成这个数据下载,需要熟悉GEO和SRA数据库,参考:
下载得到的fastq.gz 文件,如下所示:
7.8M May 23 09:43 ERR3445007_1.fastq.gz
    11M May 23 09:43 ERR3445007_2.fastq.gz
   9.8M May 23 09:43 ERR3445008_1.fastq.gz
    14M May 23 09:43 ERR3445008_2.fastq.gz
   7.0M May 23 09:44 ERR3445009_1.fastq.gz
    10M May 23 09:44 ERR3445009_2.fastq.gz
   7.2M May 23 09:44 ERR3445010_1.fastq.gz
   9.3M May 23 09:44 ERR3445010_2.fastq.gz
我们简单的批量走一下fastqc软件质控:
ls raw/*gz|xargs fastqc -t 6 -o qc/
因为数据量都很小,所以几分钟就ok啦。那我们随机挑选一个样本的fastqc报告看看吧:
首先看summary表格
如下:
summary表格
可以看到,单独的免疫组库样本测序数据库很小,还不到10万条序列,跟10X的单细胞有的一拼哦,正常人类的转录组都是20~50M的。。。
而且这个测序程度高达300,那就是miseq测序仪啦。
reads的每个碱基位置的测序质量分布
reads的长度是300bp,所以横坐标是1到300,纵坐标是碱基质量值,通常是20或者30以上比较好。如下:
reads的每个碱基位置的测序质量分布
可以看到, 随着reads的碱基数量增加,后面的碱基测序质量越来越差,符合测序仪的实际情况。。。。
末端那些质量差的碱基,在我们的测序数据质控阶段,会控制软件和参数去除掉它们的哈。
每个碱基位置的GC含量分布
reads的长度是300bp,所以横坐标是1到300,GC含量如果是全基因组测序,那么应该是一条线。但是这个免疫组库测序,下面图虽然说被fastqc软件判定为不合格,但实际上对免疫组库测序来说,是合格的哈。如下:
每个碱基位置的GC含量分布
有非常多的重复序列
这个其实你自己从IMGT数据库下载免疫组库相关fasta序列,探索一下就明白了。因为本来测序的就是BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。这些不同的V基因其实很类似,J基因也是非常类似,所以都是重复序列就对了。如下:
重复序列
miseq测序仪的300bp的双端测序质控步骤
参考发表在Front. Immunol., 30 April 2019的综述:The Pipeline Repertoire for Ig-Seq Analysis
  • 文章链接:https://www.frontiersin.org/articles/10.3389/fimmu.2019.00899/full
免疫组库质控
其中双端测序的reads合并也是有一系列软件可以实现。
下游分析
数据分析大纲如下:
  • 测序数据评估与过滤;
  • 不同种类V,D/J基因的数目、频率统计;
  • 不同种类V-J组合(气泡图)和V-D-J组合(桑基图)的数目、频率统计;
  • V基因、J基因、V-J组合、V-D-J组合的组间差异比较;(火山图)
  • CDR3氨基酸克隆型的数目、频率、长度统计;
  • 基于CDR3氨基酸克隆型频率的样本间相似性评估;
  • CDR3氨基酸克隆型的多样性分析,包括Gini、Simpson、Shannon、Rank Abundance;
  • CDR3氨基酸克隆型差异表达分析;
  • 样本间共有CDR3氨基酸克隆分析;
免疫组库交流群
我们的拉群小助手会协助大家进入一个免疫组库数据分析交流群哈, 跟我们之前的其它群类似:
还是老规矩,18.8元进群,一个简单的门槛,隔绝那些营销号!同时,我们也会在群里共享一些免疫组库数据分析相关资料,仅此而已,考虑清楚哦!
(0)

相关推荐

  • 0-跟着science学宏基因组-背景和数据

    写在前面 首先说几句话: 本小结代码不需要运行,只是告诉大家数据来源和这份代码的来源: 本小结的软件也不需要安装. 如果没有Ubuntu的随便安装一个就可以16-20都可以运行,例如: 下载一个Qii ...

  • NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正

    NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正 目录 1. 序列比对 1.1 参考基因组建索引 1.2 序列比对 2. 排序 3. PCR重 ...

  • 免疫组库测序技术浅谈

    2020-09-14 09:32 前言 我们知道,人类的免疫系统可以在不同的外界刺激下触发"特异性"免疫反应,保护我们的身体免受各种各样的外来抗原的侵害,这种多样性和灵活性正是由我 ...

  • 单细胞免疫组库数据分析||Seurat整合单细胞转录组与VDJ数据

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 在做10X单细胞免疫组库分析的是往往是做一部分BC ...

  • 通过IMGT数据库认知免疫组库

    免疫组库测序(Immune Repertoire Sequencing,IR-Seq)是非常小众的产品,并不属于TCGA的7种数据(WGS,WES,RNA-seq,miRNA,450K等等),所以我并 ...

  • 从IMGT数据库下载免疫组库相关fasta序列

    前面我在生信技能树的推文教程:通过IMGT数据库认知免疫组库 提到了它是目前免疫组库相关fasta序列整理的最齐全的.(因为被黑粉举报,所以我们公众号时隔半个月才能继续发原创,让大家久等了) 真的是搞 ...

  • 使用igblast进行免疫组库分析

    前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB, ...

  • 使用MiXCR进行免疫组库分析

    其实我不是很想写这个免疫组库专题了,阅读量太低,估计认真跟下去也不会很多. 前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对 ...

  • 使用IMonitor进行免疫组库分析

    使用igblast进行免疫组库分析 使用MiXCR进行免疫组库分析 理论上不应该再介绍过多软件和流程,避免增加大家的认知负担,但是看到一个很新的文章发表在NC杂志,时间是11 April 2019,标 ...

  • 明码标价之免疫组库

    前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB, ...

  • 10X Genomics单细胞免疫组库VDJ分析必知必会

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 我们生活着的世界并非只有我们自己,而是有很多小于或 ...