明码标价之免疫组库

前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。

已经预告了有一个免疫组库的实战,现在终于有时间来带领大家搞定它。

  • 来自于文章;https://www.tandfonline.com/doi/full/10.1080/2162402X.2019.1644110
  • 数据:https://www.ncbi.nlm.nih.gov/bioproject/PRJEB33490

熟读文献,理解免疫组库背景

前面我们提到了,BCR有IGH,IGK,IGL这3类,而TCR有TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。

而本研究采取多重PCR来扩增TCR里面的TRB,测序采用的是 Illumina MiSeq sequencer (600–cycle, single indexed, paired-end run). 数据分析使用的是MiXCR这个工具。

主要的关注点也是 random V(D) J recombination 产生的CDR3多样性,其中 下游分析使用 tcR 包,当然了,其它优秀R包,比如 VDJtools 也可以做同样的分析。

多重PCR来扩增TCR里面的TRB

下载文献的免疫组库测序数据

同样的,需要熟悉GEO和SRA数据库:

获得文献里面的数据集里面的样本的数据库里面的ID列表:

$head id.list
ERR3445007
ERR3445008
ERR3445009
ERR3445010
ERR3445011
ERR3445012
ERR3445013
ERR3445014
ERR3445015
ERR3445016

使用下面脚本批量下载:

mkdir -p ~/data/public/TRB
cd ~/data/public/TRB
cat id.list |while read id;do (  ~/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch $id -X 100G   );done

注意:这个sratoolkit版本好像经常有问题,根据 id.list里面存储的id批量下载后的sra文件夹,存储到sra文件夹,文件大小如下:

$ls -lh sra/*|cut -d" " -f 5-|head
 23M Apr 25 17:57 sra/ERR3445007.sra
 27M Apr 25 17:57 sra/ERR3445008.sra
 20M Apr 25 17:58 sra/ERR3445010.sra
 40M Apr 25 17:58 sra/ERR3445011.sra
 20M Apr 25 17:59 sra/ERR3445012.sra
 19M Apr 25 18:00 sra/ERR3445014.sra
 44M Apr 25 18:04 sra/ERR3445016.sra
 32M Apr 25 18:04 sra/ERR3445017.sra
 20M Apr 25 18:05 sra/ERR3445018.sra
 31M Apr 25 18:06 sra/ERR3445019.sra

可以看到免疫组库测序数据的文件都很小哦。如果你的sratoolkit有问题,或者prefetch命令下载sra文件速度太慢,可以参考:使用ebi数据库直接下载fastq测序数据  , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件:

  • 项目地址是:https://www.ebi.ac.uk/ena/browser/view/PRJEB33490

脚本如下:

# conda activate download 
# 自己搭建好 download 这个 conda 的小环境哦。
cat fq.txt |while read id
do
ascp -QT -l 300m -P33001  \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh   \
era-fasp@$id  .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &

这个脚本会根据你在EBI里面搜索到的 fq.txt 路径文件,来批量下载fastq测序数据文件。

两个下载方式都可以,取决于你的网络情况,不同国家地区不同的选择,人啊要学会灵活应变!有一些学员在b站发弹幕吐槽我前面的ngs教学课程的sratoolkit代码失败,其实是它们自己的网络问题,我的课程录制较早,那个时候也没有想到过大家居然连数据都无法下载,这一点只能说请大家见谅。

我们的最新教程,都是走:使用ebi数据库直接下载fastq测序数据  , 这个教程来直接下载fastq文件啦。

然后把sra文件,批量作为fastq文件,这个时候,可以加入样本信息,所以需要制作sra文件和样本对应表格,如下:

$head id2sample.txt
healthy1 ERR3445007
healthy2 ERR3445008
healthy3 ERR3445009
healthy4 ERR3445010
healthy5 ERR3445011
healthy6 ERR3445012
healthy7 ERR3445013
healthy8 ERR3445014
healthy9 ERR3445015
healthy10 ERR3445016

log日志如下:

healthy1 ERR3445007
Read 72065 spots for sra/ERR3445007.sra
Written 72065 spots for sra/ERR3445007.sra

healthy2 ERR3445008
Read 87649 spots for sra/ERR3445008.sra
Written 87649 spots for sra/ERR3445008.sra
 
healthy4 ERR3445010
Read 76007 spots for sra/ERR3445010.sra
Written 76007 spots for sra/ERR3445010.sra

healthy5 ERR3445011
Read 203464 spots for sra/ERR3445011.sra
Written 203464 spots for sra/ERR3445011.sra

得到的测序文件如下:

$ls -lh raw_fq/*|cut -d" " -f 5-|head
 18M Apr 27 19:05 raw_fq/healthy10_1.fastq.gz
 24M Apr 27 19:05 raw_fq/healthy10_2.fastq.gz
 15M Apr 27 19:06 raw_fq/healthy11_1.fastq.gz
 18M Apr 27 19:06 raw_fq/healthy11_2.fastq.gz
7.7M Apr 27 19:06 raw_fq/healthy12_1.fastq.gz
 11M Apr 27 19:06 raw_fq/healthy12_2.fastq.gz
 12M Apr 27 19:06 raw_fq/healthy13_1.fastq.gz
 16M Apr 27 19:06 raw_fq/healthy13_2.fastq.gz
 11M Apr 27 19:06 raw_fq/healthy14_1.fastq.gz
 14M Apr 27 19:06 raw_fq/healthy14_2.fastq.gz

可以看到,每个样本还是有两个测序数据的,意味着是双端测序。前面其实也提到了的,测序采用的是 Illumina MiSeq sequencer (600–cycle, single indexed, paired-end run)。而且他们的样本的数据量很稳定。

如果你参考使用ebi数据库直接下载fastq测序数据  ,那么就无需经过sra文件转fastq啦,本来就是下载fastq.gz 文件。如下所示:

  7.8M May 23 09:43 ERR3445007_1.fastq.gz
    11M May 23 09:43 ERR3445007_2.fastq.gz
   9.8M May 23 09:43 ERR3445008_1.fastq.gz
    14M May 23 09:43 ERR3445008_2.fastq.gz
   7.0M May 23 09:44 ERR3445009_1.fastq.gz
    10M May 23 09:44 ERR3445009_2.fastq.gz
   7.2M May 23 09:44 ERR3445010_1.fastq.gz
   9.3M May 23 09:44 ERR3445010_2.fastq.gz

不管是采用何种公共数据的下载方式,最后都是拿到fastq文件,走免疫组库分析流程哦。这个文章:We used next-generation immunosequencing to study T cell receptor (TCR) repertoire metrics on 346 blood samples from healthy individuals and cancer patients producing a dataset with around 8.8 million TCR reads.

而且免疫组库的每个样本数据量很小,几百个样本合起来的数据量都比不上一个转录组测序

构建免疫组库文件夹及软件环境

这个时候我们有3个策略:

  • MiXCR is a bioinformatic tool that processes B- or T-cell immune repertoire data from raw sequences to quantified clonotypes
  • IgBLAST can analyze both BCR and TCR. This is done by annotating V, D, J regions, CDR3 identification and mutational analysis of the variable regions using the BLAST search algorithm.
  • IMGT/HighV-QUEST identifies the V, D and J genes and alleles by alignment with the germline receptor gene and allele sequences of the IMGT germline database

我们都写了教程,如下:

这里我们选择MiXCR进行讲解,因为这个示例文章也是这个MiXCR流程。而且MiXCR是MiLaboratory开发的,他们实验室出品了3款:MiXCR, MIGEC, VDJtools ,都是值得推荐的软件哦。

免疫组库测序数据的过滤

我们首先认识了免疫组库测序数据,知道了免疫组库测序数据的一些特性,并不能简单的看fastqc报告,就判断我们的免疫组库测序数据不合格。

不过,任何测序数据的过滤都是有一个共性,去除低质量序列,以及去除接头,我们这里仍然是选择走 trim_galore 流程。参考:使用igblast进行免疫组库分析

source activate qc 
# conda install -c bioconda flash
mkdir -p raw clean merge blast MiXCR
cat config |while read id;do (trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired -o clean  raw/${id}*gz);done
# 这里的config文件里面是本次免疫组库文献里面的数据样本ID

过滤之后的fq文件如下:

  7.1M May 28 10:26 clean/ERR3445007_1_val_1.fq.gz
  8.4M May 28 10:26 clean/ERR3445007_2_val_2.fq.gz
  9.0M May 28 10:26 clean/ERR3445008_1_val_1.fq.gz
   11M May 28 10:26 clean/ERR3445008_2_val_2.fq.gz
  6.4M May 28 10:27 clean/ERR3445009_1_val_1.fq.gz
  7.6M May 28 10:27 clean/ERR3445009_2_val_2.fq.gz
  6.7M May 28 10:27 clean/ERR3445010_1_val_1.fq.gz
  8.2M May 28 10:27 clean/ERR3445010_2_val_2.fq.gz
   14M May 28 10:27 clean/ERR3445011_1_val_1.fq.gz
   16M May 28 10:27 clean/ERR3445011_2_val_2.fq.gz

然后把PE数据使用FLASH合并,仍然是参考:使用igblast进行免疫组库分析,代码如下:

# flash raw/ERR3445170_1.fastq.gz raw/ERR3445170_2.fastq.gz  -M 250 -o clean
# conda install -c bioconda flash
cat config |while read id;do (flash  clean/${id}*gz  -M 250 -o merge/${id} );done

得到的文件如下:

   39M May 28 11:37 ERR3445007.extendedFrags.fastq
   47M May 28 11:37 ERR3445008.extendedFrags.fastq
   34M May 28 11:37 ERR3445009.extendedFrags.fastq
   41M May 28 11:37 ERR3445010.extendedFrags.fastq
   86M May 28 11:37 ERR3445011.extendedFrags.fastq
   34M May 28 11:37 ERR3445012.extendedFrags.fastq
   30M May 28 11:37 ERR3445013.extendedFrags.fastq
   40M May 28 11:37 ERR3445014.extendedFrags.fastq
   54M May 28 11:37 ERR3445015.extendedFrags.fastq
   91M May 28 11:37 ERR3445016.extendedFrags.fastq

因为igblast比对接受fa文件输入,所以需要首先把fq进行格式转换,这里我们采用seqkit软件的fq2fa子命令哈:

cd merge
# conda install -c bioconda seqkit 
ls *.extendedFrags.fastq|while read id;do (  seqkit fq2fa $id  > ${id%%.*}.fa );done

得到文件如下:

   22M May 28 11:44 ERR3445007.fa
   26M May 28 11:44 ERR3445008.fa
   19M May 28 11:44 ERR3445009.fa
   23M May 28 11:44 ERR3445010.fa
   49M May 28 11:44 ERR3445011.fa
   19M May 28 11:44 ERR3445012.fa
   17M May 28 11:44 ERR3445013.fa
   22M May 28 11:44 ERR3445014.fa
   30M May 28 11:44 ERR3445015.fa
   52M May 28 11:44 ERR3445016.fa

有意思的是,中间有几个fq文件转fa文件失败,不过我们的样本数量太多了,而且这个免疫组库系列教程反正看的人不多,我就懒得去检查失败的几个样本是什么问题了。(有可能是批量下载失败, 因为写这个教程的时候我人在中国大陆地区)

走igblastn流程进行比对

完全参考:使用igblast进行免疫组库分析,需要自己配置好igblast软件,以及下载好数据库文件并且构建好索引。跑代码就非常简单了:

cd blast/
cat ../config |while read id;
do 
echo $id 
igblastn \
-germline_db_V ~/biosoft/igblast/database/human_TRBV.fa \
-germline_db_D ~/biosoft/igblast/database/human_TRBD.fa \
-germline_db_J ~/biosoft/igblast/database/human_TRBJ.fa \
-domain_system imgt \
-organism human \
-ig_seqtype TCR \
-auxiliary_data ~/biosoft/igblast/optional_file/human_gl.aux \
-show_translation \
-outfmt 7 \
-num_threads 4 \
-query ${id}.fa  \
-out ${id}.blast.output.7
done 

这样就批量把免疫组库测序数据过滤整理好的fa文件比对到了IMGT数据库的TRB的V,D,J基因啦。

也可以走MiXCR流程

完全参考:使用MiXCR进行免疫组库分析,首先下载解压MiXCR软件压缩包:

mkdir -p ~/biosoft/MiXCR/
cd ~/biosoft/MiXCR/
wget https://github.com/milaboratory/mixcr/releases/download/v3.0.13/mixcr-3.0.13.zip
unzip mixcr-3.0.13.zip

然后就可以使用MiXCR软件,走免疫组库分析流程,只需要是clean的reads组成的fq文件即可,MiXCR软件会自动检测属于BCR的IGH,IGK,IGL这3类,还是TCR的TRA,TRB,TRD,TRG,的V,D(可选),J,C基因。

批量运行的代码如下:

cd MiXCR/ 
mixcr=${HOME}/biosoft/MiXCR/mixcr-3.0.13/mixcr
echo $mixcr 
# conda activate qc
cat ../config |while read id;
do 
echo $id 
ls  ../clean/${id}*gz 
 
$mixcr analyze amplicon \
    -s hsa \
    --starting-material dna \
    --5-end v-primers --3-end c-primers  \
    --adapters adapters-present \
 ../clean/${id}*gz   $id 
done 

免疫组库下游分析

解析igblastn比对结果

非常复杂,需要单独写一个推文。

解析MiXCR流程的结果文件

也非常复杂,需要单独写一个推文。

高级可视化技巧

更加复杂,需要单独写多个推文。

明码标价

如果是一个免疫组库项目,走igblastn或者MiXCR流程只需要800元人民币即可,但是如果要提供结果解读服务或者个性化的统计可视化,需要具体谈。

这个是基于Linux的ngs数据的上游处理,目前没有成熟的网页工具支持这样的分析。其实呢,如果你有时间请务必学习编程基础,自由自在的探索海量的公共数据,辅助你的科研,那么:

如果你没有时间从头开始学编程,也可以委托专业的团队付费拿到同样的数据分析,  比如我们。一条龙服务,而且是可以拿到全部的数据和代码哦!

如果需要委托,直接在我们《生信技能树》公众号留言即可,我们会安排合适的生信工程师对接具体的项目。

(0)

相关推荐

  • 9-跟着science学习宏基因组-三种组装方法混样组装(megahit/spades/idba)

    全部样本组装:核糖体基因识别:序列回帖:单个样本组装:核糖体基因识别:序列回帖: 合并全部样本 将全部样本的前端和后端分别合并,未匹配的也合并.这里我们可以注意到明没有添加序列标签,因为做组装也不需要 ...

  • MPB:遗传发育所刘永鑫等-易扩增子:易用、可重复和跨平台的扩增子分析流程

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  • 8-跟着science学习宏基因组-从宏基因组中提取16S序列分析3-barrnap提取核酸序列-组装注释

    全部样本 全部样本混合拼装 mkdir ./assemblyall/ megahit --continue --out-dir ./assemblyall/megahit/ -m 0.9 -t 6 - ...

  • 0-跟着science学宏基因组-背景和数据

    写在前面 首先说几句话: 本小结代码不需要运行,只是告诉大家数据来源和这份代码的来源: 本小结的软件也不需要安装. 如果没有Ubuntu的随便安装一个就可以16-20都可以运行,例如: 下载一个Qii ...

  • 通过IMGT数据库认知免疫组库

    免疫组库测序(Immune Repertoire Sequencing,IR-Seq)是非常小众的产品,并不属于TCGA的7种数据(WGS,WES,RNA-seq,miRNA,450K等等),所以我并 ...

  • 从IMGT数据库下载免疫组库相关fasta序列

    前面我在生信技能树的推文教程:通过IMGT数据库认知免疫组库 提到了它是目前免疫组库相关fasta序列整理的最齐全的.(因为被黑粉举报,所以我们公众号时隔半个月才能继续发原创,让大家久等了) 真的是搞 ...

  • 认识免疫组库测序数据

    前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB, ...

  • 使用igblast进行免疫组库分析

    前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB, ...

  • 使用MiXCR进行免疫组库分析

    其实我不是很想写这个免疫组库专题了,阅读量太低,估计认真跟下去也不会很多. 前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对 ...

  • 使用IMonitor进行免疫组库分析

    使用igblast进行免疫组库分析 使用MiXCR进行免疫组库分析 理论上不应该再介绍过多软件和流程,避免增加大家的认知负担,但是看到一个很新的文章发表在NC杂志,时间是11 April 2019,标 ...

  • 10X Genomics单细胞免疫组库VDJ分析必知必会

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 我们生活着的世界并非只有我们自己,而是有很多小于或 ...

  • 单细胞免疫组库数据分析||Seurat整合单细胞转录组与VDJ数据

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 在做10X单细胞免疫组库分析的是往往是做一部分BC ...

  • scRepertoire||单细胞免疫组库分析:R语言应用(一)

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 前情回顾 10× Genomics单细胞免疫组库V ...