从IMGT数据库下载免疫组库相关fasta序列

前面我在生信技能树的推文教程:通过IMGT数据库认知免疫组库 提到了它是目前免疫组库相关fasta序列整理的最齐全的。(因为被黑粉举报,所以我们公众号时隔半个月才能继续发原创,让大家久等了)
真的是搞不明白,我辛辛苦苦写教程,为什么黑粉一定要无理取闹的举报!!!委屈
BCR有IGH,IGK,IGL这3类,而TCR有TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因,这么多基因的序列都是可以直接下载的。
都是在:http://www.imgt.org/vquest/refseqh.html#VQUEST
首先是多个物种的BCR的IGH,IGK,IGL这3类的V,D(可选),J基因:
BCR的IGH,IGK,IGL
然后是多个物种的TCR的TRA,TRB,TRD,TRG的V,D(可选),J基因:
TCR的TRA,TRB,TRD,TRG
人类IGH的fasta文件下载
首先IGH是BCR的一种,有V,D,J基因,其fasta文件如下:
mkdir ~/biosoft/igblast/imgt 
cd  ~/biosoft/igblast/imgt 
wget http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/IGHV.fasta
wget http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/IGHD.fasta
wget http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/IGHJ.fasta
简单统计是:
IGHD.fasta:44,37
IGHJ.fasta:13,6
IGHV.fasta:402,106
http://www.imgt.org/IMGTrepertoire/LocusGenes/genetable/human/geneNumber.html
数量似乎有点对不上。
具体看
>J00256|IGHJ1*01|Homo sapiens|F|J-REGION|723..774|52 nt|1| | | | |52+0=52| | |
>J00256|IGHJ2*01|Homo sapiens|F|J-REGION|932..984|53 nt|2| | | | |53+0=53| | |
>J00256|IGHJ3*01|Homo sapiens|F|J-REGION|1537..1586|50 nt|2| | | | |50+0=50| | |
>X86355|IGHJ3*02|Homo sapiens|F|J-REGION|1107..1156|50 nt|2| | | | |50+0=50| | |
>J00256|IGHJ4*01|Homo sapiens|F|J-REGION|1912..1959|48 nt|3| | | | |48+0=48| | |
>X86355|IGHJ4*02|Homo sapiens|F|J-REGION|1480..1527|48 nt|3| | | | |48+0=48| | |
>M25625|IGHJ4*03|Homo sapiens|F|J-REGION|446..493|48 nt|3| | | | |48+0=48| | |
>J00256|IGHJ5*01|Homo sapiens|F|J-REGION|2354..2404|51 nt|3| | | | |51+0=51| | |
>X86355|IGHJ5*02|Homo sapiens|F|J-REGION|1878..1928|51 nt|3| | | | |51+0=51| | |
>J00256|IGHJ6*01|Homo sapiens|F|J-REGION|2947..3009|63 nt|3| | | | |63+0=63| | |
>X86355|IGHJ6*02|Homo sapiens|F|J-REGION|2482..2543|62 nt|3| | | | |62+0=62|partial in 3'| |
>X86356|IGHJ6*03|Homo sapiens|F|J-REGION|2482..2543|62 nt|3| | | | |62+0=62|partial in 3'| |
>AJ879487|IGHJ6*04|Homo sapiens|F|J-REGION|39..101|63 nt|3| | | | |63+0=63| | |
进行多序列比对,查看它们的远近关系
比如看IGHV,就是123-129个基因,可以分成3大类和7小类:
  • clan I: IGHV1, IGHV5 and IGHV7 subgroup genes
  • clan II: IGHV2, IGHV4 and IGHV6 subgroup genes
  • clan III: IGHV3 subgroup genes
这些基因都拥挤在狭小的染色体片段上面:
All the IGHV genes are in a fully sequenced contig which comprises the following accession numbers:
  • AB019437 (200000 bp): IGHV(III)-82 to IGHV(II)-60-1
  • AB019438 (200000 bp): IGHV3-60 to IGHV4(II)-40-1
  • AB019439 (200000 bp): IGHV7-40 to IGHV3-21
  • AB019440 (200000 bp): IGHV(II)-20-1 to IGHV2-5
  • AB019441 (157090 bp): IGHV4-4 to IGHV6-1
因为IGHV序列太多,比对起来耗费时间,我这里就举例IGHJ,如下:
IGHV序列比对结果
可以看到,它们不同序列的差异很微弱,都集中在开头的几个碱基,其中IGHJ6跟另外的5类差异最大。
大家觉得该如何可视化上面的结果呢?
library(Biostrings) 
library(msa)
library(ggtree)
library(seqinr) 
mySequences <- readDNAStringSet('IGHJ.fasta')
mySequences
myAlignment <- msa(mySequences)
欢迎邮件交流你的可视化想法,发到我的邮箱 jmzeng1314@163.com
比如我这里可以使用msaR包:
library(msaR) 
msaR(AAStringSet(as.character(myAlignment)))
看起来还挺有感觉的哦!
比如ggtree可以读取多种格式(包括newick,nexus,NHX,jplace和phylip)的系统发育树,并结合不同类型的相关数据进行注释分析。
这些bioconductor包的使用,我们在R语言公益课的钉钉群有视频讲解,欢迎大家加入学习,详见:R语言公益课程之bioconductor
自行加入看录播咯,虽然bioconductor已经结束,但是今晚(2020-05-19,周二)八点还有绘图的直播课程哈。

文末友情宣传

强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI,帮助他们多一点数据认知,让科研更上一个台阶:
推荐阅读

(0)

相关推荐

  • 宏基因组:一日一工具之-kneaddata -完成质控加去宿主

    一日一条命令-kneaddata 写在前面 kneaddata是一分结合质控和去除宿主的过程,集合了两个软件Trimmomatic和 Bowtie2,Trimmomatic作为质控软件应用的非常多,但 ...

  • TaxonKit:小巧、高效、实用的NCBI分类学数据命令行工具

    TaxonKit: 小巧.高效.实用的NCBI分类学数据命令行工具集 宏基因组按:NCBI物种分类注释信息格式复杂,存在层级不整齐.缺失.名称变动等问题,在使用中存在一定困难.最近发现了一款分类信息查 ...

  • DNA各种序列格式介绍

    DNA各种序列格式介绍

  • 通过IMGT数据库认知免疫组库

    免疫组库测序(Immune Repertoire Sequencing,IR-Seq)是非常小众的产品,并不属于TCGA的7种数据(WGS,WES,RNA-seq,miRNA,450K等等),所以我并 ...

  • 认识免疫组库测序数据

    前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB, ...

  • 使用igblast进行免疫组库分析

    前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB, ...

  • 使用MiXCR进行免疫组库分析

    其实我不是很想写这个免疫组库专题了,阅读量太低,估计认真跟下去也不会很多. 前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对 ...

  • 使用IMonitor进行免疫组库分析

    使用igblast进行免疫组库分析 使用MiXCR进行免疫组库分析 理论上不应该再介绍过多软件和流程,避免增加大家的认知负担,但是看到一个很新的文章发表在NC杂志,时间是11 April 2019,标 ...

  • 明码标价之免疫组库

    前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB, ...

  • 10X Genomics单细胞免疫组库VDJ分析必知必会

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 我们生活着的世界并非只有我们自己,而是有很多小于或 ...

  • 单细胞免疫组库数据分析||Seurat整合单细胞转录组与VDJ数据

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 在做10X单细胞免疫组库分析的是往往是做一部分BC ...

  • scRepertoire||单细胞免疫组库分析:R语言应用(一)

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 前情回顾 10× Genomics单细胞免疫组库V ...