学徒作业-指定基因在指定组织里面的表达量热图

昨天我在生信技能树发布了一个学徒作业:在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵 , 真的是非常简单,只需要下载CCLE数据库的RNA-seq表达矩阵,然后在R里面根据指定基因在指定细胞系里面提取表达矩阵即可。所以今天就有学徒完成了,作业发在生信菜鸟团,见:学徒带你一步步从CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵进行热图可视化,但是我发现大家的留言都是感谢这个学徒细致入微的小白友好型讲解模式,让我也觉得,这样的活动应该是多做一些。
正好,今天接到粉丝求助,想在bodymap数据库里面也是根据感兴趣基因来提前表达矩阵绘制热图,如下所示:
bodymap数据库根据感兴趣基因绘制不同组织表达量热图
这个图比昨天的学徒作业:在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵 , 稍微复杂一点,因为它里面的的一个组织肯定不止是一个样本,拿到表达矩阵后需要进行一定程度的归纳总结。
你有没有意识到所谓的的新冠病毒的组织感染特异性研究其实就是一个学徒作业?
与2003年爆发的SARS-CoV类似,SARS-CoV-2使用血管紧张素转化酶2(ACE2)作为细胞受体入侵人类宿主并主要引起急性肺炎。因此,ACE2是了解SARS-CoV-2感染机制的关键。很多研究,就是探索了ACE2基因在单个人体组织(包括肺,肝和结肠)中的表达,比如单细胞水平,或者其它形式的数据。
中国药科大学王小晟课题组和深圳福田风湿病专科医院与深圳大学联合实验室张跃课题组合作在预印本平台Research Square发表题为Aninvestigation of the expression of 2019 novel coronavirus cell receptor geneACE2 in a wide variety of human tissues 的文章,该研究使用生物信息学方法,通过分析GTEx、TCGA以及HPA数据库,研究了ACE2在31个不同人体组织中的表达。
ACE2在31个不同人体组织中的表达
关于bodymap数据库
关于人和老鼠基因表达信息的数据库,基因表达数据来自于不同组织、不同细胞以及不同时刻。通过分析这些数据,可以初步掌握基因活性,了解组织中mRNA的组成。
文献非常古老【BodyMap: a human and mouse gene expression database,链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102396/】,发表日期:2000年。提到官网是:http://bodymap.ims.u‐tokyo.ac.jp 和 http://bodymap.jp/ 两个,But 年代久远,都打不开。数据库建于1993年,数据来源于日本大阪大学(Osaka University)构建的无偏cDNA文库的3'端EST序列,截止到2000年包含有大于270 000 条来源于60个人和38只老鼠组织的序列。BodyMap是首次致力于去鉴定人和老鼠的基因和基因表达信息。数据库的构建是通过开头为GATC的引物序列去扩增3' 定向cDNA文库,并按照以下标准进行筛选和去冗余:
  • 大于5% 的Ns,开始不是GATC,或者有多个GATC的序列去掉;
  • 在50bp的重叠区域有 大于90% 的相似性;
  • 70%的EST序列长度是载体序列或核糖体序列;
新提交的序列用FASTA进行序列比对,50bp重叠区域大于95%相似性的将被认为是相同的tag而进行聚类;
数据库的使用
  • Composition of mRNA
  • Expression patterns of genes
  • Select genes by expression patterns
其实现在应该是有gtex数据库
GTEx,The Genotype-Tissue Expression (GTEx) project,首次被提出来是2013年,上百位科学家联名在Nature Genetics杂志发表的文章首次介绍了“基因型-组织表达工程”,并成立了“基因型-组织表达研究联盟”(Genotype-Tissue Expression Consortium,GTEx)以下简称“GTEx”)。
2015年,GTEx发布了第一个阶段性成果,一次性在Science杂志上发表三篇研究成果,该成果还被选为封面文章。GTEx的研究从175名死者身上采集到了1641个尸检样本,这些样本来自54个不同的身体部位,对几乎所有转录基因的基因表达模式进行了观察,从而够确定基因组中影响基因表达的特定区域。另外两篇文章之一从人所有组织中的基因表达谱进行了描述,证明了组织特异性的某些基因往往决定了组织特异性基因的表达调控;另一篇解释了截短的蛋白变异体如何影响组织中的基因表达。
  • The Genotype-Tissue Expression (GTEx) pilot analysis: Multitissue gene regulation in humans
  • The human transcriptome across tissues and individuals
  • Effect of predicted protein-truncating genetic variants on the human transcriptome
在2017年,一次性在nature发表4篇研究成果,GTEx研究联盟的研究收集并研究了来自449名生前健康的人类捐献者的7000多份尸检样本,涵盖44个组织(42种不同的组织类型),包括31个实体器官组织、10个脑分区、全血、两个来自捐献者血液和皮肤的细胞系,作者利用这些样本研究基因表达在不同组织和个体中有何差异。题为“Landscape of X chromosome inactivation across human tissues”和“Dynamic landscape and regulation of RNA editing in mammals”的论文,采用GTEx数据探讨了与基因表达相关联的基因变异如何能够调节RNA编辑和X染色体失活现象。
  • Genetic effects on gene expression across human tissues
  • The impact of rare variation on gene expression across tissues
  • Landscape of X chromosome inactivation across human tissues
  • Dynamic landscape and regulation of RNA editing in mammals
GTEx官网:https://gtexportal.org/home/
所有的数据都是公开下载的。
(0)

相关推荐

  • 科研 |Science:性别对人类组织基因表达的影响

    编译:小北,编辑:景行.江舜尧. 原创微文,欢迎转发转载. 导读 许多包括疾病在内的复杂人类表型,表现出性别差异的特征.这些性别差异不同程度的归因于激素.性染色体.基因型×性别效应.行为差异以及环境暴 ...

  • 零代码、无实验复现最新8+SCI,傻瓜式剩下高招!(附详细操作教程)

    解螺旋公众号·陪伴你科研的第2590天 无代码生信复现 大家好,我是Jerry,今天我给大家分享一篇最新的单基因泛癌生信文章,该文章是发表于Frontiers in Immunology杂志上,最新影 ...

  • 年龄相关差异基因分析数据库

    我们人体的基因表达情况是会随着年龄的变化发生变化的.通过了解正常人当中那些基因随着年龄会发生变化,对于研究和年龄有关的疾病也有种重要的作用.今天就来介绍一个年龄有关基因表达数据库:ADEIP (htt ...

  • 生信新思路:正常组织的选择性多聚腺苷酸化数据库

    昨天介绍的TC3A是基于TCGA肿瘤数据来进行分析的,而这次的这个APA atlas (https://hanlab.uth.edu/apa/)则是基于GTEx的数据来分析的.如果不清楚TCGA和GT ...

  • TCGA、ICGC、GTEx 数据库都是啥?

     我们在进行数据库介绍,尤其是肿瘤相关数据库的时候,经常会提到说这个使用了 TCGA/GTEx 数据库的数据,那么这两个数据库到底是什么呢?为什么会有用这两个数据库呢?另外呢,由于最近ICGC提的也比 ...

  • 单基因泛癌表达(TCGA+GTEx)

    之前我们发布了单基因泛癌分析相关的文章,包括 TCGA单基因免疫相关泛癌分析 TCGA单基因免疫相关泛癌分析-进阶版本 TCGA单基因泛癌分析:富集分析结果答疑 这里有单基因在每种肿瘤中的表达图,仅限 ...

  • 又一个肿瘤免疫浸润分析利器

    关于TCGA表达数据的分析.之前我们我们介绍过.目前可能用的最多的也就是GEPIA了.之前在GEPIA2发表的时候(GEPIA I, GEPIA II),我们对这个数据库进行了介绍.最近.GEPIA的 ...

  • 学徒作业-在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵

    看到发表在 Cell. 2020 Mar 4. 的文章的研究项目里面有 4个10X样本,题目是:Complement Signals Determine Opposite Effects of B C ...

  • 学徒作业-我想看为什么这几个基因的表达量相关性非常高

    不知道多少人看完了全网第一个单细胞课程(免费基础课程),免费学习地址在B站:https://www.bilibili.com/video/av38741055  而且完成结业考核20题:https:/ ...

  • 学徒作业-两个基因突变联合看生存效应

    我喜欢把TCGA数据库的应用划分为8个领域: 1.探索各类肿瘤不同临床特征(性别.年龄.种族.临床分期)的预后(生存曲线) 2.探索各类肿瘤与对照的单个分子(mRNA,lncRNA,miRNA,甲基化 ...

  • 拿到7个DDR通路的基因集-学徒作业

    DNA损伤反应(DNA damage response,DDR)这个防御机制是生物体维护基因组稳定性的重要途径,DDR缺陷可导致包括肿瘤在内的多种疾病的发生,DDR通路已经成为抗肿瘤药物靶点,其中最突 ...

  • 学徒作业-转录组差异基因筛选背景知识很重要

    一个学徒跟着我做了七十多个转录组项目了,但是一直不能理解,凭什么这样的高通量筛选就能定位到具体的一两个基因. 为了帮助他理解生物学的混沌思想,我特意给他找了一个与2018年2月发表在CELL杂志的文章 ...

  • 指定病人的指定基因的突变全景瀑布图

    我们在前面的教程:不是maf格式的somatic突变数据就没办法读入到maftools了么,提到了假如小伙伴们是在在 https://xenabrowser.net/datapages/ ,找到  G ...

  • 上次说的gmt函数(学徒作业)

    最近我们的学徒作业,都是以公众号推文的方式发布出来,希望更多人加入一起学习,前面两次的作业是: 写一个函数把基因集,写出成为gmt文件.详见:GSVA或者GSEA各种算法都是可以自定义基因集的 自行读 ...

  • Agilent芯片表达矩阵处理(学徒作业)

    Agilent的芯片同样也是扫描得到图片,然后图像处理(主要是Agilent Feature Extraction (AFE) 软件)得到信号值,但是值得注意的是这个时候有两个信号值矩阵,分别是:th ...

  • 学徒作业:TCGA数据库单基因gsea之COAD-READ

    发表在Cancer Management and Research的简单数据挖掘杂志:Apolipoprotein C1 (APOC1) promotes tumor progression via ...