GEPIA,无编程生信小白福音

GEPIA, 全称GeneExpression Profiling Interactive Analysis。这个数据库是2017年7月由北京大学张泽民教授团队的唐泽方等人通过 R 、Perl等语言对数据进行处理、可视化而设计的癌症大数据分析网站 ,GEPIA让没有任何编程背景的科研工作者能够轻松执行各种基因表达分析。开发的相关的文章发表在Nucleic Acids Research 杂志上。数据库的数据来源主要是TCGA数据库。分析内容包括肿瘤/正常差异表达谱分析、表达分布、病理分期、生存分析,相似基因,基因表达相关性和降维分析等。

网址:http://gepia.cancer-pku.cn/

目前已经有更新版GEPIA2(更高分辨率和更多功能的加强版GEPIA)。在官网首页搜索栏可以看出,该网站的分析主要有三个板块,也是主要功能,分别是Single Gene Analysis、Cancer Type Analysis、Multiple Gene Analysis。

1.General 概况

点击首页【GOPIA】就可以看到对ERBB2,酪氨酸激酶受体2(网站默选的,可在搜索框更改)基因概况的介绍。体图中肿瘤和正常样品的中位表达,显示了该基因在人体不同器官组织中的表达情况,红色的表示肿瘤组织,绿色的表示正常组织,颜色越深表示表达水平越高,表达量可以用鼠标点击部位显示出来。

同时,为了帮助那些不了解缩写的人,网站在顶部有“Click here to get the extensio of tumor abbreviations”,点击即可显示这些缩写的全称。

网站还给出了不同肿瘤中正常样本和肿瘤样本中表达量的对比图,每个点代表一个样本,如下所示。还有柱状图,取了所有样本的平均值,清晰明了,但是没有p值。总而言之,散点图和柱状图各取所需。

2. Differential Genes

Differential Genes部分,可以分析在特定肿瘤中正常样本和肿瘤样本中的差异表达基因,用户可以定义差异基因分析的算法和对应的阈值,这里试验性地把q-value Cutoff改为0.005,点击List,查看差异基因对应的表格数据结果如下:

点击Plot显示差异基因在各个染色体上的分布,示意如下:

3. Expression DIY

这部分是用户选择感兴趣的肿瘤,在Expression DIY标签下可以对检索的基因进行表达水平的作图,从下拉菜单可以选择Profile散点图,Boxplot箱式图和Stage plot小提琴图。每一种格式的图都可以DIY作图的参数,选择呈现的癌种并对其进行排序,甚至颜色和大小。如果输入多个基因列表,还可以以热图的形式进行可视化。

4. Survival

生存分析,对于医学研究来说很常见。Survival标签也有下拉菜单,单基因分析用Survival Plots,另一个Most Differential Survial Genes是多基因分析时用。用Survival Plots做单基因生存分析效果图如下:

用Most Differential Survial Genes分析出与生存状态相关的差异基因,结果如下所示:

5.Similar Gene

想了解目标基因有哪些类似基因的情况下,可以用这个类似基因筛选功能,强大到可以罗列Top 1 到Top 9999999的相似性基因。

6.Correlation

人体疾病很少会单个基因起发挥功能,一般都是多个基因一起起作用。如果想了解两个基因之间的关联性,可以用这个功能。可以自己挑选样本,指定相关系数的算法,结果如下所示。

7.PCA

多基因的降维分析一般使用的是PCA主成分分析(Principal Component Analysis),这部分进行PCA分析,可以指定多组样本,然后根据输入的基因的表达量进行PCA分析,可以生成2D、3D PCA的图。

(0)

相关推荐

  • 太太太太硬核了!5个数据库让你批量发5+SCI!难度不大,可复现性极强!

    解螺旋公众号·陪伴你科研的第2612天 肝癌纯生信 大家好,我是Jerry,今天我给大家分享一篇单基因在肝癌疾病方面的纯生信文章,该文章是发表于Aging-US杂志上,最新影响因子为5.682分.该篇 ...

  • 2020年零代码4分生信套路拆解+全文复现

    解螺旋公众号·陪伴你科研的第2236天 大家好,我是风.有肿瘤研究方向的学员来问我,能不能为新人来详细分析一篇肿瘤研究的零代码生信文章,今天这篇Identification of Therapeuti ...

  • 可能是最出名的TCGA表达相关数据库介绍(一)

    有小伙伴后台留言说想知道 GEPIA 数据库的用法,正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能.所以就趁着这个机会给大家介绍一下GEPIA2吧. 有小伙伴后台留言说想知道 GEPIA ...

  • 大数据时代最全的医学公共数据库合集整理

    数据库技术是研究.管理和应用数据库的一门软件科学.通过研究数据库的结构.存储.设计.管理和应用的基本理论和实现方法,对数据库中的数据进行处理和分析. 本文我们将介绍几种数据库和数据挖掘技术,帮助临床研 ...

  • 聊着天就把分析给做了

    之前我们介绍过一些用来预测基因在肿瘤当中表达情况的数据库.例如,GEPIA.UALCAN这些的.这些的数据库主要是通过输入目标基因,同时点击想要进行分析的模块就可以返回相关的结果.如果厌倦了点点点的话 ...

  • GEO数据纯生信准3分SCI思路

    研究背景: 卵巢癌在全球与妇科癌症相关的死亡中排名第五.到目前为止,尚未完全了解卵巢癌的肿瘤发生和预后的分子机制.这项研究旨在发现参与卵巢癌的hub基因和治疗药物. 研究方法: 从Gene Expre ...

  • 研究免疫浸润的神器TIMER更新

       TIMER是交互式web工具,能够全面.灵活地分析肿瘤浸润免疫细胞并可视化,采用反褶积方法从TCGA中不同癌症类型样本的基因表达谱中推断肿瘤浸润免疫细胞(B细胞.CD4+T细胞.CD8+T细胞. ...

  • 生信小白的RNA-seq实战历程

    作者注:虽然是实战,其实只能称得上学习笔记而已,初学过程中参考了大量博客和帖子,还有大神引用的大牛的帖子,参考列表见最后. 1.软件安装 1.1 硬件系统情况 系统:BioLinux8(ubuntu1 ...

  • 无代码福音-微生信生物又要持续发力origin绘非典型柱状图

    上一期结束的时候留了个小问题: 一.前情回顾 首先,数据还是要分组的,因为如果放一列就是一组,最后还得一个一个改(Ctrl+鼠左双击),很麻烦. 那数据的B/C/D列一起作图会是怎样 为什么会这样,上 ...

  • 平平无奇,8个数据库凑一篇5+纯生信?别犹豫了,赶紧上车!

    解螺旋公众号·陪伴你科研的第2562天 零代码复现基因家族分析 今天我为大家带来一篇发表在Frontiers in Oncology杂志上,影响因子为4.848的一篇分析基因家族的生信文章,之前我复现 ...

  • 这本4.8分SCI期刊已经明确不再接收无验证的纯生信

    之前有粉丝在后台留言说:向Frontiers in Oncology投稿的时候被该期刊主编告知:Frontiers in Oncology不再接收纯生信数据挖掘类文章(没有实验验证的).具体邮件说明如 ...

  • 生信工具 | TCGA数据分析工具GEPIA最新更新,用于免疫细胞浸润分析

    GEPIA(http://gepia.cancer-pku.cn/index.html)这个工具可以说是分析TCGA数据库数据分析工具中比较简单好用的工具了,包括生存分析,表达差异分析,相关性分析等, ...

  • 生信编程直播第七题:写超几何分布检验!

    下载数据 切换到工作目录:cd d/生信技能树-视频直播/第七讲 kegg2gene(第六讲kegg数据解析结果) 暂时不用新的kegg注释数据为了能够统一答案 差异基因list和背景基因list 关 ...

  • 生信编程直播课程优秀学员作业展示1

    题目 人类基因组外显子区域长度 学员:x2yline 具体题目详情请参考生信技能树论坛 题目数据来源为:ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_huma ...

  • 生信编程直播课程优秀学员学习心得及作业展示3

    学习感悟 首先说明一下,我不算是完全从0开始学习,因为生物的知识和python的语言之前都知道一点,但说实话,我的python距离真正的实践还差的很远,也没有常用所以基本忘完. 真的很感谢群主和老师们 ...

  • 生信编程直播课程优秀学员作业展示2

    题目:hg19基因组序列的一些探究 学员:x2yline 具体题目详情请参考生信技能树论坛 数据来源:http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bi ...