非肿瘤生信分析:来不及解释了快上车!

非常感谢大家在《国自然前期研究基础不足?你可以这样补一些生信分析》推文中点的再看,既然大家都已经点了超过了30个在看了(截止发布前达37个),那么我就如约给大家更一期“非肿瘤GEO数据挖掘”的介绍课程;

此文带你了解如下GEO干货

①GEO数据库是什么呢?

②GEO数据库里有多少非肿瘤的数据呢?

③非肿瘤生信GEO的数据挖掘有什么获益呢?

④入门GEO数据挖掘你需要做什么呢?

⑤在线分析网站推荐+生信数据库合集推荐+生信扩展工具合集推荐

很多人会问?生信是偏爱肿瘤的!小编觉得呢,这句话对也不是对,且听小编为您一一道来。为什么生信会给大家留下这样的一个刻板印象呢?我们可以看看在PubMed的检索结果。

检索式1:数据库+肿瘤(包括TCGA),在PubMed中检索结果“9940个”(Gene Expression Omnibus OR ArrayExpress OR Sequence Read Archive OR TCGA) AND (cancer OR Tumor OR carcinoma)
检索式2:数据库+肿瘤(不包括TCGA),在PubMed中检索结果“2804个”(Gene Expression Omnibus OR ArrayExpress OR Sequence Read Archive) AND (cancer OR Tumor OR carcinoma)
检索式3:数据库+非肿瘤(包括TCGA)在PubMed中检索结果“2667个”(Gene Expression Omnibus OR ArrayExpress OR Sequence Read Archive OR TCGA) NOT (cancer OR Tumor OR carcinoma)
检索式4:数据库+非肿瘤(不包括TCGA)在PubMed中检索结果“1913个”(Gene Expression Omnibus OR ArrayExpress OR Sequence Read Archive) NOT (cancer OR Tumor OR carcinoma)
注:1. 这仅是一个简单的筛选,并不准确,有一些肿瘤的关键词是专有名词;血液肿瘤并未包含在其中;2. 检索时间为2020年4月5日;

我们可以看到,因为TGCA这个数据库,给生信挖掘带来了一波热潮;肿瘤相关的数据分析文章发表是非肿瘤的4-5倍;此外,扩展检索我还发现,9940篇肿瘤的数据分析中,其中有5613篇(56%)是中国作者发表的,占了肿瘤数据挖掘的“半壁江山”。也许这就是为什么2020年,很多做肿瘤生信数据挖掘的老师会说“肿瘤生信越来越难做了!”,因为审稿人或者是编辑都知道这些基本操作了。当然大家也可以返回去看最近我们团队为大家整理的《2020年生信分析套路汇总》(科研菌公众号后台回复2020即可免费获取PDF版)。

医学很多学科还处于传统数据分析中,是生物信息学的一篇空白。最近和一个骨科的朋友聊天,他说他们领域(osteoarthritis),在做高通量分析的团队,全世界都不超过20个团队,我觉得简直是不可思议的。为了体现这样对话的科学性,我马上去搜了一下GEO数据库里osteoarthritis数据集的情况,虽然没有20个那么少,但是的确是很少的!有172个数据集(Series),对比一下lung cancer有1746 series;并且172个数据集中还有很多是不准确相关的,大致过了一遍下来,很多其实是并不相关的。综上,勉强能拿来做二次利用的series只有50个不到。和lung cancer的超丰富数据集比起来,osteoarthritis受到的简直是降维打击。

GEO数据库是什么呢?

可能很多生信小白还不知道。GEO数据库全称Gene Expression Omnibus,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,绝大部分的文章发表的高通量数据都会关联到这个数据库中;当然后来有的高通量数据也只上传到了一些原始数据库中(比如说SRA,EBI和BIG等),没有上传到GEO数据库中。也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。

NCBI给出来的GEO数据库简介

GEO is a public functional genomics data repository supporting MIAME-compliant data submissions. Array- and sequence-based data are accepted. Tools are provided to help users query and download experiments and curated gene expression profiles.

GEO数据库里有多少非肿瘤的数据呢?

考虑到大部分同学或老师挖掘数据的目的还是针对于转录组数据的,那么我们把关键词设定为“RNA NOT (cancer OR tumor OR carcinoma) ”,检索以后我们发现了71912个series;于此同时肿瘤的数据集又有多少呢?我们把关键词改为“RNA AND (cancer OR tumor OR carcinoma) ”以后,发现有30288个series,非肿瘤的数据集是肿瘤数据集的2倍还多,但是数据挖掘的产出却少得很多,这给我们带来了怎样的思考呢?

  • 非肿瘤还有很多待挖掘的资源;

  • 肿瘤的数据已经被挖掘得很多了;

肿瘤的很多研究进展本来就是走在科研的最前沿的,很多分析或者是数据维度都是比起非肿瘤多很多的;肿瘤业内也是竞争压力很大,所以基数大+压力大,导致了肿瘤相关的数据挖掘产出比非肿瘤而言大很多。

  • 肿瘤生信数据挖掘为非肿瘤提供了很多优秀的分析思路

非肿瘤生信GEO的数据挖掘有什么获益呢?

首先,肯定发表文章为导向的,指的是你在数据挖掘,或者是自己送样去分析以后,进行简单的数据挖掘以后,进行文章发表;

其次,湿实验排忧解难,是否你在做基础实验的过程中,一年换了好几个课题,却一个也做不出来?如果你提前用高通量数据进行筛选,靶分子能够重复出阳性结果的可能性也高很多;做出来以后通过敲低/过表达组和control再对比一次,再拿去筛选一次;

这个时候你会发现,你再也不像以前做科研那样被动了,以前你完全没有基因/蛋白可以做;现在是太多了不知道做哪个!当然有了以后就要良中选优,首先排除了那些被人已经做过的基因,然后再排除一些功能学上你容易解释和干预的;最后通过显著性排序从上往下选,一个一个去做功能学的实验进行验证,验证出来一个基因就是一篇基础实验的文章了!

最后呢,每年大家都要写各种本子,除了每次你拼尽全力做了那点PCR,免疫组化,WB和流式细胞计数之外,你还可以考虑补充一些生信分析,一批一批的导出高颜值的分析结果

入门GEO数据挖掘你需要做什么呢?

如果单纯想用GEO2R就完成所有的分析的,我觉得也是没有问题的,但是你要明白你的付出和你的收获是成正比的。如果你一直想着网页工具解决所有问题,那你就会留下一大堆解决不了的问题。

所以,这个时候你需要学习R,一门新的计算机语言;其实R在计算机语言里面,就像修图界的美图秀秀一样;很多现成的数据分析包(package),你只需要调用其中的函数出来完成你的可视化分析就好了。

书籍推荐:R语言实战,R数据科学;

公众号:生信技能树,生信菜鸟团,果子学生信,生信宝典,等;

当然,也给大家推荐2个在线分析的网站:

1. 易汉博生物信息ImageGP

http://www.ehbio.com/ImageGP/index.php/

  1. iDEP.90 http://bioinformatics.sdstate.edu/idep/

此外,还给大家整理了一份数据库合集:

生信数据库

1. GEO https://www.ncbi.nlm.nih.gov/gds/2. ArrayExpress https://www.ebi.ac.uk/arrayexpress/3. cbioportal http://www.cbioportal.org4. TCGA https://portal.gdc.cancer.gov5. CCLE https://portals.broadinstitute.org/ccle6. COSMIC https://cancer.sanger.ac.uk/cosmic7. EBI scSeq https://www.ebi.ac.uk/gxa/sc/home8. ICGC https://dcc.icgc.org/9. GTEx https://www.gtexportal.org10. CGGA http://www.cgga.org.cn/

生信扩展工具

1. GEPIA http://gepia.cancer-pku.cn2. Kaplan Meier-plotter http://kmplot.com/analysis/3. OncoLnc http://www.oncolnc.org/4. MetaScape http://metascape.org/5. UCSC Xena http://xena.ucsc.edu/6. GSEA http://software.broadinstitute.org/gsea/7. iDEP.90 http://bioinformatics.sdstate.edu/idep/8. START https://kcvi.shinyapps.io/START/9. 易汉博生物信息在线作图http://www.ehbio.com/ImageGP

注:因为里面有的工具或者是数据库是涉及到肿瘤的,对于新手而言,细嚼慢咽,先把GEO数据集学好已经可以做很多事情了。

现在市面上做GEO数据挖掘的视频很多了,我也从来没有想过通过卖课赚钱,因为不符合我们公众号的定位。做公众号最主要还是自己的一个兴趣,把自己学到的东西分享出来,让另外的同学或者老师感受到这一份喜悦。对于GEO数据挖掘想要入门的同学,可以移步B站,搜索“GEO 数据”,很多免费的教程。

 我们(科研菌团队的小伙伴)已经在开始解读非肿瘤生信数据挖掘文章分析了;我们近期会推出20期左右的非肿瘤生信数据分析给大家作为参考。

此外,本次推文在右下角在看,超过100,我们就近期复现一篇3-5分的非肿瘤纯生信分析文章,并且完全免费地送给大家,谢谢大家的支持。

(小声说,你也可以转发给你的小伙伴们,让他们一起点在看哟)

编辑:理茶德
校审:糯米饭
(0)

相关推荐