“0代码”如何拿别人的数据发自己的文章

公共数据库挖掘呀!

众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据,后者GEO数据库全称Gene Expression Omnibus database,是由美国NCBI创建并维护的基因表达数据库。它创建于2000年,论文中涉及到的基因表达检测的数据几乎都提交到了这个数据库。

GEO除了二代测序数据,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。不同于TCGA的规整数据,GEO芯片数据由于芯片平台(公司)不同,需要进行ID转换(芯片ID对应基因)、数据标准化、去批次效应后,才能进行数据分析,这也是GEO数据挖掘的难点,很多科研萌新一看到眼花缭乱的数据,瞬间懵逼了。

不过好在,在今天的神站上,你只要鼠标点点点”就可以分析两大数据库的数据,获得高清矢量图,更重要的是全部提供原始数据方法学写作。

01

TCGA数据分析

平台是由几个临床医生联合生信大拿一起搭建,界面极其简介,左侧栏是TCGA上所有33种肿瘤类型,之后第二期会纳入非肿瘤的疾病。顶部是各种分析模块。首页特别注明了,所有数据均由R v4.0.3分析完成, 意思就是说在平台上分析的结果和拿R语言敲代码分析的结果是完全一样的,这就太爽了。

别看界面简单,该平台功能极其强大,比如想分析下“某个基因在肺腺癌里EGFR突变和野生型病人中表达水平和预后差异”就轻而易举。

平台有极其强大的样本筛选功能,可以对样本进行除了临床信息,治疗信息的进一步筛选外,比如可以根据某一个基因是否突变筛选,某一个基因的表达量水平进行筛选,比如近年来火热的肺腺癌EGFR野生型伴PDL-1低表达相关研究,就完全没问题了。这也是目前已知所有第三方网站无法实现的。

样本筛选表

样本筛选好后,就可以选择需要的功能模块进一步分析啦。

单样本分析,顾名思义就是针对某一个样本的分析,里面的工具目前包括了临床信息比较,批量生存分析,基因与生存,基因与TMB/MSI,桑基图,两基因相关性。

而多样本分析,就是针对某几个样本之间差异的比较,目前包括以下工具:

多组生存,基因表达比较,miRNA比较,突变比较,免疫评分,免疫检查点,甚至铁死亡,m6A

在复杂分析里,集成了以下耳熟能详的分析模块,比如亚组分型,基因突变景观,差异基因分析,预后模型(列线图),预后模型(Signature),泛癌分析。

然后,在思维导图和视频教程里,180师兄和911师兄讲解了如何使用“十字研究法”,交叉运用单样本和多样本工具,让课题设计思如泉涌。

这些分析如果让公司去做,估计要几百上千甚至上万了,而这个平台鼠标点击几下,就可以生成所有的高清矢量图,更重要的是还有对应的原始数据下载,这个相当重要。

不仅如此,平台还针对每一个分析结果,给出了对应图例,方法学,结果的中英文对照,和参考文献,这个对我们写文章也很重要。

从课题设计,工具使用,再到零代码,一键分析,原始数据下载,再到论文写作,不得不说,这个由一群医生创建的生信平台,实在是太懂广大科研gou了。

02

中文版GEO数据库

相比TCGA主要存储高通量(二代测序)数据的肿瘤样本数据,GEO数据库全称Gene Expression Omnibus database,是由美国NCBI创建并维护的基因表达数据库。它创建于2000年,论文中涉及到的基因表达检测的数据几乎都提交到了这个数据库。

GEO除了二代测序数据,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。不同于TCGA的规整数据,GEO芯片数据由于芯片平台(公司)不同,需要进行ID转换(芯片ID对应基因)、数据标准化、去批次效应后,才能进行数据分析,这也是GEO数据挖掘的难点,很多科研萌新一看到眼花缭乱的数据,瞬间懵逼了。

临床生信之家的GEO分析工具,从小编的体验看,有以下特点:

1.所有数据都来之GEO,以上提到的难弄的数据预处理过程均自动完成。

2.临床生信之家一贯的:无需代码基础,鼠标点点点即可完成ID转换,数据标准化,去批次,高清出图,原始数据下载一气呵成!

3.数据集介绍全部实行中英文对照。

这样的“中文版GEO数据库”你爱不爱呢?!

首先选择GEO分析模块,选择数据集筛选,搜索框中直接输入心血管方向的 “高血压”。

右边可以选择是匹配标题还是摘要还是实验设计类型,此处我们选择标题。

临床生信之家官网

点击检索后,就出来匹配到的数据集,根据匹配程度排序,没接触过geo数据库的同学可能有点懵,这里稍微解释下,1.数据集:在Geo数据库中代表一个实验项目(就是某个作者上传的集合),包括所有样本信息,GSE是数据集的编号开头。 2.芯片平台:不同芯片公司使用不同芯片平台,不同芯片以GPL字母开头,不同芯片平台包含不同的探针和基因ID对应关系,所以芯片数据预处理时,需要将探针ID转换为对应的基因,称为“探针ID转换”。3.样本,这里直接给出某个数据集的样本量。

然后点开数据集边上的小三角,就展开这个数据集的详细介绍,包括标题,五中,实验类型,概要,实验设计,参考文献,这些信息都是和geo数据库一对一对应的,同时给了中文翻译,默认是灰色,鼠标放上去就会变黑。

比如GSM24752这个数据集,通过浏览,很容易知道这个实验是人原发性高血压患者外周血细胞差异基因表达的微阵列分析,对比的是高血压患者和正常血压作为对照组,如果想更详细了解这个实验,可以直接点击citation里的对应文献查看。

右边看到这个数据集一共6个样本,然后点开样本边上的三角,就显示出各个样本啦。

从样本的名字source name可以看出,前三个HTN是高血压组,后三个样本是NC对照组。

接下里就是分组样本了,直接鼠标单击,多个样本就用excle里经常操作的shift+单击,样本变蓝,就是选中了。

然后就是输入分组的名字,比如高血压组,点击收录,就创建了样本分组,同理设定了正常血压组。此时会发现探针的ID转换就开始自动处理了。样本左边的group已经显示设置的样本名。

这样可以选择多个数据集,进行多个样本分组的设定,所有选择的数据集和样本分组都会在检索区的底部过渡区,此时可以设置项目名,点击收录到位的样本库。就会到主页的左边栏了。

设置好样本之后,就可以开始对geo的芯片数据进行各种分析啦,比如以下这个差异基因,样本一选择高血压组,样本二组选择对照组,此时,数据标准化,去批次效应会自动完成,然后点击plot,差异基因分析完毕。

图片是高清矢量图,包含了标准化后的图和去批次效应的结果图,这2个图发文章的时候可以放在补充材料,说明你做过了。然后就是差异基因经典的火山图,热图和kegg通路富集和go功能富集啦。

其他分析模块此处就略了,和TCGA数据库的分析一样一样的。也同样有高清矢量图,原始数据下载,对应图例,方法学,结果的中英文对照,和参考文献。

弗雷赛斯

-浙江大学硕博创建于2015年

(0)

相关推荐

  • 3种方法注释你的甲基化探针

    关于表达芯片的公共数据库挖掘我这边以及差不多把改写的推文在2年前就写完了,但表达芯片毕竟只占芯片市场的半壁江山,还有大量的非表达芯片,比如大名鼎鼎的甲基化芯片.关于甲基化,我们公众号教程非常少,主要是 ...

  • 其实,GEO数据挖掘也很好发文章

    GEO is a public functional genomics data repository supporting MIAME-compliant data submissions. Arr ...

  • GEO2R差异表达分析软件

        前两天我们对GEO数据库来了一个大致的介绍GEO数据集详细介绍GEO数据库介绍 (一).我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果.所有的表达芯片做的差异表达分析都 ...

  • 一篇最基本生信分析文献解读

    利用一周多的时间,我们把最最基本的生信套路来讲解了一遍.正好前几天一个小伙伴拿了一篇相关文献在咨询问题.这里就拿这篇文献来总结一下我们目前写的这些东西. 这次我们来讲解的这边文献是2019-10-12 ...

  • GEO+TCGA数据挖掘+收集临床样本的思路

    研究背景: 肺腺癌(LAD)是最普遍的肺癌类型.据报道,UDP-N-乙酰氨基葡糖焦磷酸化酶1(UAP1)的异常表达与癌细胞的许多生物学过程有关,但尚不清楚LAD中UAP1的表达. 研究方法: 生物信息 ...

  • 0代码0函数,这几个整理数据的方法真香!

    提取数值,按照分隔符拆分,分列可以搞定,但是每次都需要拆分麻烦,有没有不写代码不用函数搞定的方法? 应该有吧~ 案例01 | 今天到底花了多少钱? 登记的时候,图的是方便,现在想要把数值提取出来,算一 ...

  • 用别人的数据,发自己的SCI

    "用别人的数据,发自己的SCI",想必有很多人都听过了这句话,也有很多人实现了这句话的梦想.既然这句话这么重要,我们给大家总结一下那些方法能实现这句话. 一.在过去 我们熟悉的me ...

  • 0代码就能做Python数据分析,这个Jupyter插件,用起来就像Excel一样简单

    加载一个Jupyter插件后,无需写代码就能做数据分析,还帮你生成相应代码? 没错,只需要加载这个名为Mito的小工具包,用Python做数据分析,变得和用Excel一样简单: 运行速度比Excel更 ...

  • 让2追4!最佳隔扣诞生!运动战16中0 !球迷喊别人女朋友,你慌个毛啊

    小球童 对于球的理解,我是天才 我有李宁,你有关注我吗? 今日分享 今天是个特殊的日子 19年前的今天,科比庆祝三连冠 12年前的今天,科比拿下生涯第四冠 哎,真的想你了 早上,我还在吃早餐的时候 老 ...

  • 100行代码爬取招聘职位数据

    一.背景 为了分析一线城市的房价在工资的占比,我用Python分别爬取了自如以及拉勾的数据.(见公众号「Crossin的编程教室」今天第1条推送) 前一篇文章用 scrapy 爬取了自如房源信息,本文 ...

  • 专访IVX平台CEO孟智平: 0代码开发语言已被华为引入

    "让写代码变简单." 作者:徐晶琳 编辑:tuya 出品:财经涂鸦(ID:caijingtuya) 据公司情报专家<财经涂鸦>消息,人人都能做应用开发的时代已经向我们走 ...

  • 霸凌0容忍,对别人忍,就是对自己残忍

    昨天晚上十点多了,我正在回邮件打字,一个我们移居的客人说明天一早能不能帮忙给老师打电话,我问啥事啊怎么啦,等我反应过来,发现是一个小姑娘晚上在哭得喘不过气说被欺负了要回国,不要在这里上课了.说同班一个 ...

  • 海云数据发力人工智能,企业级能力服务才是未来

    冯一村发布了AI战略和以"能力服务"."智慧城市AI产业路由器"为主要内容的全新商业模式,同时宣布完成B轮1亿元融资-- IDG.盛景嘉成母基金领投本次海云数据 ...

  • 一个简单转录组测序数据发两篇sci(你也可以!)

    你还认为普通转录组测序没有用吗? 最近看到群里有小伙伴在讨论一个数据集 GSE140275 ,我发现它这个简单转录组测序数据发两篇sci,是关于  acute ischemic stroke  这个疾 ...