解螺旋公众号·陪伴你科研的第2526天
本次给大家零代码复现一篇2021年发表于Gland Surgery的中科院二区期刊,影响因子2.19分。
文章题目
Identification of differentially expressed genes and signaling pathways in papillary thyroid cancer: a study based on integrated microarray and bioinformatics analysis
GEO数据集筛选
Table 1:数据集GSE33630、GSE35570、GSE60542、GSE29265基本信息
挑——差异表达分析
Figure 1:数据标准化
Figure 2:各个数据集差异基因热图
Figure 3:数据集韦恩图
Table 2:最终Top 20差异基因表
圈——功能富集
Figure 4:甲状腺乳头状癌中差异基因的GO分析
Table 3:甲状腺乳头状癌相关上调基因的GO分析
Table 4:甲状腺乳头状癌相关下调基因的GO分析
Table 5:甲状腺乳头状癌中差异基因的KEGG分析
Figure 5:甲状腺乳头状癌中差异基因的KEGG分析
Figure 6:甲状腺乳头状癌中差异基因的KEGG分析(DAVID)
联——交互网络
Figure 7:通过STRING构建差异基因的PPI网络
靠——临床意义
Figure 8:通过q-PCR检测临床组织样本中10个hub 基因的表达
(https://www.xiantao.love/products)作者通过检索GEO数据库筛选出四个符合预设条件的甲状腺乳头状癌数据集,通过limma包分析得到四个数据集的差异基因,并绘制韦恩图得到最终的差异基因。随后对差异基因进行了GO和KEGG富集分析,并通过STRING数据库构建PPI(得到的hub 基因作者借助临床样本进行q-PCR的验证)。Figure 1 四个甲状腺乳头状癌数据集样本归一化箱式图Figure 2 四个甲状腺乳头状癌数据集差异基因(Top 200)热图Figure 3 四种甲状腺乳头状癌数据集的韦恩图Figure 4 甲状腺乳头状癌中差异基因的GO分析Table 3:甲状腺乳头状癌相关上调基因的GO分析Table 4:甲状腺乳头状癌相关下调基因的GO分析Table 5:甲状腺乳头状癌中差异基因的KEGG分析Figure 5:甲状腺乳头状癌中差异基因的KEGG分析Figure 6:甲状腺乳头状癌中差异基因的KEGG分析Figure 7:通过STRING构建差异基因的PPI网络Figure 8:通过q-PCR检测临床组织样本中10个hub 基因的表达首先,作者根据预设的检索词以及筛选标准对GEO数据库数据集进行了筛选,后续大家可结合自己的研究疾病设定检索词直接在GEO数据库中进行初步检索,然后根据自己的设定的纳排标准进行数据集的筛选,这一步有点像系统评价文献的筛选一样,为了体现工作的严谨性当然这里也可以添加一个数据集筛选的流程图。好了,这里我们直接对文中筛选好的四个数据集进行相关信息的提取。进入仙桃学术工具(https://www.xiantao.love/products);点击“数据集检索”在检索框中输入数据集GSE33630,点击搜索,如下所示点击数据集GSE33630,可直接跳转到GEO数据库界面,如下图所示,此时可直接提取Reference, Year以及Normal、Tumor对应的例数等信息。同样操作数据集GSE35570、GSE60542、GSE29265,整理汇总得Table 1。
1、数据的预处理及样本归一化
原文中Figure 1首先对数据集样本进行了归一化并绘制了Q-Q plot和Density plot。
仙桃生信工具—GEO分析,除了可绘制差异基因的热图、火山图外,还可制作包括样本归一化的箱式图、PCA图与UMAP图。
接下来将展示使用仙桃生信工具复现样本归一化的箱式图并进行差异表达分析:对数据集中样本按照所研究的病理类型进行勾选,并添加到样本库中。注意:一个数据集中可能会有多种病理类型、多种干预手段等多个组别,这里只需要根据我们的研究选择目标样本即可。本研究选择了GSE33630数据集中45个正常组织样本,49个甲状腺乳头状癌样本,勾选45个正常组织样本加入分组1,49个甲状腺乳头状癌样本加入分组2。右侧分析参数默认limma包,点击提交。当后台运行完成后,点击下载—结果报告下载—保存即可。这里下载到的是一个文件压缩包,解压后,里面包括差异分析报告的网页链接、样本表格、差异分析结果表、样本标准化后的箱式图、PCA图、UMAP图以及差异分析的火山图和热图。点击差异分析报告的网页链接,进入如下界面,点击右侧对应的条目,都有详细的方法及结果说明。例如点击方法学部分,呈现如下结果。这些内容可直接在文章的材料方法部分使用。点击右侧箱式图-样本情况,数据通过箱式图可直接查看样本标准化的情况,点击细节修改进入到我们生信工具主界面,可对相关参数进行编辑修改,最后点击确认,点击保存图片,即可保存到历史记录中,并可以在拼图工具中进行拼图。依次输出保存其他数据集样本归一化箱式图,进入拼图工具,左侧栏移取四个数据集的箱式图,同时在左侧ABC标注栏调整图标参数。排版完成后,点击右下角TIFF或者PDF下载即可。在正式差异分析之前,除了通过Q-Q plot和Density Plot比较数据分布是否一致,也可通过PCA或UMAP分析,整体水平查看定义的两组样本是否存在显著差异,具体如下图所示。当然,样本归一化以及Q-Q plot和Density Plot这部分内容也可以在GEO2R在线获取,具体操作如下,输入检索的数据集GSE33630,定义组别并勾选对应的样本。随后点击Option,分别选择Force normalization——Yes和No进行分析待系统分析完成后,分别下载数据集 normalization前后的箱式图以及Q-Q plot和Density Plot。具体操作,打开仙桃生信工具的基础绘图版块,选择上传图片(注意格式仅限PDF/TIFF/TIF/PNG),在中间数据区上传图片,完成上传后,点击确认,运行完成后,点击保存图片,即可保存到历史记录中,后续就可以在拼图工具中完成拼图啦!备注:上传的图片均转化为位图!图的比例已经固定,不会被拉伸,如果要改变大小,请同时设置高度和宽度!
2. 分别筛选四个数据集的差异基因
将前面下载的GSE33630数据集差异分析结果,按照adjust P value <0.05 且| log2 (FC) |>1筛选差异基因,其它三个数据集操作同上。
3. 通过热图对四个数据集的差异基因(Top 200 DEGs)进行展示(Figure 2)
选择分析工具中数据集模块,点击云热图,勾选前面分析好的云端数据集,分子列表中粘贴对应数据集的Top 200 差异基因,调整文字、图注、颜色及图片大小等其它参数,点击确认。运行完成后,点击保存结果,以备后续拼图所用。这里也直接下载保存TIFF或者PDF格式图片。
依次输出保存其它数据集差异基因热图后,进入拼图工具,左侧栏移取四个数据集的热图,同时在左侧ABC标注栏调整图标参数。
注意:由于数据预处理方法的不同,各个数据集后续的差异基因会有所差异,这里仙桃生信工具是通过GEO query包从GEO数据库中下载目标数据集,去掉一个探针对应多个分子的探针,当遇到对应同一个分子的探针时,仅保留了信号值最大的探针。在仙桃生信工具中,选择基础绘图模块,点击韦恩图,在数据栏中上传整理好的excel文件,数据格式如下右侧栏调整颜色、图片大小等相关参数,点击确认,运行完成后,点击保存结果,以备后续拼图所用。这里也直接下载保存TIFF或者PDF格式图片(Figure 3)同时下载excel结果,获取整理四个数据集共同的差异基因。这部分主要是对筛选出的差异基因进行了GO注释以及KEGG通路富集分析。在仙桃生信工具中,选择功能聚类(圈)模块,选择GO/KEGG富集分析,右侧分子列表输入差异基因列表,富集分析选项中分别选择全部GO条目,其它默认即可,点击确认,运行完成后点击保存结果,以便后面进行结果可视化,同时也可下载excel及Word三线表。点击GO/KEGG可视化,选择前面分析好的云端数据GO项目,可视化类型可选柱状图或者气泡图,基本参数ID List根据前面GO分析的结果选择性粘贴ID,调整其它相关参数,点击确认,保存柱状图结果(Figure 4)。此外,同样方法在右侧分子列表输入差异基因列表或者上调/下调基因列表,富集分析选项中分别选择全部GO条目,点击确认,运行完成后下载Word三线表,可直接用于文章发表(Table 3/4),表中所列条目可根据需求转化(比如原文中计算的Fold enrichment)或者根据excel内容进行加减。
在仙桃生信工具中,选择功能聚类(圈)模块,选择GO/KEGG富集分析,右侧分子列表输入差异基因列表,富集分析选项中分别选择KEGG条目,点击确认,运行完成后点击保存结果,以便后面进行结果可视化。同时下载Word三线表(Table 5)及excel,word三线表内容亦可更加excel内容进行加减。Excel所包含的详细内容如下:
点击GO/KEGG可视化,选择前面分析好的云端数据KEGG项目,可视化类型可选柱状图或者气泡图,基本参数ID List里面输入KEGG结果的ID,调整其它相关参数,点击确认,保存柱状图或气泡图,这里也可直接下载保存TIFF或者PDF格式图片。
联——交互网络
差异基因通过STRING构建PPI网络
进入STRING数据库,左侧栏选择Multiple proteins,右侧List of Names中粘贴差异基因,物种选择homo sapiens,点击search。
随后点击Exports,选择as a bitmap image的download,即可得到PPI图片。
靠——临床意义
临床组织样本中10个基因的表达数据可通过仙桃工具中的基础绘图部分绘制箱式图及统计分析,然后通过拼图工具整合(Figure 8)
这里我们用模拟数据给大家进行演示,选择基础绘图版块中的分组比较,在数据栏中上传整理好的excel数据文件,数据格式如下:
相关参数调整,这里注意横纵坐标标题的修改以及大标题的添加,以及图片大小的调整,然后点击确认,待后台运行完成后,保存结果,以备后续拼图。同样操作其余9个基因。依次输出保存10个基因箱式图后,进入拼图工具,左侧栏移取10个基因箱式图,同时在左侧ABC标注栏调整图标参数。排版完成后,点击右下角TIFF或者PDF下载即可。
复现是生信小白通往大神的必经之路。虽然本次的文章复现,并未对细节一一复现,比如图表配色、数据的分析结果,但不用代码自己趟完这整个流程的每个细节步骤,仍收获良多。真心觉得思路+便捷的工具于是生信研究的王道。好啦,本次的内容复现就到这里~~~欢迎小伙伴们在评论区和我沟通。探索基因间相互作用和功能,除了string还有更友好的它!
一句话证明你是医生
绝了!9+纯生信文章,我用15分钟零代码教你复现!老底儿都没了(附详细操作教程)
搞科研的小伙伴都想发SCI,
发文章流程你真的清楚吗?
前期筹备?文章写作?
选刊投稿?正式发表?
坑无处不在,小心别踩奥!
本周直播酸谈来帮你排排雷!
避雷指南:发文章流程必知的6个技巧
酸菜老谈在线给你实用小tips,
想发文章再也不是难题啦!
直播预告
直播平台:Bilibili、微信视频号
直播时间:4月10日(周六)晚18:00-20:00
直播主题:《避雷指南:发文章流程必知的6个技巧》
带着你的小伙伴们
一起相约解螺旋直播间吧!