从小白的角度,30分钟复现生信套路。今天为大家带来一篇2020年9月发表于International Journal of Chronic Obstructive Pulmonary Disease的生信文章《Construction of Potential miRNA–mRNA Regulatory Network in COPD Plasma by Bioinformatics Analysis》的复现。
本文是一篇挖掘GEO数据库的纯生信文章,涉及9个图片,3张表格,用到的数据集是GPL570平台的GSE56768,GPL9040平台的GSE24709、GSE61741、GSE31568。
9张图包括:
- 前12 hub genes在GSE56768中的表达
下载GSE24709、GSE61741、GSE31568表达矩阵,以GSE24709为例:进入GEO网站https://www.ncbi.nlm.nih.gov/geo/,检索GSE24709:点击“GSE24709_series_matrix.txt.gz”:打开“GSE24709_series_matrix.txt”:将表达矩阵部分复制粘贴到新表格,并删掉肺癌样本数据,只保留normal样本和COPD样本:进入仙桃学术网站https://www.xiantao.love/products。进入主页,选择高级版,点击“立即使用”。(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)选择“分析工具”后,在左侧选择“表达差异”下的“复杂热图”,参数选择如下图所示:回到GEO网站的GSE24709检索结果页面,点击“analyze with GEO2R”:分别定义组别COPD、normal,并对样本赋予组别:按“|LogFC|>1.5 and an adjusted P value <0.05”对其进行筛选:将GSE24709、GSE61741、GSE31568的DEMs整理成表格:回到仙桃学术网站,选择“分析工具”后,在左侧选择“基础绘图”下的“韦恩图”,上传该表格,点击确认:点击“excel表格下载”,得到9个交集的DEMs:在GSE24709、GSE61741、GSE31568的差异分析表格中分别检索以上9个交集的DEMs,找到其对应的logFC。另外,可以注意到以上9个交集的DEMs中有一些miRNA的命名中带有星号,到miRBase网站中进行转换。分别检索hsa-miR-182*、hsa-miR-126*、hsa-miR-130b*:发现hsa-miR-182*最新ID为hsa-miR-182-3p:发现hsa-miR-126*最新ID为hsa-miR-126-5p:发现hsa-miR-130b*最新ID为hsa-miR-130b-5p:另外检索hsa-miR-1468和hsa-miR-497发现分别有两个成熟序列:回到差异分析表格中比对序列,发现其实分别是hsa-miR-1468-5p和hsa-miR-497-5p:然后回到仙桃学术网站,选择“分析工具”后,在左侧选择“差异表达”下的“复杂热图”,上传该表格,点击确认:PS:至于hsa−miR−126−5p的结果为什么和原文不一致,这应该是作者的失误。打开miRNet网站https://www.mirnet.ca/miRNet/home.xhtml,点击miRNAs:输入上调交集DEMs,点击submit和proceed:即可整理出靶基因的数量。下调交集DEMs也是同样的操作。即可复现Figure 4和Table 2。Funrich预测不了miRNA的转录因子,该文献应该写错了,猜测应该是用Funrich预测的miRNA靶基因的转录因子。打开Funrich 3.1.3软件,点击“gene enrichment”,“add dataset”:点击analysis,选择transcription factor,点击OK:下调的交集DEMs也是同样的操作,即可复现Figure 3B。在仙桃学术网站的“分析工具”页面选择 “功能聚类”下的“GO|KEGG 富集分析”,下载示例数据:上传该表格,在参数栏中选择全部GO+KEGG,点“确认”:对富集结果表格按照“adjusted P < 0.05”的条件进行筛选:从GO-BP、GO-CC、GO-MF条目中分别挑选一些自己想要展示的条目。然后选择仙桃学术网站左侧的“功能聚类”下的“GO|KEGG 可视化”,选择刚才保存的富集分析结果,选择图片类型为柱状图,将GO条目输入到红框中,并选择分面:输入想要展示的KEGG条目,图片类型选择柱状图或气泡图,“不分面”,即可复现Figure 6:将上调DEMs的靶基因复制到list of names中,organism选择“homo sapiens”,检索(因为String不支持输入基因超过2000个,所以只选择1000个基因进行后续分析):打开Cytoscape软件(3.8.0),载入互作表格:输入Top 30,选择“MCC算法”,点击submit:即可得到MCC算法下上调DEMs靶基因的top 10 hub genes及其score。根据同样的操作即可得到MCC算法下下调DEMs靶基因的top 10 hub genes及其score。整理成表格,即可复现Table 3。打开之前在miRNet网站检索到的靶基因表格,分别搜索上/下调DEMs靶基因的top 10 hub genes对应的DEMs,整理成表格miRNA-hub gene。新建一个表格color,第一列为miRNA-hub gene表格中的分子,第二列为上下调状态:新建一个表格shape,第一列为miRNA-hub gene表格中的分子,第二列为分子类型:打开cytoscape(3.8.0)软件,载入miRNA-hub gene表格:点击File——import——table from file,导入color表格和shape表格:在style中点击fill color,选择column参数为DE,mapping type参数为discrete mapping,DOWN参数为绿色,UP参数为红色:点击shape,选择column参数为Kind,mapping type参数为discrete mapping,gene参数为diamond,miRNA参数为ellipse:图片可以导出(点击File——Export——Network to Image):图九:前12个hub gene在GSE56768中的表达
打开平台注释文件,检索hub gene RPS25,发现对应的探针号200091_s_at:打开表达矩阵表格,检索探针号200091_s_at:复制该行数据以及样本名行、样本特点行到一个新的表格:回到仙桃学术,在 “分析工具”页面选择 “基础绘图”下的“分组比较图”,上传该表格,选择点图,Y轴标题输入RPS25,点击确认:其余11个hub gene的表达也是同样的操作,即可复现Figure 9。好了,本期零代码生信文章复现就到这里啦!有没有觉得仙桃学术的工具很赞很奈斯?希望大家好好利用这个宝藏,多多发文章~