《GEO数据挖掘课程》配套练习题

本次配套练习题,需要复现的文章是 lncRNAs PVT1 and HAR1A are prognosis biomarkers and indicate therapy outcome for diffuse glioma patients,请自行仔细研读,拿到数据处理流程。

问题1:表达芯片里面的lncRNA

如何从Affymetrix HG-U133 Plus 2.0 arrays挑出1950 probe sets (corresponding to 1303 lncRNA genes),不包括 pseudogenes 。(数量差不多就好了,不要纠结于精准的1950个探针。)

library(hgu133plus2.db)ids=toTable(hgu133plus2SYMBOL)length(unique(ids$symbol))tail(sort(table(ids$symbol)))table(sort(table(ids$symbol)))plot(table(sort(table(ids$symbol))))# 可以看到很多基因都是有着多个对应的探针

参考:http://www.biotrainee.com/thread-626-1-1.html  找到每个基因的分类属性。去gencode数据库下载gtf文件后,使用R包读入进行分类。或者其它bioconductor解决方案。

LncRNA的分类:

分类依据是lncRNA在基因组上面的位置和与附件一些编码基因的位置关系来分类的)

  • Intergenic lncRNA(这种lncRNA完全位于基因的间距的和旁侧的编码基因是没有重叠的)
  • bidirectional lncRNA(这种lncRNA和编码基因mRNA的位置小于1kp,转录的方向是相反的)
  • Intronic lncRNA(这种lncRNA位于编码基因内含子的区域,不与该内含子的外显子存在重叠)
  • Antisense lncRNA(这种lncRNA与蛋白质编码基因的外显子有重叠区,但是转录方向相反)
  • sense overlapping lncRNA(这种lncRNA与蛋白质编码基因的外显子有重叠区,而且转录方向相同)
lncRNA的数据库:

NCBI 、UCSC 、Ensembl 、Gencode 、Lncpedia 、lncrnadb 、NONCODE 、the lncRNAand disease  datebase

还没有公认的权威的数据库,需要用到不同的数据库,各种数据库各有优劣。

问题2:GEO数据集下载

下载GEO dataset (GSE4290) 数据集,使用GEOquery包或者其它。然后筛选  77个 glioblastoma samples and 23 non-tumor controls

问题3:差异分析并且绘制热图

在下载的GSE4290表达矩阵里面提取1303 lncRNA基因的热图。(数量级是1000即可,不要求精确数量)

问题4:绘制火山图

仅仅是对1303个 lncRNA基因的表达矩阵进行差异分析,并且根据 (|logFC| >1; P <0.05),  阈值来画火山图

问题5:R包和GPL的soft信息差异

比较hgu133plus2.db里面的基因的注释信息和https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570的数据的区别。

主要是更新时间问题,看:hgu133plus2_dbInfo()

1558290_a_atHomo sapiensBG200951PVT1

问题6: 指定基因(这里是PVT1)画boxplot,多个分组

下面仅仅是示例代码而已:

n_expr=raw_exprSet[,tmp1==" non-tumor"]t_expr=raw_exprSet[,tmp1==" glioblastoma, grade 4"]a=raw_exprSet[, grep('astrocytoma',tmp1)]od=raw_exprSet[, grep('oligodendroglioma',tmp1)]
raw_exprSet=cbind(n_expr,t_expr,a,od)group_list=c(rep('NC',ncol(n_expr)), rep('GBM',ncol(t_expr)), rep('a',ncol(a)), rep('od',ncol(od)))raw_exprSet=log(raw_exprSet)library(ggstatsplot)dat=as.data.frame(t(raw_exprSet))dat$group=group_list# 1558290_a_atHomo sapiensBG200951PVT1ggbetweenstats(data = dat, x = group, y = '1558290_a_at')

问题7:摸索TCGA的GBM的临床信息,找到classical, neural, proneural and mesenchymal分类方式。

建议使用ucsc的xena浏览器探索,下载数据。如果你网速太差,也可以看我这边备份的TCGA数据,就是来源于xena,ucsc的,都在,https://share.weiyun.com/5zLnKmO

需求最大的是tcga数据库的生存分析和表达量差异,看看这两个视频:

  • https://www.bilibili.com/video/av25643438?p=9

  • https://www.bilibili.com/video/av49363776?p=6

问题8:摸索TCGA的GBM的mRNA-seq表达矩阵(完成PVT1的boxplot)

下载mRNA-seq表达矩阵,counts矩阵,然后提取PVT1基因的表达量信息,根据临床信息,分类汇总后绘图。

写到最后

如果你也想开启自己的生物信息学数据处理生涯,加入生信技能树小圈子,还等什么呢,赶快行动起来吧! 发邮件(jmzeng1314@163.com)给生信技能树创始人jimmy就有惊喜哦!当然了,不能是辣鸡或者骚扰邮件啦,带上自己的简历和想学习交流的诚心吧!

(0)

相关推荐

  • 【生信挖掘】模块化代码复现6分免疫相关lncRNA预后模型

    生信已经成为科研圈发SCI的神器了,检索PubMed上可见发表的文章不管高分低分都涉及生信,但是许多人听见生信编程就望而却步,产生恐惧心理,我们特邀请医科堂生信挖掘一对一辅导训练营周老师开设专栏,通过 ...

  • 《机动车发票使用办法》配套练习题

    原创 鱼游税海 一策一练 2021-01-03 学一个政策:<国家税务总局 工业和信息化部 公安部关于发布<机动车发票使用办法>的公告国家税务总局 工业和信息化部 公安部公告> ...

  • “以进控销”模式下的《机动车发票使用办法》

    机动车发票低开虚开问题由来已久,近期出台的<机动车发票使用办法>(以下简称<办法>)确立了贯穿机动车生产.批发.零售全流程的发票管理机制,强调"以进控销"& ...

  • 解读《机动车发票使用办法》

    很大程度上说,靠自己做出成绩变得富有的人,往往比穷人更能吃苦,否则他就不可能靠自己白手起家.你会发现,这些人富有了以后,还是比你勤奋,还是比你能忍受孤独,还是比你能延迟满足,还是比你简单纯粹,这才叫吃 ...

  • 实用 | 解读《机动车发票使用办法》

    小颖言税 2021-07-01 以下文章来源于中国税务杂志社 ,作者<中国税务> 中国税务杂志社中国税务杂志社是国家税务总局直属事业单位,主要负责<中国税务><税务研究& ...

  • 最新:机动车发票使用办法操作指引

    2021-07-06 <机动车发票使用办法>于2021年5月1日起试行,7月1日起正式施行.为了帮助机动车企业正确理解<机动车发票使用办法>各项规定,国家税务总局近期联合工信部 ...

  • 总局图解《机动车发票使用办法》政策要点

    本问答分三部分: 第一部分:机动车发票开具问题(税务ukey) 第二部分:机动车发票开具问题(税控盘) 第三部分:机动车发票开具问题(金税盘) 机动车发票开具问题(税务ukey) 一.开具机动车销售统 ...

  • 《机动车发票使用办法》辅导资料202104-内蒙古

    发布时间:2021-04-26来源:国家税务总局内蒙古自治区税务局 (2021年4月1日) 为深入贯彻落实国务院"放管服"改革要求,规范机动车行业发票使用行为,营造公平公正有序的营 ...

  • 机动车发票使用办法操作指引(机动车企业使用)

    [总局]机动车发票使用办法操作指引(机动车企业使用)2021-07-06国家税务总局第一部分 概 述为了帮助机动车企业正确理解<机动车发票使用办法>(以下简称<办法>)各项规定 ...

  • 如何正确使用机动车发票,重点关注四个方面

    2021年05月19日 来源: 机动车涉票虚开案件时有发生,既扰乱了机动车行业管理秩序,又严重侵害了守法纳税人和消费者的合法权益.为此,国家税务总局.工业和信息化部.公安部共同出台了<机动车发票 ...

  • 机动车发票使用出新规,一起来看关键点吧!

    为深入贯彻落实国务院"放管服"改革要求,规范机动车行业发票使用行为,营造公平公正有序的营商环境,国家税务总局.工业和信息化部.公安部联合制定了<机动车发票使用办法>(2 ...