lncRNA数据分析传送门

可以参考我们前面组织的3个学习小组:

表观组学小组开始招人啦

生信技能树转录组板块学习小组招募启事

450K甲基化芯片数据处理传送门

ChIP-seq基础入门传送门

转录组入门传送门

step1: 计算资源的准备

如果有差不多配置的服务器,就可以从SRA/FASTQ格式数据开始走全套流程。不懂配置,请看前面转录组和表观组的传送门。

如果只有个人电脑,那么直接下载表达矩阵开始分析也是可以的。

step2: 读文献,查看GEO数据

文章是 Annotation and cluster analysis of spatiotemporal- and sex-related lncRNA expression in Rhesus macaque brain , 作者测了 4个年龄段的恒河猴:1年(child),4年(Youth),10年(Adult)和20年(Old); 脑组织新皮质、海马和小脑不同区域(8个),两种测序模式(RNA-seq and CAGE-seq),两种性别,总计(4X8X2X2)128个样本。所以作者分析可以mRNA和lncRNA在时间,空间以及性别上面的区别。

里面关于数据和方法写的很清楚:

RNA-seq and CAGE-seq data have been submitted to the NCBI Gene Expression Omnibus (GEO; https://www.ncbi.nlm.nih.gov/geo/) under accession number GSE87182. The modified WGCNA code and co-expression network and data are available in the Supplemental Material can be downloaded from GitHub (https://github.com/DChenABLife/RhesusLncRNA).

而且里面详细的列出了数据处理方法,使用到的软件,参数,以及步骤,希望大家仔细研读清楚。

step3:了解参考基因组及注释文件

这个物种是 Macaca mulatta ,这里我们只分析转录组测序数据, https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE85377

step4: 得到表达矩阵的流程

这一步仅限于有服务器的朋友,没什么好说的了,在转录组,表观组我们都已经详细讲解了。

SRA—>FASTQ—>BAM—>COUNTS 这几个步骤而已,中间穿插一些质控的手段,每个步骤选择好合适的软件即可。可以参考:一个植物转录组项目的实战 http://www.bio-info-trainee.com/2809.html

因为物种比较特殊,所以上游分析的时候需要选择的参考基因组,参考注释文件都会比较麻烦。

幸运的是作者上传了他上游分析后得到的表达矩阵,大家只需要下载即可:

ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE85nnn/GSE85377/suppl/GSE85377_All_sample_merged_RPKM_ed.xlsx

目前已发现的lncRNA的数量接近mRNA(GENCODE V25, http://www.gencodegenes.org),lncRNA具有scaffolds,molecular sponges等基因调控功能机制,是重要的表观和转录调控因子。尽管lncRNA普遍低保守和低表达,lncRNA却具有明显的tissue和 stage-specific表达特征,因此被认为参与调控不同的生物学功能,尤其是细胞分化和发育。

step5: 差异表达的mRNA和lncRNA

很明显,得到了表达矩阵之后,根据上面的样本信息,可以按照年龄,性别,取样部位来进行分组找差异。

可以参考:https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts

step6: WGCNA分析

因为样本数量比较可观,所以可以进行WGCNA分析。这里是并不需要选取所有的基因来做WGCNA分析,挑选的标准可以是top变异程度大的基因集合,或者显著差异表达的基因集合等等。

这里可以参考:https://github.com/jmzeng1314/my_WGCNA

WGCNA将lncRNA分成18个模块(3635个lncRNA),空间模块中lncRNA表达呈现明显的组织区域特异性,如:CB (M1, 794个lncRNAs),DG/CA1 (M2, 443个lncRNAs), CA1 (M4, 369个lncRNAs),neocortex (M7, 123个lncRNAs)和OC (M10,57个lncRNAs)。

时间模块中lncRNA表达与年龄有关,而与组织区域不明显;性别模块中lncRNA表达与性别和年龄都相关。

每个模块就必须做pathway/go等数据库的注释分析咯!

step7: 皮尔森相关性分析基因对

基于皮尔森相关性分析,对9904个lncRNAs和26654个 mRNAs进行计算,结果发现5084个lncRNAs和18418个mRNAs 形成了3341261个共表达基因对;例如,lncRNA MIAT与237个mRNAs和93个lncRNAs有共表达关系,对MIAT相关的mRNA进行富集分析,显示MIAT涉及neuroactive ligand-receptorinteraction, dopaminergic synapse, glutamatergic synapse等生物学功能。

对每个lncRNA模块相关的mRNA进行EnrichedGene Ontology (GO) terms和KEGG pathways研究,从而可以发现模块基因集相关的生物学功能,如M1 lncRNAs (CB module)最显著富集于 Fanconi anemia 通路。

这个套路在TCGA数据库里面已经被玩烂了,大家可以去数据库里面搜索看看。

step8:鉴定全新的lncRNA

这个时候已经不是表达矩阵的事情了,要从新从fastq测序数据开始。

对测序后的fastq数据进行转录本的组装。基于组装后的转录本,通过数据库注释去掉编码蛋白质的mRNA以及数据库中收集的已知的lncRNA,对剩余的转录本进行生物信息学分析,最终鉴定出全新的lncRNA,作为后续研究的起点。

Step9:确认lncRNA是否真的是lncRNA

lncRNA具有一系列独特特性,这些特性与编码蛋白质的mRNA有或多或少的区别。需要将鉴定出的新lncRNA与数据库中的lncRNA以及蛋白质编码基因属性进行比较,从而确定它们是否为真正的lncRNA。

这些属性包括,转录本长度,表达水平,保守性(外显子和内含子),GWAS SNP的富集等等。如果这些属性与已知的lncRNA类似,且与蛋白编码基因差别大则说明鉴定出的lncRNA为真正的lncRNA。

lncRNA到底能不能翻译,还得看其自身先天条件——是否具有核糖体结合位点;是否具有开放阅读框(ORF)。只有两种条件都符合(满足开放阅读框,核糖体结合位点),并且翻译的多肽在物种间具有一定保守性,那么该lncRNAc才算是有了翻译的本钱。

step10:lncRNA其它数据库

1.DIANA-LncBase v2——http://www.microrna.gr/LncBase

2.LNCediting——http://bioinfo.life.hust.edu.cn/LNCediting/

3.NPInter v3.0——http://www.bioinfo.org/NPInter/

4.lncReg——http://bioinformatics.ustc.edu.cn/lncreg/

5.LNCipedia v4.0——http://www.lncipedia.org

6.LncRNAMAP——http://lncRNAMap.mbc.nctu.edu.tw/

Lnc2Meth (http://www.bio-bigdata.com/Lnc2Meth/) 就是一个基于已有发表文献结果,对其中涉及到在特定研究疾病中的lncRNA及其甲基化结果进行了整理归纳收录的数据库。其中,对于每一个lncRNA都会提供DNA甲基化区域、类型和调控机制,而其是否在文献报道中有作为诊断分子以及其发表文献信息等都有整理。

lncSNP2.0 (http://210.46.80.146/lincsnp/search.php) 当仍不让的成为大家的首选工具,它是由华中科技大学研究人员开发的专门收录lncRNA和SNP关联信息的数据库,包含人和小鼠两个物种。

RegRNA2.0 (http://regrna2.mbc.nctu.edu.tw/index.html)  是由台湾同胞所研发的,专用来预测RNA功能性的motif序列,其预测内容包含转录motif、mRNA降解原件、RNA-RNA结合、翻译预测等功能。

背景知识

这些知识没什么好说的,主要靠看文献,自己收集整理。

希望大家主要了解这8个方面:LncRNA的定义、LncRNA的发现、LncRNA的分类、LncRNA的功能、LncRNA的作用模式、LncRNA的争议、LncRNA的常用数据库以及LncRNA的研究模式。参考:http://www.biotrainee.com/thread-2485-1-1.html

(0)

相关推荐

  • 最强攻略2: 史上最全非编码RNA数据库汇总解读

    第一单元 lncRNA数据库 长链非编码RNA(Long non-coding RNA, lncRNA)是长度大于 200 个核苷酸的非编码RNA.研究表明, lncRNA 在剂量补偿效应.表观遗传调 ...

  • 这个宝藏网站,能让所有肿瘤lncRNA的研究者尖叫!

    解螺旋公众号·陪伴你科研的第2464天 又一挖掘lncRNA信息的宝藏网站. RNA测序(RNA-Seq)技术是近年来发展和应用迅速的二代测序技术,它促进了基因研究,并被应用于多种癌症研究,为研究选择 ...

  • miRNA与mRNA、miRNA与mRNA、LncRNA与蛋白RNP相关结合预测分析

    本篇我们将介绍miRNA与mRNA结合预测.LncRNA与miRNA结合预测.LncRNA与蛋白RNP结合预测相关内容 一.miRNA与mRNA结合预测 miRNA是非编码调控小分子,通过抑制基因表达 ...

  • Starbase:研究RNA,有人不知道它吗

    Starbase数据库于2011年上线,目前更新到3.0版本,开发者是中山大学RNA信息中心的屈良鹄研究团队.Starbase是做lncRNA/circRNA/microRNA等研究常用的强大数据库, ...

  • 零代码全部利用在线数据库的4分 纯生信文章是如何炼成的?

    大家好!今天跟大家分享的是2020年5月发表在Cancer Cell International(IF = 4.175)上的文章.文章利用从TCGA数据库中搜集的子宫内膜癌(EC)数据,分析了其中差异 ...

  • RNALocate:非编码RNA亚细胞定位检索工具

    导语 亚细胞定位是指某种蛋白或表达产物在细胞内的具体存在部位,例如在核内.胞质内或者细胞膜上存在.越来越多的证据显示,在生物学过程中位于不同的亚细胞器RNA拥有不同的功能,亚细胞定位有利于更深入地了解 ...

  • lncRNA-seq数据分析之新lncRNA鉴定和注释视频课程众筹

    前面我系统性的总结了:lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 ,还有LncRNA-seq的一般分析流程 ,里面提到了一个目前非常小众的分析方向,就是新lncRNA鉴定和注释,因 ...

  • 人员数据分析的CRISP-DM模型

    如何证明人力资源实践的有效性是重要且有价值,传统上,研究人员通过使用调查,访谈或观察收集数据来产生此类证据.借助这些数据,他们获得了对劳动力的洞察力,并制定了切实可行的干预措施以改善结果. 技术进步导 ...

  • HR数据分析--员工绩效指标

    员工绩效指标是跟踪员工绩效的关键,正确地实施它们是棘手的.但是,如果做得正确,员工绩效指标将使组织和员工都受益.我们在下面列出了最重要的指标,并提供了每个指标的一些实际示例. 员工绩效指标多种多样.我 ...

  • 为HR数据分析建立业务假设?

    为业务人员分析制定业务问题和发展假设,以确保你在分析主题中增加业务价值,研究如何构建业务问题,业务问题是否与实际定义假设相关. 什么是假设?假设是:基于有限证据做出的假设或建议的解释作为进一步调查的起 ...

  • HR数据分析中常用的21个数据源

    我们通常听到的一个问题是"什么可以用于分析的数据源?" 在本文中,我们将列出HR和更广泛业务中的许多常见数据源,这些数据源将有助于您进行人员分析. HR数据源可以分为3类: 一.H ...

  • 人力资源数据分析

    最近几天,支付宝.抖音.酷狗.喜马拉雅等公司相继发布2019年个人使用报告,发现自己的所作所为都在上面展现的一览无余没有死角,一方面感到数据分析的可怕,另外一方面在想是否可以利用数据在促进工作的提升, ...

  • 人力资源数据分析10条黄金法则

    根据德勤关于全球人力资本趋势的报告,人力资源数据分析革命正在加速.完全有能力应用人力资源分析的组织从4%增至8%.感觉有些能力应用人力资源分析的组织从24%增加到32%.我很高兴看到我的国家(荷兰)在 ...

  • Python数据分析库有哪些?常见分类!

    众所周知,Python前景好.需求量大.薪资高.就业岗位多,除了基本的开发工作之外,还可以从事人工智能.数据分析.网络爬虫等岗位.那么说起数据分析,你知道Python常用数据分析库有哪些吗?我们一起来 ...

  • 来自kaggle最佳数据分析实践

    翻译: 大邓 作者: Bex T 标题: Weekly Awesome Tricks And Best Practices From Kaggle 链接: https://towardsdev.com ...