#LncRNA从入门到精通
首先lncRNA是Non-coding RNAs的一种
长链非编码RNA(long noncoding RNA,lncRNA)
长 度>200bp的RNA,由RNA聚合酶Ⅱ转录,lncRNA具有保守的 二级结构, 大部分不编码蛋白质,也有报道,其可以编码多肽,多 肽大部分无功能。
LncRNA来源很广,可以来源于基因编码区、 非编码区、外显子、内含子、正义链或反义链。
LncRNA发挥功 能的方式很广,可以与蛋白、DNA和RNA相互作用,参与多种 生物学过程的调控。
再次强调,如果你仅仅是处理数据,可以把LncRNA跟其它基因一样的处理即可。大部分都是看表达差异罢了。
这里面的17910个 Long non-coding RNA genes 是需要重点关注的。参考:https://www.gencodegenes.org/human/stats.html
所以,如果你分析LncRNA的数据,最后最好是输出的结果,以GENCODE数据库的ID为准,这样方便你我他!再次强调,如果你仅仅是处理数据,可以把LncRNA跟其它基因一样的处理即可。大部分都是看表达差异罢了。
lncRNA功能
有参考文献
lncRNA-miRNA相互作用
这个其实是目前的数据分析重点,就是我们一直说的ceRNA 理论。
lncRNA因其存在Introns等片段组成,长度可达数千nt,这就为吸附结合大量的miRNA提供了良好的物质基础,通过竞争占有胞内大量的miRNA,像海绵一样缓冲并削减其干涉靶基因mRNA编码蛋白的能力,我们就称这样的lncRNA与mRNA互为ceRNA关系,因此可见,作为关联节点的就是miRNA,它的靶构成了ceRNA,共同组合就是ceRNA网络。
一个 lncRNA 可以归于以下五类中的一种或五种:(1)sense(2)antisense (3)bidirectional(4)intronic(5)intergenic,这个在很多综述都可以看到,我建议看最新的,就是发表在J Anim Sci Technol. 2018; 的综述:Long non-coding RNA: its evolutionary relics and biological implications in mammals: a review
------------------------------分割线---------------------
miRNA、LncRNA、CircRNA靠谱小结
如何用今天的知识印PAPER?
WTF!印文章?
对!你没听错!只要掌握了今天的知识概念,利用往期学习的生信技能,再加上一点ceRNA网络构建的小技巧,就可以轻松搞一篇SCI。本着只讲干货的原则,就把我们看家糊口的本领交给诸位,基本方法如下(利用公共数据库构建癌症ceRNA网络):
在TCGA数据库中获取某一癌症的表达谱数据,设定合适的参数和阈值处理得到差异表达的mRNA、miRNA和lncRNA;
利用多个数据库,如miRwalk、targetscan、miRbase等,建立以miRNA为中心的互作关系,即分析哪些差异表达的mRNA和lncRNA是哪些差异表达的miRNA的靶基因;
通过CytoScape等网络图搭建软件绘制ceRNA网络,根据相关性、表达变异等信息个性化网络图的呈现形式,原则就是内涵尽量丰富,但要保证清晰、可读性强。
到这儿ceRNA网络就搭建成功啦,但是要想把文章质量发的好一些,肯定还要花哨一些的,比如:
加上数据处理过程图(聚类热图或者火山图)充个数;或者把差异表达的mRNA去做个功能富集分析;还可以搞个共表达网络WGCNA什么的;再有呢可以联系临床数据把意义重大的节点分子做个生存分析啦什么的;你要是有个实验室,能收点样本买个芯片啥的,做个验证是再好不过的咯。。。
【02】LncRNA芯片的一般分析流程
其实主要是共调控网络分析
里面有代码演示:test。
主要就是:编码和非编码的基因的表达矩阵做差异分析。
【03】LncRNA-seq的一般分析流程
lncRNA分析跟常见的mRNA-seq分析重合度很高,无非也是把测序的fastq文件mapping到参加基因组,获取转录本信息,转录本表达定量,表达量的差异分析,比较新的分析就是把转录本分成了lncRNA和mRNA,这样可以考虑它们之间的互相作用,也可以在实验设计的时候加入miRNA和CHIP-seq,这样多种数据结合分析,显得更高大上一点,也能更好的刻画机体状态,从而回答生物学假设。要完成全部lncRNA-seq数据分析的学习,需要非常大量的文献阅读。
最经典的仍然是看表达差异
所以对于这样的lncRNA-seq数据,走我们标准的RNA-seq定量流程,针对gencode数据库的gtf文件拿到表达矩阵即可,这个表达矩阵里面就包含了lncRNA和mRNA,可以分开走走标准分析流程,火山图,热图,GO/KEGG数据库注释等等
分为:如果是芯片;如果是测序
值得注意的是RNA-seq其实比不上LncRNA芯片
LncRNA相关数据库
11步学会LncRNA-seq数据分析
这里重要,写作时可参考。文献集合
【04】网页工具推测非编码RNA的生物学功能(lncRNA表达矩阵免费分析)
需要理论模型和算法支持,LncRNA2Function网页工具就是其中一个选择!
如果是想探索LncRNA在疾病研究方向的成果,还可以通过FARNA网页工具,依赖的是KEGG Orthology Based Annotation System (KOBAS)数据库,其也是多种数据库的整合,包括, KEGG DISEASE, GAD and NHGRI GWAS Catalog disease databases.
文中关于WGCNA
查看感兴趣基因的甲基化水平和RNA表达水平(数据分析免费做)相关性
【05】lncRNA-seq数据分析之新lncRNA鉴定和注释视频课程众筹【忽略】
【06】鉴定新的lncRNA之上游流程【忽略】
上游流程,通常指的是ngs测序数据fastq文件。个人电脑难以完成,通常由公司完成。吃力不讨好
而下游就是表达矩阵的一系列统计学分析, 包括PCA,相关性热图,层次聚类图,差异分析,火山图,表达量热图,GO/KEGG数据库功能注释等等。
【07】lncRNA芯片的探针到底该如何注释到基因组信息呢【忽略】
我很喜欢blat这个在线网页工具,因为当初听说它的速度甩blast工具几十条街。
在我B站视频,多次提到它的奇妙用法,但是我也是今天才知道,它居然也可以跨越内含子进行比对。