4个发育时间点的总共12个鸡转录组测序样本的长非编码RNA的鉴定
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
标题:Analysis of long noncoding RNA and mRNA using RNA sequencing during the differentiation of intramuscular preadipocytes in chicken
标题:应用RNA测序对鸡类肌内前脂肪细胞的分化过程中长非编码RNA和mRNA的分析
供稿:张志超
杂志:PLOS one (2017)
通讯:Jinyu Wang 扬州大学动物科技学院;江苏省安永动物遗传育种繁育与分子设计实验室
摘要:
本研究在不同分化阶段的鸡肌肉前脂肪细胞中鉴定lncRNA,12个样本中共获得25,435个lncRNA。共鉴定到7,433个差异表达基因(4,698个lncRNAs和2,735个mRNAs)。通过K-Means聚类,这7433个差异表达基因根据其表达模式被分成11个簇。利用加权基因共表达(WGCNA)网络分析,我们发现了4个与I0、I2、I4和I6期呈正相关的阶段特异性模块和2个与I0和I2期呈负相关的阶段特异性模块。许多已知的和新的与肌肉内前脂肪细胞分化相关的途径被鉴定出来。我们还在每个阶段特定的模块中识别了HUB基因,并在Cytoscape中对它们进行了可视化。我们的分析发现了许多高度相关的基因,包括XLOC_058593、BMP3、MYOD1和LAMP3。本研究为鸡LncRNA的研究提供了有价值的资源,加深了我们对鸡前脂肪细胞分化生物学的认识。
背景知识:
为了更快的生长和提高饲料转化效率而进行的基因选择,鸡肉的质量和风味都有所下降。
研究表明,鸡肉中,肌内脂肪(IMF)含量与多种肉质细胞有关。IMF水平主要由分布在肌纤维间的脂肪细胞的增生和肥大决定。
脂肪形成是一个受多种转录事件调控的复杂过程。在哺乳动物中,肌内前脂肪细胞的分化已经得到了很好的研究,特别是在牛和猪身上。先前的研究证实FTO、GPR39、myostatin、microRNA-143、PPARG、FABP4和Lipe在猪和牛的肌内前脂肪细胞分化和肌内脂肪沉积的调节中起关键作用。然而,对鸡肌肉内脂肪沉积的调控机制却知之甚少。到目前为止,只有几个基因被确认与肌内脂肪沉积有关,如H-FABP、A-FABP、FAT/CD36和adiponectin。
之前的研究表明,lncRNA影响腹部和皮下前脂肪细胞的分化。然而,这些研究主要集中在腹部和皮下前脂肪细胞,对lncRNAs在肌内前脂肪细胞分化中的作用和意义知之甚少。该研究利用RNA-seq技术研究了静海黄鸡分化第0、2、4、6天肌肉前脂肪细胞中lncRNAs和mRNAs的表达谱。
实验设计:
项目数据编号是SRP080792, 包括 I0、I2、I4、I6四个时期,每个时期三个重复。,如下所示的样品信息 :
数据方法
测序平台:Illumina HiSeqXTen PAIRED SRP080792
质控过滤:
FastQC: removing reads containing adapters, reads containing over 10% poly-N, and low-quality reads (>50% of bases whose Q scores were ≤10%) from the raw data 比对:
TopHat2(segment length, 25; segment mismatches, 2) 鸡基因组 Gallus gallus reference genome (gal4)
组装:Cufflinks(Reference Annotation Based Transcript assembler )
候选转录本鉴定
RPKM>0 转录本类别:“i,” “j,” “x,” “u,” and “o”,选择长度大于200bp转录本 TransDecoder 预测ORF ,去除ORF大于300nt的转录本 区分mRNA和lncRNA :CNCI,CPC ,CPAT Pfam Scan(v1.3) lncRNA靶基因预测与注释
筛选候选lncRNA上下游100kb的编码基因 RNAplex 通过预测反义lncRNA和mRNA之间的互补结合来寻找lncRNA靶基因。 靶基因功能富集分析:DAVID 差异分析:
cuffdiff :在两个分组间 q-value <0.05 fold change ≥2 的基因和lncRNA被定义为 差异表达 共表达网络分析:
WGCNA:GS和MM值高度相关(P值<0.05)的模块和相关系数>0.4的模块-性状关系被认为是特定阶段的模块。GS>0.4和MM>0.8的基因被鉴定为相应模块中的HUB基因。 富集分析:KOBAS P-value less than 0.05 were considered as significantly enriched.
结果
1.测序结果和质量控制
这个基本上是测序公司就会自动给大家提供的测序结果和质量控制表格。每个样品都是接近1个亿的reads数量,非常的充足啦,比对率高达80%,对鸡这个物种来说也非常棒。
2.肌内前脂肪细胞中lncRNAs的鉴定
12个肌肉前脂肪样本中共获得25435个新的lncRNA ,具体鉴定流程后面详解;
LncRNAs的开放阅读框长度主要在20~100bp之间,而且外显子数量基本上都是1个。可以看到,lncRNAs的序列长度和开放阅读框长度都比mRNAs短,外显子数也较少。
大量lncRNA的功能是未知的,但是它们主要是cis-regulators,所以可以根据它们临近的蛋白编码基因功能来近似推断,然后表达量的相关性也可以类推到。
根据位置关系推断 使用bedtools等工具!
表达量的相关性, 比如杂志Cancer Medicine, 2020的文章《 Genome-wide DNA methylation analysis by MethylRad and the transcriptome profiles reveal the potential cancer-related lncRNAs in colon cancer》,在进行结直肠癌相关lncRNA的功能富集分析,就是采用LncRN2Target v2.0和StarBase分析与15个lncRNA共表达的蛋白编码基因,其中lncRNA HULC和ZNF667-AS1分别鉴定到28个、9个共表达的蛋白编码基因!
文章进行了如下所示的两个推断:
通过顺式功能预测确定了20116个lncRNAs的11398个靶基因,通过互补结合预测确定了479个lncRNAs的365个靶基因。**对靶基因进行GO和KEGG.
主要富集的通路有:转化生长因子-β信号通路、丝裂原活化蛋白激酶信号通路和肌动蛋白细胞骨架调节通路,蛋白质消化吸收、肥厚性心肌病(HCM)和造血细胞系。
3.肌内前体脂肪细胞分化过程中差异表达基因的研究
转录组的标准分析,比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
以q-value<0.05和fold change ≥2为标准,通过对分化第0、2、4和6天的前脂肪细胞样本进行成对比较(I0对I2,I0对I4,I0对I6,I2对I4,I2对I6),获得4698个差异表达的lncRNA和2735个差异表达的mRNA(已知蛋白编码基因)。
通过同一样本的配对比较(I0对I2,I2对I4,I4对I6),总共获得了3200个差异表达的lncRNA和1608个差异表达的mRNA。如图4所示,43个差异表达基因在四个比较(3个lncRNAs和40mRNAs)中是共同的。
唯一值得一提的是,基因的聚类分群,也有专门的R包可以做,大家可以去搜索关键词:转录组的时间序列分析,如下所示:
绘制了11个聚类图,可以分成6个主要簇。
第一组,簇1和簇6基因在第2天降低,在第4天和第6天增加。 第二组,包括簇2,代表在分化第2天表达上调,然后在分化第4天达到最高表达水平的基因,提示该组基因在肌内前脂肪细胞的分化过程中起着重要作用。 第三组,包括簇3和簇4,代表了经历了总体下降趋势的基因,这表明它们不参与肌肉内前脂肪细胞的分化。 第四组,包括簇5、9和11,代表在分化的第二天显著上调的基因,这表明它们在早期是必不可少的。这些簇中的基因包括已知对前脂肪细胞分化很重要的基因,如IGFBP和FADS2。 第五种表达模式包括簇7,它代表相对维持的基因在分化的第4天之前表达水平保持不变,然后在分化第6天显著上调。提示这些基因,包括IGF-1和MC5R,可能参与了肌内前脂肪细胞分化的晚期。 最后一组,包括簇8和10,代表基因在分化的第0天和第2天表达水平较低,但在分化的第4天和第6天表达水平明显较高。Bmp6、FABP4、PPAR和FAT4等这类成员与前体脂肪细胞分化有关。
4.共表达网络的构建及模块检测
生信技能树多个教程分享WGCNA的实战细节,见:
一文学会WGCNA分析