9个组织的37个样本的大豆的长非编码RNA的鉴定
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
标题:The Long Intergenic Noncoding RNA (LincRNA) Landscape of the Soybean Genome
标题:大豆基因组的基因间区长非编码RNA(LincRNA)图谱
杂志:Plant Physiol(2018)
作者:Agnieszka A Golicz , Mohan B Singh , Prem L Bhalla
机构:墨尔本大学 兽医和农业科学学院 植物分子生物学和生物技术实验室
DOI: 10.1104/pp.17.01657
摘要:在这项研究中,来自代表9个组织的37个样本的超过10亿RNA-seq读取对被用来发现6018个lincRNA基因座。
LincRNAs比蛋白质编码转录本更短,表达水平更低,样品特异性表达更强。
在另外两种豆科植物(鹰嘴豆和紫花苜蓿)中几乎没有发现保守的位点,但在大豆基因组中检测到近200个同源的lincRNA。蛋白质编码基因-lincRNA共表达分析表明,lincRNAs参与了胁迫反应、信号转导和发育过程。对lincRNA位点的位置分析表明它与转录调控有关。着丝粒区域的lincRNA表达尤其在分裂活跃的组织中观察到,提示可能在细胞分裂中起作用。将公开可用的全基因组关联数据与大豆基因组的lincRNA图谱进行整合,发现了23个可能与农艺性状相关的lincRNA。
背景知识:
大豆中许多关键的发育控制基因以多拷贝形式存在,预计会有复杂的相互作用和额外的微调控制。我们最近对lncRNAs的流行和重要性的认识突出表明,这些基因可能在大豆的生长发育中发挥重要的调节作用。LncRNAs可以提供额外的控制和信号整合水平,而当只考虑编码蛋白质的基因时,这一点是缺失的。
本研究通过对大豆lincRNAs和其他豆科植物lincRNAs的比较分析,发现lincRNAs在所有豆科植物和大豆特有的lincRNAs中都具有普遍的功能。功能分析揭示了lincRNA作用可能影响的生物学过程。最后,公开的全基因组关联数据被用来进一步描述所发现的lincRNAs,并找到与农艺性状的潜在联系。
数据方法
数据的编号是:SRP020868 和 PRJNA238493
RNA-seq sequence data corresponding to Sequence Read Archive projects SRP020868 and PRJNA238493 were downloaded.
**分组情况:**首先是28个样本,茎(萌发和三叶期)、花(花芽、未开放的花、花期和开花后5d)、叶芽(萌发、三叶期和分化期)、叶片(三叶期、花芽分化期和衰老叶片)、荚果(3、4和5周)、种子(3、5、6、8和10周)、种子和荚果(2、3和4周)、茎分生组织(花芽分化期)。然后 还使用了9个样本(4个来自叶片组织,5个来自新梢顶端分生组织)。
基因组:The soybean (Glycine max) genome assembly (Gmax_275_v2.0)
注释文件 Gmax_275_Wm82.a2.v1
lincRNA注释
使用的方法及软件:
比对:HISAT2 v2.0.5 (–min-intronlen 20–max-intronlen 2000))
组装:
StringTie v1.3.0 ( –merge -F 0.5 -T 0.5 -G Gmax_275_Wm82.a2.v1.gene_exons.gff3) Trinity v2.3.2 de novo (–seqType fq –max_memory 50G –verbose –normalize_reads –trimmomatic –CPU 16 ) reference-guided (–genome_guided_bam –genome_guided_max_intron 10000 –max_memory 50G –verbose –CPU 16) PASA: 筛选:
长度:200bp ORF鉴定:OrfPredictor v3.0 ORFs 300 bp (100 amino acids)
编码能力鉴定:BLASTX
如果一个基因至少有一个转录本在编码,那么这个基因就被认为是编码的。如果没有一个转录本是编码的,那么一个基因就被认为是非编码的。将StringTie和PASA注释中的非编码基因的位置与两个注释中的编码基因的位置进行比较。如果推测的lncRNA基因没有任何编码区重叠,则认为它是lincRNA基因。两个注释中的lincRNA位点被合并。如果两个注释中的lincRNA位点有位置重叠,则保留StringTie注释。
定量:featureCounts 去除FPKM<0.1的LincRNAs
LincRNA功能注释:
Blast2GO 比对到拟南芥、水稻、高粱、苜蓿属、短柄草属 Pvalues<0.05 topGO p value cutoff 0.05 Map2Slim option of owltools
基于序列的lincRNAs相似性研究
BLAST (BLAST+ v2.5.0; -task blastn –evalue 1e-3) 比对到拟南芥和鹰嘴豆chickpea Cicer_arietinum_GA_v1.0, Medicago Mt4.0v1, and Arabidopsis TAIR 为了消除由于转座元件或重复序列的存在而造成的虚假命中,排除了基因组中有三个以上匹配的lincRNA。此外,lincRNA和基因组之间最重要的高分配对需要覆盖至少10%的lincRNA
LincRNAs的TE组成
大豆TE数据库(SoyBase_TE_Fasta.txt)) 使用BLAST+v2.2.30(blastn-task meablast-eValue 1e-5)将lincRNA转录本与TE数据库进行比较。
着丝粒LincRNA鉴定
通过存在两个大豆着丝粒特异性重复序列来鉴定着丝粒:CentGm-1和CentGm-2。将CentGm-1和CentGm-2与大豆基因组(GMAX_275_v2.0)用BLAST+v2.2.30(blastn-task)进行比较。
基于位置的LincRNA相似性研究
使用 MCScanX 鉴定大豆、鹰嘴豆、紫花苜蓿基因间的共线区(位于同一染色体上的连续基因的集合)。
对于每个lincRNA,提取了上游和下游的5个蛋白质编码基因 。
然后将临近基因与MCScanX识别的共线块进行比较。如果在共线区块中发现至少10个蛋白质编码邻区中的3个,则称该lincRNA属于共线区块。如果两个物种的lincRNAs属于同一共线片段,两对侧翼蛋白编码基因中至少有一对被鉴定为同源,并且lincRNAs相对于同源基因具有相同的相对位置(上游或下游),则两个物种的lincRNAs在位置上是相似的。用BLAST+v2.5.0(-task blastn-eValue 1e-3)比较位置相似的lincRNA位点。还使用BLAST+v2.5.0(-task blastn-eValue 1e-3)与RefSeq RNA数据库进行了比较。
可能与农艺性状相关的lincRNAs的鉴定
将前人确定的与农艺性状相关的SNPs替换到GMAX275v2.0基因组上,如果lincRNA含有关联研究中确定的SNP,或者它比任何蛋白质编码基因都更接近SNP,且不超过10kb,则认为lincRNA可能与农艺性状有关。
文章提供了代码下载链接
https://github.com/agolicz/lncRNAs-Plots https://osf.io/d7qz2/ (soybean.lincRNA.data.15112017.tgz (Version: 1))
因为年代久远,部分代码缺失,无法访问啦。
结果
1.鉴定到6018个lincRNA loci
StringTie的结果 68,190 loci and 160,337 transcripts. Trinity assemblies rendered 448,338 transcripts using de novo and 337,955 transcripts using reference guided approach. The PASA comprehensive transcript database built using StringTie and Trinity assemblies comprised 147,825 loci and 293,537 transcripts.
通过表达量筛选最终得到:
lincRNA set consisted of 6,018 lincRNA loci (6,134 transcripts), including 3,435 StringTie-derived and 2,583 PASA-derived loci。
可以看到,从最开始的 68,190 loci and 160,337 transcripts. 筛选到 6,018 lincRNA loci (6,134 transcripts), 这个流程还是蛮严格的!
2、与蛋白质编码基因相比,lincRNAs具有不同的特性
这个是长非编码RNA的鉴定的标准思路:
lincRNA转录本平均比编码转录本端,lincRNA转录本中位长度为320bp; 大多数lincRNA转录本含有单一外显子; lincRNA转录本绝大多数是单一异构体; lincRNA转录本总体表达水平较低。
3.大豆染色体着丝粒区域显示LincRNA表达
这个其实仅仅是一种可视化方法而已:
lincRNA位点在染色体上显示出均匀的分布
从着丝粒区域转录的lincRNA被认为在着丝粒的维持和细胞分裂中发挥作用。总共鉴定了染色体1、3、5、7、13、16、17和19上的32个着丝粒(由GmCent-1和GmCent-2重复序列界定的区域转录而来)lincRNAs
着丝粒lincRNAs在活跃分裂的组织(花蕾、叶芽和SAM)中显示出较高的转录活性.(下图B)
着丝粒lincRNA中发现的转录原件类型为LTR Gypsy反转录因子。(图c)
4.近五分之一的lincRNA转录本与转座元件序列相似
发现lincRNAs含有比DNA转座子更多的逆转录转座子(上图A)。
5.鹰嘴豆和紫花苜蓿中大豆连锁LincRNA的序列和位置保守性较低
供比较的lincRNA有6018个大豆、2248个鹰嘴豆、5794个紫色苜蓿、4680个拟南芥。发现有143个大豆lincRNA与其他物种序列相似。
6.近200个同源LincRNA基因座可以追溯到1300万年前发生的大豆谱系特异的全基因组复制
大豆经历2轮全基因组复制。
7.LincRNAs表现出高度的组织特异性表达
LincRNAs表达量最高的组织(FPKM>0.1)是花组织,其次是茎尖分生组织和叶片,这表明lincRNAs在开花和发育过程中起着积极的作用。总表达量和唯一表达量最高的样本是花蕾。
总共有366个lincRNAs在花朵过渡样品中表达,其中363个(占所有lincRNAs的99%)在短日照处理后表达,其中89个、128个和149个lincRNAs分别在叶片、萌发顶端分生组织、叶片和萌发顶端分生组织中表达。这些lincRNAs是研究大豆花器转换机制的一个有趣的靶标。
8.LincRNA-蛋白质编码基因共表达网络及lincRNAs的功能注释
共表达网络的构建及模块检测的方法,我在生信技能树有多个教程分享WGCNA的实战细节,见:
一文学会WGCNA分析