手把手带你跑转录组数据分析:入门教程第一集
近年来,快速发展的二代测序技术为揭示复杂性状遗传基础以及表型变异的机制提供了重要工具。转录组技术不但可以检测细胞或组织中所有基因的表达,而且为鉴定转录本中的遗传变异提供了新的机会,为深入挖掘性状功能基因和重要突变位点提供了便利条件。
随着转录组技术的成熟,越来越多的科研人员想要学习转录组数据分析进行科研实验,因此写下转录组常规数据分析教程,以供参考,该教程将用Linux和R语言的方法以研究最为完善的人类基因为分析数据用多篇合集的形式展现。
作为转录组教程的第一集,本篇将介绍转录组数据分析常规流程所需要的资源和大概流程,让大家对于转录组数据分析有一个具体的概念,对于接下来的学习有一个清晰的了解。
一、计算机资源准备
首先,要想进行转录组数据分析,就需要有一个好的计算机资源,因为进行分析的数据根据不同的实验大小会不一样,如果有海量数据分析需求的,而且有条件的就可以用实验室购买的服务器,比如阿里云等,没条件的就只能使用自己的笔记本创建虚拟机,但是对于笔记本的选择也有一些不成文的选择。
做生信分析的笔记本一般对于性能要求比较高,首先是电脑的CPU,它是中央处理器,决定生物数据分析的速度,CPU版本最好不要低于I5,才能保证正常的分析速度,否则龟虫般的速度会让人很抓狂。
其次是内存,内存最好不要低于8GB,最好是16GB以上的内存,因为如果你的内存比较小,而你所需要的分析的数据在分析过程中所需要的时间很长,你将无法切换屏幕做其他的事情,比如看个文献提升认知或者看个电影放松一下,只能望屏兴叹。
最后是硬盘,一般选择500GB硬盘容量,优先选择固态硬盘,慎重选择机械硬盘,好的硬盘可以大大提高文件的读取速度。
总结:不低于I5的CPU,8GB或者以上的内存,500GB容量的硬盘,工欲善其事必先利其器,好的计算机资源将大大提高学习进度。
二、转录组常规流程:
转录组有比较多的分析流程,本次教程将以常规流程为例,其他暂且不表,常规流程主要是原始数据获取、数据清理、质控、转录本拼接、转录本定量、标准化和差异分析。
在Linux环境中,要实现上述功能,需要下载生物学软件:sratoolkit、fastqc、hisat2、samtools、htseq-count、R、Rstudio。
1、 原始数据获取:(1)公司返回的测序数据、(2)从公共数据库下载数据
2、 数据清理和质控:查看数据质量是否符合实验要求,去除低质量区域、多个N碱基、低质量接头 、污染的RNA和病毒序列。
3、 无参考基因组的需要从头组装、有参考基因组的直接将参考基因组构建索引
4、 转录本定量和标准化:将读段maping到参考基因组上,然后进行定量,得到表达矩阵
5、 差异分析:将表达矩阵载入R中,分析得到差异基因。
好了,本篇入门教程就介绍到这里,我们下一集将进行入代码实操阶段,讲解linux环境的配置和公共数据的下载,欲知后事,下集揭晓。
本文素材来源网络,不涉及任何商业利益,如有侵权,请联系删除