技术贴 | 微生太宏基因组报告解读 | 第三篇:物种分组统计分析
本文由阿童木根据实践经验而整理,希望对大家有帮助。
原创微文,欢迎转发转载。
利用Kraken2联合Bracken的方法能快速、准确的从宏基因组测序数据中获取物种的注释和丰度信息(详见第二篇),获得这些数据之后就可以根据观测(表型)数据对样本进行分组统计学分析,寻找与自己感兴趣的观测有关的微生物。本篇将介绍微生太宏基因组结题报告中的五种物种分组统计分析,包含:1)聚类分析;2)LEfSe差异分析;3)ANCOM差异分析;4)共有物种分析;5)多样性分析。
一、聚类分析
为了研究不同样品间的相似性,可以通过对样品进行聚类分析从而构建样品的聚类。通过选取感兴趣的物种(默认选取物种绝对丰度排名前20),根据样品的物种组成或物种在各样本的丰度分布情况进行聚类,以此考察不同样品或者分组间的相似或差异性(以门水平聚类分析为例)。使用R软件pheatmap包中的pheatmap函数可进行聚类分析。
R软件:https://www.r-project.org/
1)结果展示
【图1】
2)结果说明
纵轴为样品名称信息,同时也包括了分组信息。横轴为物种注释名称(本图为门水平)。图中上方的聚类树为物种在各样本中分布的相似度聚类,左侧的聚类树为样品聚类树,中间的热图是物种的相对丰度热图,颜色与相对丰度的关系见图上方的刻度尺。
二、LEfSe差异分析
LEfSe的统计方法可以寻找每一个分组的特征微生物(默认为LDA>2的微生物),也就是相对于其他分组,在这个组中丰度较高的微生物。LEfSe不仅有linux本地版,也有windows网页版,windows用户也能在网页中进行LEfSe分析。
LEfSe网页版:http://huttenhower.sph.harvard.edu/galaxy/
1) 结果展示
【图2】
2)结果说明
每一横向柱形体代表一个物种,柱形体的长度对应LDA值,LDA值越高则差异越大。柱形的颜色对应该物种是那个分组的特征微生物,特征微生物(在对应分组中的丰度相对较高)。
三、ANCOM差异分析
ANCOM(Analysis of composition of microbiomes)是另外一种比较微生物组学数据中物种在组间的显著性差异的分析方法。ANCOM分析不依赖于数据的分布假设,克服了相对丰度分析法的一些限制,能够有效降低结果的假阳性,更准确的分析各分类水平的物种在组间的差异情况。使用QIIME2可进行ANCOM分析。
QIIME2:https://qiime2.org/
1)结果展示
【图3】
2)结果说明
在ANCOM分析中,W值是一个衡量组间差异显著性的统计量(类似F值,t值),W值越高,代表该物种在组间的差异显著性越高。图中的每一个点都代表了一个比较的物种,纵坐标代表W值,横坐标clr值代表组间样品丰度的差异程度,数字绝对值越高代表相对丰度差异越大。因此在图中的点越靠近右上角(或左上角),则代表该物种与其他物种(靠近横轴0位置的物种)相比更具有显著性差异。
四、共有物种分析
对于分组较少(小于等于5)的数据,可通过绘制韦恩图(Venn diagram)统计分析不同样品组之间特有或共有物种的类型和数目,直观的展示样本分组间物种组成相似性及重叠情况。Venn图中,每个花瓣内的数字是对应分组特有的物种数目,每个圆内的数字总和是该分组的总物种数目。使用R软件VennDiagram包中的venn.diagrm函数可进行venn图绘制。
1)结果展示
【图4】
2)结果说明
韦恩图显示的是不同分组间共有或特有的物种数量,每个圆代表一个分组,面积由越大物种越多。
五、多样性分析
目前适用于生态学研究的降维分析主要是主成分分析 (PCA,Principal Component Analysis)和无度量多维标定法(NMDS,Non-Metric Multi-Dimensional Scaling)分析。其中,PCA是基于线型模型的一种降维分析,它应用方差分解的方法对多维数据进行降维,从而提取出数据中最主要的元素和结构。PCA 能够提取出最大程度反映样品间差异的两个坐标轴,从而将多维数据的差异反映在二维坐标图上,进而揭示复杂数据背景下的简单规律。而NMDS是非线性模型,其目的是为了克服线性模型的缺点,更好地反映生态学数据的非线性结构,应用NMDS分析,根据样本中包含的物种信息,以点的形式反映在多维空间上,而不同样本间的差异程度则是通过点与点间的距离体现,能够反映样本的组间或组内差异等。基于不同分类层级的物种丰度表,我们进行了PCA和NMDS分析,如果样品的物种组成越相似,则它们在PCA和NMDS图中的距离则越接近。
PCA是主坐标分析(PCoA)的一种特殊情况(基于欧式距离的PCoA就是PCA)。本报告利用PCoA分析方法,从多维数据中提取出最主要元素和能够最大程度反映样品间差异的三个坐标轴,从而将多维数据的差异反映在三维坐标图上,进而揭示复杂数据背景下的简单规律。我们基于Bray Curtis距离来进行PCoA分析,并选取贡献率最大的主坐标组合进行作图展示,图中样品的距离越接近,表示样品的物种组成结构越相似。微生太宏基因组分析报告中提供了PCoA的2D和3D图,方便选择使用。使用QIIME2可进行多样性分析。
1)结果展示
【图5】
2)结果说明
横坐标(Axis 1)表示第一主成分,百分比则表示第一主成分对样品差异的贡献值;纵坐标(Axis 2)表示第二主成分,百分比表示第二主成分对样品差异的贡献值;Axis 3坐标表示第三主成分,百分比表示第三主成分对样品差异的贡献值。客户可以根据元数据的分组信息可以个性化展示其他分类的距离关系。举例:可在右边设置区域的Select a Color Category下拉单选择分组信息,则同一个组的样品使用同一种颜色表示。
本篇内容到此就结素了,微生太宏基因组结题报告中的数据量很大,以上仅为物种分组统计分析结果的举例介绍。对微生太宏基因组分析感兴趣的老师可以联系微生太助理获取宏基因组更多的结果报告以及技术咨询。
感谢阅读~
你可能还喜欢
1 初学者如何深入解读16S rDNA扩增子测序数据,从而选择自己的分析步骤
4 技术贴 | 16S专题 | 简单介绍如何用自己的笔记本处理高通量16S数据
6 技术贴 | 微生太宏基因组报告解读(开篇)
7 技术贴 | 微生太宏基因组报告解读 | 第一篇:测序数据过滤