微生信生物-扩增子结题报告(南京美他生物科技有限公司)
微生物组学分析报告(南京美他生物科技有限公司)
result_and_plot/Base_diversity_16s(ITS)
这部分存储微生物组部分多样性分析结果:
这部分结果使用OTU或者其他分类等级的微生物组数据为分析对象,从alpha,beta,物种组成等内容完成多样性分析,全部的出图均配有数据表格,出图均为矢量图和位图双份。
除了OTU结果之外,还有不同门类的数据分析结果,使用者可以从任何一个层级对微生物数据进行解读。解读方法类似,这里仅仅展示OTU水平的结果解读。
下面以OTU水平的分析文件为例子做结果解读
result_and_plot/Base_diversity_16s(ITS)/OTU_level/
report_table
otutab.csv: 原始OTU表格
tax.csv:原始物种注释文件
otutab_norm.csv: 默认相对丰度转化的OTU表格
otutax_norm.csv:相对丰度标准化和物种注释信息合并表格
otutab*.csv: 基于Phylum,Class,Order,Family,Genus,Species的原始OTU表格
tax*.csv:基于Phylum,Class,Order,Family,Genus,Species的原始物种注释文件
otutab_norm*.csv: 基于Phylum,Class,Order,Family,Genus,Species的默认相对丰度转化的OTU表格
otutax_norm*.csv:基于Phylum,Class,Order,Family,Genus,Species的相对丰度标准化和物种注释信息合并表格
通过添加主编微信,备注扩增子,加入服务群。
alpha
本文件夹内存储Alpha多样性分析结果:有关alpha多样性的结果解读参见我写的推文:211.Alpha多样性箱线图。
例如:展示微生物群落alpha多样性分析结果,本文件夹中就常见的几种alpha多样性指标都进行了计算和统计分析,并且就多样性,丰富度,均匀度三大类指标组合分析出图。并使用三种典型的出图方式结合差异分析,呈现给您:
Alpha_Facet_box.pdf :进行挑选三种丰富度,多样性和均匀度的代表性指标可视化箱线图
Alpha_Facet_bar.pdf:进行挑选三种丰富度,多样性和均匀度的代表性指标可视化柱状图
Alpha_Facet_boxbar.pdf:进行挑选三种丰富度,多样性和均匀度的代表性指标可视化柱状图
*alpha_diversity.csv:每个alpha多样性指标数据和显著性表格。
*_aov_bar.pdf/jpg:柱状图可视化 + 显著性字母标记。
DATA_Alpha_diversity.csv:六种alpha多样性指标数值表格。
下面三张图片展示不同出图方式的三个指标的alpha多样性结果,高质量的出图会按照分组多少调整出图大小,所以总会有一个合适的出图,让您减少调整的时间。全部的图形都具有pdf格式,均为矢量图,全部可以用于拼图和修改。
其他内容,见对应文件夹:./result_and_plot/Base_diversity_16s/OTU_level/alpha/:例如其他alpha指标的分析结果,包括图片,表格数据,和差异检测结果。
稀释曲线结果:- Alpha_rare_sample.jpg:基于样本的稀释曲线
Alpha_rare_group.jpg:基于分组的稀释曲线
link
Alpha_rare_groupwithSD.jpg:基于分组的误差曲线
link
Alpha_rare_data.csv 稀释曲线数据表格。
备注
alpha到目前位置算法超过了30种,所以这里只选择常见的;
alpha差异检测方法目前有t检验和非参数检验,我们使用了非参数检验。
稀释曲线默认从100条序列开始,随机抽样十次结束。
beta
beta多样性排序我们可以做几乎全部的排序类型和出图,其中我们选择了三种最常见的beta多样性排序方法:PCA,PCoA,NMDS这三种方法,并且配套对应的群落差异检测内容,一同放到图片上。beta多样性结果解读参见我写的推文: 扩增子图表解读2散点图:组间整体差异分析(Beta多样性);- a2_NMDSbray.csv: 排序分析的前两轴坐标;- a2_bray.pdf:排序分析散点图。- a2_bray_label.pdf:排序分析出图标签版本。- a2_bray_star.pdf:排序分析散射版本出图。
例如:下面图形为NMDS排序结果,只是添加label的图片,我们提供了三种可视化图片供大家选择,一种点图加置信圈,一种点图加label,一种放射点图。
其次,群落差异统计结果保存在:
Total_adonis.csv:差异分析使用adonis函数处理,这是目前三种方法分析群落综合表现最好的一种,当然也支持其他两种amosin和MRPP 分析(默认不做)。
Pair_adonis.csv:如果您的处理还有多个分组,可以便激活这个文件,可以查看每两个组之间的差异分析结果。
备注
群落差异检测方法我们默认选择的adonis,这也是一种比较复杂的统计检验方法,相较于anosim和MRPP来讲。
普氏分析 群落之间相关性质
在微生物群落研究的过程中,我们经常需要评估微生物群落结构与环境因子整体之间是否具有显著的相关性,此时,通常使用的方式是Mantel test和普氏分析。当然除了分析群落结构与环境因子的相关性之外,这两个分析还可以用于分析同一样品不同类型微生物群落之间的相关性,比如同一样品的稀有和丰富物种或者同一样品细菌和真菌群落结构的相关性。
a2_Mantel_Pro.pdf:两组群落比对结果汇总图
link
Microbial_composition
第一部分结果:其中包含微生物组成分析结果,主要包括:微生物门水平高丰度默认前十的微生物的堆叠柱状图和冲击图可视化。提供了五个分类等级群落组成分析(“Phylum” , “Class” , “Order” , “Family” , “Genus”)。门类组成结果解读参见我写的推文: 微生物门类堆叠柱状图-冲击图-在R4.0更新版本;
a2_*_barflow.pdf : 群落组成冲积图。
a2_*_bar.pdf:群落组成堆叠柱状图。
a2_*_bar_data.csv:群落组成出图数据。
对应的图形都具有pdf格式的矢量图;
第二部分结果:同样提供了五个分类等级群落组成分析(“Phylum” , “Class” , “Order” , “Family” , “Genus”)的聚类结合丰富图形。
a2_*_cluster_sample.pdf: 不同样本的分类聚类图表,基于分类等级
a2_*_cluster_bar_sample.pdf: 聚类结合微生物柱状图的图表
a2_*_cluster_Group.pdf:分组聚类图
a2_8_cluster_bar_Group.pdf:分组聚类结合丰度图形
全部的数据均保存在文件:
a2_bar_data.csv :丰度数据 -a2_cluster_bar_data.csv:聚类数据
link
link
biospr_network_Ven
二分网络用语展示不同分组共有和特有OTU,不同颜色代表OTU所属的门水平分类信息。这部分为特色分析,本流程专有,调用ggClusterNet包绘制。
biostr_Ven_network.pdf:二分网络绘制大量OTU共有和特有情况,绘制丰富和门类信息
link
备注
这部分分析我门选择前1000个丰度最高的OTU来做,每组超过三分之二的样本拥有的OTU才会显现。
flowplot
花瓣图仅仅展示的只有共有和特有OTU。
ggflowerID.pdf:每个样本ID作为一个花瓣出图
ggflowerGroup.pdf:分组作为花瓣出图
本文件夹展示不同分组共有和特有OTU的数量信息,使用gglot绘制花瓣图,若分组较多,花瓣较多,十分好看。
Ven_Upset_super (选)
本文件夹展示不同分组共有和特有OTU的数量信息,使用ggplot绘制Ven图和Upset图表。并且提供共有和特有OTU每个部分的序列数量和门类丰度信息。注意的是这部分分析只有在分组数量少于6个的时候才会运行。
ven.jpg:韦恩图
Upset.pdf UPSET图形
SeqStat_ven_pick_(Group1)∖(Group2∪Group3).csv :Group1中特有的OTU的序列数量统计信息
TAX_ven_pick_(Group1)∖(Group2∪Group3).csv:roup1中特有的OTU物种注释信息
Genusdiff_count_box.jpg :共有特有OTU每个部分序列数量统计
Genuscount_Facet_ven.jpg:共有特有OTU每个部分物种和丰度。
GenusGroup1OTU_number_of_each_part.pdf:特有OTU及其数量统计
link
diff_tax
本文件夹是差异分析结果,差异分析使用edger进行标准化后再进行差异分析,保证结果可靠性,并展示为双向柱状图,即使是很多分组,也可以很快的了解微生物群落内的差异微生物。本分析默认选择千分之一以上的OTU进行。
edger_001_diff_bio_plot.pdf 双向柱状图 (选)
edger.csv 差异分析数据文件
edger_001_diff_bio_plot.jpg:默认选择丰富最高的2000个OTU中具有差异的OTU作展示
### 差异分析stemp
使用R语言实现stemp类型的差异分析和可视化。默认使用Top20的数据进行差异分析,出图类型类似stemp,图形解读一样。
Group1_Group2stemp_P_plot.jpg:基于两两比较的stemp差异分析结果展示。
link
diff_heapmap_boplot
本小结挑选部分OTU做热图和气泡图,时髦的展示方式将为您的论文增色不少。默认选择丰度最高的前20个OTU进行展示。
Topggbubble.pdf 气泡图展示丰富最高的OTU
Topggheatmap.pdf 热图展示丰富最高的OTU
lefse_py
本小结使用python做lefse分析,相关结果主要有特征微生物的柱状图(lefse_barplot.pdf)和特征微生物的展示树图(lefse_tree.pdf)。
基于单个微生物的柱状图及其差异检测结果保存在下面的文件中:- biomarkers_raw_images
tree_plot
使用R语言进行lefse分析 - tree_lefse.pdf :树状图 - bar_lefse.pdf:柱状图
link
link
Machine_learing
本小结展示机器学习内容,这部分我们选择的三种最为典型的机器学习方法,并在其中选择最佳的一种对您的数据进行机器学习。这三种方法分别为:逻辑回归,支持向量机,随机森林。这里注意AUC仅仅支持两组计算,所以超过两组,就不会计算ROC曲线了。其次还有交叉检验(可选)
如果您的数据是二分类结果,我们会做ROC曲线为您展示三种机器学习正确率:- Show_model.jpg :模型OBB错误率等整体信息。- three_method_AUC_plot.pdf (选) - randonforest_loading.pdf:重要变量可视化火柴图 - randonforest_loading_circle.pdf:重要变量可视化圈图。- randomforest_data.csv:重要变量数据表格。
link
link
link
network
网络分析包括网络计算,网络可视化,网络属性等内容,模块化信息,和导出数据进一步分析表格等。
network_all.pdf 网络可视化结果
network_all_cover.pdf :全部分组弯曲样式Gephi
co-occurrence_Grobel_net.csv 网络整体属性
**_node_properties.csv 网络节点属性
Power_law_distribution_*.pdf :幂律分布可视化和随机网络对比
*_net_VS_erdos_properties.csv:网络属性和对应的随机网络性质比对表格
*_Gephi_edge.csv:每个分组都会输出边文件,用于Gephi可视化的边表格。
*_Gephi_allnode.csv:全部的节点,用于Gephi可视化的节点表格
link
distance
对不同分组之间的距离进行计算,差异检测和可视化
link
link
link
maptree
对高丰度微生物进行maptree可视化展示。
link
result_and_plot/Micro_and_other_index_16s/ 微生物群落和其他指标
RDA_CCA
微生物群落和其他指标的限制性排序分析,其中有两种排序方法:CCA和RDA。有两种模式,一种是过滤环境因子的,就是根际方差膨胀因子分析挑选非共线性指标进行分析。第二种是不做选择,我们默认不做选择。
选用哪种排序方法的时候使用DCA排序,根据排序坐标轴大小选择单峰模型还是线性模型。
RDA_envlabelnew.pdf :限制性排序散点图-添加标签版本
RDA_envnew.pdf:限制性排序散点图-不添加标签版本
dataplotnew.txt:排序散点图数据
aovnew.txt:对于每个环境因子的显著性分析结果
all_index_explain_percent.csv:全部环境因子可解释的比例
each_env_exp_percent.csv:每个环境因子可以解释群落变异的比例。
link
link
library(tidyverse)
read.csv("./result_and_plot/Micro_and_other_index_16s/RDA_CCA/aovnew.txt") %>% head()## pH.SOC.TN.NH4.N.NO3.N.AP.AK.CN.LA.Height.TG.RGR.LB.SB.RB.R.S.FRB.LRW1.LRW2.LRW3.LRN1.LRN2.LRN3.LRL1.LRL2.LRL3.LRD1.LRD2.LRD3.MaxO.TLRN.TLRL.BI.MID
## 1 inf_factor\t1395.9771783914\t12382.4164780052\t2827.40400697152\t9993.97162192829\t90688.8167163014\t12787.369251181\t1184.65352992114\t288.024574966847\t11318.5056107775\t8363.3533853632\t185046.777717863\t82870.6390192024\t2106.69847693798\t64869.517707\t105.094874285527\t8037.64843319288\t3567.76540100952\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA
## 2 F\t1.83719272569977\t1.3785638110398\t1.3028357474638\t1.09158314870095\t1.20929288748125\t1.22918686289646\t1.3462745941503\t0.918618008519033\t1.23084258292389\t1.42028024716457\t1.18546800150601\t1.24278805163019\t1.34799019833212\t1.17949719273136\t0.850427992907549\t1.56142601277587\t1.15191698162399\t1.07422513362835\t1.14825383252814\t1.11865467449819\t1.05303513525226\t1.15359411700742\t1.12721878472785\t1.03981639050046\t1.12990282223649\t0.995095122394036\t0.851824244520677\t0.702510319983462\t0.736218389582722\t1.25131756433907\t1.11503648081918\t1.01915771301503\t1.32976950672972\t1.26128237902505
## 3 p\t0.007\t0.056\t0.108\t0.28\t0.136\t0.114\t0.079\t0.573\t0.12\t0.053\t0.173\t0.101\t0.086\t0.187\t0.733\t0.045\t0.204\t0.319\t0.227\t0.229\t0.33\t0.23\t0.208\t0.351\t0.205\t0.468\t0.659\t0.848\t0.854\t0.135\t0.273\t0.391\t0.104\t0.18
Conbine_env_plot
环境因子和群落mantel相关结果使用网红science组合图表展示:
Conbine_envplot.pdf :组合图表
Conbine_envplot_data.csv:群落和环境因子mantel检验结果
envCorplot.pdf:环境因子相关点阵
Random_env 使用机器学习寻找其他指标和群落关系
我们使用NMDS的方法进行排序,然后使用排序坐标和环境因子做随机森林回归,即可得到对群落具有重要影响的环境因子指标排列。
ranImportant.pdf 环境因子重要性排序柱状图
ranImportant.csv 出图数据
分组检测环境因子对群落的影响-机器学习结合排序
使用PCA分析提取前两轴信息,然后同环境因子一同训练随机森林模型。每个处理大单独训练一次。
Randomforest_env_micro_heatmap.pdf
Random_env_micro_heatmap.csv
link
环境因子和特征微生物的相关关系矩阵图
默认使用属水平的微生物的前十个和环境因子做相关分析:
Genusggbubble.jpg:相关矩阵点图
Genusggheatmap.jpg:相关矩阵热图
link
link
Env_network 环境和微生物网络
one_Gephi_edge.csv:Gephi格式的边文件,用于Gephi可视化
one_Gephi_node.csv:Gephi格式的点文件,用于Gephi可视化
one_node_properties.csv:节点属性文件
networkone.pdf:可视化图形 双圈图
Power_law_distribution_one.pdf:幂律分布随机网络图形
one_net_VS_erdos_properties.csv:网络属性和对应的随即网络属性比对
co-occurrence_Grobel_net.csv:网络全局属性表格。
16S_env_phylo_processing/Phylogenetic_analyse_spacies 系统发育分析
系统发育分析使用的是服务器,默认使用30线程计算,但是还是会花费几天的时间。
1_neutral_modelCul.pdf:中性模型可视化,你和R值越高代表群落随机化程度高。m值越大代表随机程度越高。
3_nullModeltab.csv:零模型计算
3_ratiotab.csv;零模型集散
4_bNTI.csv:beta-NTI表格,这里将矩阵转化为二连表,方便绘图,默认999次重复计算
5_RCb.csv:RC-btay表格,这里将矩阵转化为二连表,方便绘图,默认999次重复计算
6_bNTI.pdf:beta-NTI可视化箱线图
6_RCbary.pdf:RC-btay可视化箱线图
6_bNTI_RCbray.csv:beta-NTI箱线图和RC-btay堆叠柱状图联合表格
6_BNTI_RCbray.pdfbeta-NTI箱线图和RC-btay堆叠柱状图联合可视化
7_env_corWithBNTI.pdf :环境因子和beta-NTI相关
link
link