微生信生物-扩增子结题报告(南京美他生物科技有限公司)

微生物组学分析报告(南京美他生物科技有限公司)

result_and_plot/Base_diversity_16s(ITS)

这部分存储微生物组部分多样性分析结果:

这部分结果使用OTU或者其他分类等级的微生物组数据为分析对象,从alpha,beta,物种组成等内容完成多样性分析,全部的出图均配有数据表格,出图均为矢量图和位图双份。

除了OTU结果之外,还有不同门类的数据分析结果,使用者可以从任何一个层级对微生物数据进行解读。解读方法类似,这里仅仅展示OTU水平的结果解读。

下面以OTU水平的分析文件为例子做结果解读

result_and_plot/Base_diversity_16s(ITS)/OTU_level/

report_table

  • otutab.csv: 原始OTU表格

  • tax.csv:原始物种注释文件

  • otutab_norm.csv: 默认相对丰度转化的OTU表格

  • otutax_norm.csv:相对丰度标准化和物种注释信息合并表格

  • otutab*.csv: 基于Phylum,Class,Order,Family,Genus,Species的原始OTU表格

  • tax*.csv:基于Phylum,Class,Order,Family,Genus,Species的原始物种注释文件

  • otutab_norm*.csv: 基于Phylum,Class,Order,Family,Genus,Species的默认相对丰度转化的OTU表格

  • otutax_norm*.csv:基于Phylum,Class,Order,Family,Genus,Species的相对丰度标准化和物种注释信息合并表格

通过添加主编微信,备注扩增子,加入服务群。

alpha

本文件夹内存储Alpha多样性分析结果:有关alpha多样性的结果解读参见我写的推文:211.Alpha多样性箱线图

例如:展示微生物群落alpha多样性分析结果,本文件夹中就常见的几种alpha多样性指标都进行了计算和统计分析,并且就多样性,丰富度,均匀度三大类指标组合分析出图。并使用三种典型的出图方式结合差异分析,呈现给您:

  • Alpha_Facet_box.pdf :进行挑选三种丰富度,多样性和均匀度的代表性指标可视化箱线图

  • Alpha_Facet_bar.pdf:进行挑选三种丰富度,多样性和均匀度的代表性指标可视化柱状图

  • Alpha_Facet_boxbar.pdf:进行挑选三种丰富度,多样性和均匀度的代表性指标可视化柱状图

  • *alpha_diversity.csv:每个alpha多样性指标数据和显著性表格。

  • *_aov_bar.pdf/jpg:柱状图可视化 + 显著性字母标记。

  • DATA_Alpha_diversity.csv:六种alpha多样性指标数值表格。

下面三张图片展示不同出图方式的三个指标的alpha多样性结果,高质量的出图会按照分组多少调整出图大小,所以总会有一个合适的出图,让您减少调整的时间。全部的图形都具有pdf格式,均为矢量图,全部可以用于拼图和修改。

其他内容,见对应文件夹:./result_and_plot/Base_diversity_16s/OTU_level/alpha/:例如其他alpha指标的分析结果,包括图片,表格数据,和差异检测结果。

稀释曲线结果:- Alpha_rare_sample.jpg:基于样本的稀释曲线

  • Alpha_rare_group.jpg:基于分组的稀释曲线

link

  • Alpha_rare_groupwithSD.jpg:基于分组的误差曲线

link

  • Alpha_rare_data.csv 稀释曲线数据表格。

备注

alpha到目前位置算法超过了30种,所以这里只选择常见的;

alpha差异检测方法目前有t检验和非参数检验,我们使用了非参数检验。

稀释曲线默认从100条序列开始,随机抽样十次结束。

beta

beta多样性排序我们可以做几乎全部的排序类型和出图,其中我们选择了三种最常见的beta多样性排序方法:PCA,PCoA,NMDS这三种方法,并且配套对应的群落差异检测内容,一同放到图片上。beta多样性结果解读参见我写的推文: 扩增子图表解读2散点图:组间整体差异分析(Beta多样性);- a2_NMDSbray.csv: 排序分析的前两轴坐标;- a2_bray.pdf:排序分析散点图。- a2_bray_label.pdf:排序分析出图标签版本。- a2_bray_star.pdf:排序分析散射版本出图。

例如:下面图形为NMDS排序结果,只是添加label的图片,我们提供了三种可视化图片供大家选择,一种点图加置信圈,一种点图加label,一种放射点图。

其次,群落差异统计结果保存在:

  • Total_adonis.csv:差异分析使用adonis函数处理,这是目前三种方法分析群落综合表现最好的一种,当然也支持其他两种amosin和MRPP 分析(默认不做)。

  • Pair_adonis.csv:如果您的处理还有多个分组,可以便激活这个文件,可以查看每两个组之间的差异分析结果。

备注

群落差异检测方法我们默认选择的adonis,这也是一种比较复杂的统计检验方法,相较于anosim和MRPP来讲。

普氏分析 群落之间相关性质

在微生物群落研究的过程中,我们经常需要评估微生物群落结构与环境因子整体之间是否具有显著的相关性,此时,通常使用的方式是Mantel test和普氏分析。当然除了分析群落结构与环境因子的相关性之外,这两个分析还可以用于分析同一样品不同类型微生物群落之间的相关性,比如同一样品的稀有和丰富物种或者同一样品细菌和真菌群落结构的相关性。

  • a2_Mantel_Pro.pdf:两组群落比对结果汇总图

link

Microbial_composition

第一部分结果:其中包含微生物组成分析结果,主要包括:微生物门水平高丰度默认前十的微生物的堆叠柱状图和冲击图可视化。提供了五个分类等级群落组成分析(“Phylum” , “Class” , “Order” , “Family” , “Genus”)。门类组成结果解读参见我写的推文: 微生物门类堆叠柱状图-冲击图-在R4.0更新版本

  • a2_*_barflow.pdf : 群落组成冲积图。

  • a2_*_bar.pdf:群落组成堆叠柱状图。

  • a2_*_bar_data.csv:群落组成出图数据。

对应的图形都具有pdf格式的矢量图;

第二部分结果:同样提供了五个分类等级群落组成分析(“Phylum” , “Class” , “Order” , “Family” , “Genus”)的聚类结合丰富图形。

  • a2_*_cluster_sample.pdf: 不同样本的分类聚类图表,基于分类等级

  • a2_*_cluster_bar_sample.pdf: 聚类结合微生物柱状图的图表

  • a2_*_cluster_Group.pdf:分组聚类图

  • a2_8_cluster_bar_Group.pdf:分组聚类结合丰度图形

全部的数据均保存在文件:

  • a2_bar_data.csv :丰度数据 -a2_cluster_bar_data.csv:聚类数据

link

link

biospr_network_Ven

二分网络用语展示不同分组共有和特有OTU,不同颜色代表OTU所属的门水平分类信息。这部分为特色分析,本流程专有,调用ggClusterNet包绘制。

  • biostr_Ven_network.pdf:二分网络绘制大量OTU共有和特有情况,绘制丰富和门类信息

link

备注

这部分分析我门选择前1000个丰度最高的OTU来做,每组超过三分之二的样本拥有的OTU才会显现。

flowplot

花瓣图仅仅展示的只有共有和特有OTU。

  • ggflowerID.pdf:每个样本ID作为一个花瓣出图

  • ggflowerGroup.pdf:分组作为花瓣出图

本文件夹展示不同分组共有和特有OTU的数量信息,使用gglot绘制花瓣图,若分组较多,花瓣较多,十分好看。

Ven_Upset_super (选)

本文件夹展示不同分组共有和特有OTU的数量信息,使用ggplot绘制Ven图和Upset图表。并且提供共有和特有OTU每个部分的序列数量和门类丰度信息。注意的是这部分分析只有在分组数量少于6个的时候才会运行。

  • ven.jpg:韦恩图

  • Upset.pdf UPSET图形

  • SeqStat_ven_pick_(Group1)∖(Group2∪Group3).csv :Group1中特有的OTU的序列数量统计信息

  • TAX_ven_pick_(Group1)∖(Group2∪Group3).csv:roup1中特有的OTU物种注释信息

  • Genusdiff_count_box.jpg :共有特有OTU每个部分序列数量统计

  • Genuscount_Facet_ven.jpg:共有特有OTU每个部分物种和丰度。

  • GenusGroup1OTU_number_of_each_part.pdf:特有OTU及其数量统计

link

diff_tax

本文件夹是差异分析结果,差异分析使用edger进行标准化后再进行差异分析,保证结果可靠性,并展示为双向柱状图,即使是很多分组,也可以很快的了解微生物群落内的差异微生物。本分析默认选择千分之一以上的OTU进行。

  • edger_001_diff_bio_plot.pdf 双向柱状图 (选)

  • edger.csv 差异分析数据文件

  • edger_001_diff_bio_plot.jpg:默认选择丰富最高的2000个OTU中具有差异的OTU作展示

### 差异分析stemp

使用R语言实现stemp类型的差异分析和可视化。默认使用Top20的数据进行差异分析,出图类型类似stemp,图形解读一样。

  • Group1_Group2stemp_P_plot.jpg:基于两两比较的stemp差异分析结果展示。

link

diff_heapmap_boplot

本小结挑选部分OTU做热图和气泡图,时髦的展示方式将为您的论文增色不少。默认选择丰度最高的前20个OTU进行展示。

  • Topggbubble.pdf 气泡图展示丰富最高的OTU

  • Topggheatmap.pdf 热图展示丰富最高的OTU

lefse_py

本小结使用python做lefse分析,相关结果主要有特征微生物的柱状图(lefse_barplot.pdf)和特征微生物的展示树图(lefse_tree.pdf)。

基于单个微生物的柱状图及其差异检测结果保存在下面的文件中:- biomarkers_raw_images

tree_plot

使用R语言进行lefse分析 - tree_lefse.pdf :树状图 - bar_lefse.pdf:柱状图

link

link

Machine_learing

本小结展示机器学习内容,这部分我们选择的三种最为典型的机器学习方法,并在其中选择最佳的一种对您的数据进行机器学习。这三种方法分别为:逻辑回归,支持向量机,随机森林。这里注意AUC仅仅支持两组计算,所以超过两组,就不会计算ROC曲线了。其次还有交叉检验(可选)

如果您的数据是二分类结果,我们会做ROC曲线为您展示三种机器学习正确率:- Show_model.jpg :模型OBB错误率等整体信息。- three_method_AUC_plot.pdf (选) - randonforest_loading.pdf:重要变量可视化火柴图 - randonforest_loading_circle.pdf:重要变量可视化圈图。- randomforest_data.csv:重要变量数据表格。

link

link

link

network

网络分析包括网络计算,网络可视化,网络属性等内容,模块化信息,和导出数据进一步分析表格等。

  • network_all.pdf 网络可视化结果

  • network_all_cover.pdf :全部分组弯曲样式Gephi

  • co-occurrence_Grobel_net.csv 网络整体属性

  • **_node_properties.csv 网络节点属性

  • Power_law_distribution_*.pdf :幂律分布可视化和随机网络对比

  • *_net_VS_erdos_properties.csv:网络属性和对应的随机网络性质比对表格

  • *_Gephi_edge.csv:每个分组都会输出边文件,用于Gephi可视化的边表格。

  • *_Gephi_allnode.csv:全部的节点,用于Gephi可视化的节点表格

link

distance

对不同分组之间的距离进行计算,差异检测和可视化

link

link

link

maptree

对高丰度微生物进行maptree可视化展示。

link

result_and_plot/Micro_and_other_index_16s/ 微生物群落和其他指标

RDA_CCA

微生物群落和其他指标的限制性排序分析,其中有两种排序方法:CCA和RDA。有两种模式,一种是过滤环境因子的,就是根际方差膨胀因子分析挑选非共线性指标进行分析。第二种是不做选择,我们默认不做选择。

选用哪种排序方法的时候使用DCA排序,根据排序坐标轴大小选择单峰模型还是线性模型。

  • RDA_envlabelnew.pdf :限制性排序散点图-添加标签版本

  • RDA_envnew.pdf:限制性排序散点图-不添加标签版本

  • dataplotnew.txt:排序散点图数据

  • aovnew.txt:对于每个环境因子的显著性分析结果

  • all_index_explain_percent.csv:全部环境因子可解释的比例

  • each_env_exp_percent.csv:每个环境因子可以解释群落变异的比例。

link

link

library(tidyverse)
read.csv("./result_and_plot/Micro_and_other_index_16s/RDA_CCA/aovnew.txt") %>% head()
## pH.SOC.TN.NH4.N.NO3.N.AP.AK.CN.LA.Height.TG.RGR.LB.SB.RB.R.S.FRB.LRW1.LRW2.LRW3.LRN1.LRN2.LRN3.LRL1.LRL2.LRL3.LRD1.LRD2.LRD3.MaxO.TLRN.TLRL.BI.MID
## 1 inf_factor\t1395.9771783914\t12382.4164780052\t2827.40400697152\t9993.97162192829\t90688.8167163014\t12787.369251181\t1184.65352992114\t288.024574966847\t11318.5056107775\t8363.3533853632\t185046.777717863\t82870.6390192024\t2106.69847693798\t64869.517707\t105.094874285527\t8037.64843319288\t3567.76540100952\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA\tNA
## 2 F\t1.83719272569977\t1.3785638110398\t1.3028357474638\t1.09158314870095\t1.20929288748125\t1.22918686289646\t1.3462745941503\t0.918618008519033\t1.23084258292389\t1.42028024716457\t1.18546800150601\t1.24278805163019\t1.34799019833212\t1.17949719273136\t0.850427992907549\t1.56142601277587\t1.15191698162399\t1.07422513362835\t1.14825383252814\t1.11865467449819\t1.05303513525226\t1.15359411700742\t1.12721878472785\t1.03981639050046\t1.12990282223649\t0.995095122394036\t0.851824244520677\t0.702510319983462\t0.736218389582722\t1.25131756433907\t1.11503648081918\t1.01915771301503\t1.32976950672972\t1.26128237902505
## 3 p\t0.007\t0.056\t0.108\t0.28\t0.136\t0.114\t0.079\t0.573\t0.12\t0.053\t0.173\t0.101\t0.086\t0.187\t0.733\t0.045\t0.204\t0.319\t0.227\t0.229\t0.33\t0.23\t0.208\t0.351\t0.205\t0.468\t0.659\t0.848\t0.854\t0.135\t0.273\t0.391\t0.104\t0.18

Conbine_env_plot

环境因子和群落mantel相关结果使用网红science组合图表展示:

  • Conbine_envplot.pdf :组合图表

  • Conbine_envplot_data.csv:群落和环境因子mantel检验结果

  • envCorplot.pdf:环境因子相关点阵

Random_env 使用机器学习寻找其他指标和群落关系

我们使用NMDS的方法进行排序,然后使用排序坐标和环境因子做随机森林回归,即可得到对群落具有重要影响的环境因子指标排列。

  • ranImportant.pdf 环境因子重要性排序柱状图

  • ranImportant.csv 出图数据

分组检测环境因子对群落的影响-机器学习结合排序

使用PCA分析提取前两轴信息,然后同环境因子一同训练随机森林模型。每个处理大单独训练一次。

  • Randomforest_env_micro_heatmap.pdf

  • Random_env_micro_heatmap.csv

link

环境因子和特征微生物的相关关系矩阵图

默认使用属水平的微生物的前十个和环境因子做相关分析:

  • Genusggbubble.jpg:相关矩阵点图

  • Genusggheatmap.jpg:相关矩阵热图

link

link

Env_network 环境和微生物网络

  • one_Gephi_edge.csv:Gephi格式的边文件,用于Gephi可视化

  • one_Gephi_node.csv:Gephi格式的点文件,用于Gephi可视化

  • one_node_properties.csv:节点属性文件

  • networkone.pdf:可视化图形 双圈图

  • Power_law_distribution_one.pdf:幂律分布随机网络图形

  • one_net_VS_erdos_properties.csv:网络属性和对应的随即网络属性比对

  • co-occurrence_Grobel_net.csv:网络全局属性表格。

16S_env_phylo_processing/Phylogenetic_analyse_spacies 系统发育分析

系统发育分析使用的是服务器,默认使用30线程计算,但是还是会花费几天的时间。

  • 1_neutral_modelCul.pdf:中性模型可视化,你和R值越高代表群落随机化程度高。m值越大代表随机程度越高。

  • 3_nullModeltab.csv:零模型计算

  • 3_ratiotab.csv;零模型集散

  • 4_bNTI.csv:beta-NTI表格,这里将矩阵转化为二连表,方便绘图,默认999次重复计算

  • 5_RCb.csv:RC-btay表格,这里将矩阵转化为二连表,方便绘图,默认999次重复计算

  • 6_bNTI.pdf:beta-NTI可视化箱线图

  • 6_RCbary.pdf:RC-btay可视化箱线图

  • 6_bNTI_RCbray.csv:beta-NTI箱线图和RC-btay堆叠柱状图联合表格

  • 6_BNTI_RCbray.pdfbeta-NTI箱线图和RC-btay堆叠柱状图联合可视化

  • 7_env_corWithBNTI.pdf :环境因子和beta-NTI相关

link

link

(0)

相关推荐

  • 16S微生物组研究的 “最佳共识”

    高通量测序平台的出现彻底改变了对复杂微生物群落的研究.最常见的是,标记基因(例如16S rRNA和18S rRNA基因)的扩增和测序,提供定性和定量(即相对丰度)数据.可用于进行标记基因分析的方法多种 ...

  • 科研 | 中国海洋大学ISME: 沿海沉积物古菌群落时空动态-群落构建过程和共存关系

    编译:橙,编辑:小菌菌.江舜尧. 原创微文,欢迎转发转载. 导读 关于海洋底栖古菌群落的相关研究提高了我们对其物种组成和功能代谢多样性的认知水平,但对于古菌群落构建机制和网络内部关联性仍存在较大的知识 ...

  • RDA_环境因子_群落结构_统计检验_可视化

    RDA环境因子群落结构统计检验可视化 环境因子的筛选及数据的转化方面请参阅宏基因组公众号之前的推文,本文主要侧重统计分析与可视化 看到师兄文章里的图自己可能用到,想复现一下,于是就尝试了一下,顺便写个 ...

  • MPB:原核微生物群落随机性和确定性装配过程的计算方法

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  • 微生信生物-扩增子V0.1.exe使用指南

    写在前面: 今年是2020年工作的第一天,科研任务我首先排在首位,这是对老板和自己负责,晚上去师兄家里吃了顿饭,回来发现十点了,这开始奋笔疾书,为大家带来微生信生物-扩增子V0.1.exe使用指南(评 ...

  • 微生信生物-扩增子V0.1.exe发布

    写字前面:  ◆  ◆ 不知不不觉已经是2020年了,今天我们进行了真人CS游戏,提着老腿确实很累.几场下来我就累得不行了,所以微生信生物-扩增子V0.1.exe发布稍微晚了一些,但是是赶在今天结束之 ...

  • 微生信生物&根际互作生物学实验室年终总结

    阅读数量 这一年常读用户数量变化 微生信生物的前行和荆棘 2020年不平凡,有很多事情没有做,有很多事情却做了,有很多人走了,有很多人却来了,新冠疫情就像是将有限的资源进行了破碎又缝合,我认为这是新鲜 ...

  • 微生信生物历史推文集合 (持续更新)

    微生信生物历史推文集合 技巧经验思考资源 Rstudio切换挂载R版本及本地安装一些包 pubmed凉了,我们这里依然很美 ggplot版钢铁侠 当科研遇见python 学习R语言&生物信息不 ...

  • 使用R语言的20条建议-微生信生物博主五年经验总结

    写在前面 如果说有什么理念或者习惯支撑在这几年的R语言学习中的话,我认为是这几条,如果大家将这几条能够理解大半,相信最起码会节省时间,提高效率. 注:这些建议不一定都会很好用,大家挑选适合自己的融会贯 ...

  • 无代码福音-微生信生物又要持续发力origin绘非典型柱状图

    上一期结束的时候留了个小问题: 一.前情回顾 首先,数据还是要分组的,因为如果放一列就是一组,最后还得一个一个改(Ctrl+鼠左双击),很麻烦. 那数据的B/C/D列一起作图会是怎样 为什么会这样,上 ...

  • 微生信生物---年中纪--2020

    2020年中纪I 抱歉占用大家一整个版面写下这个纪,毕竟什么都有个开始,有个结束,有的东西结束了,有的东西今天要开始,在此记录,铭记于心,方得始终. 2020年不平凡,经历了新冠肺炎后我们都很珍惜生命 ...

  • 0代码教程来了-来自-微生信生物-的零水平Origin制图

    写在前面 使用代码出图,R语言是最为广泛的,并且漂亮的出图和连带的分析让我们确实是受益良多.但是许多小伙伴,相信有不少人,都是没有足够的时间学习代码,因为大量的科研问题足够让我们头疼.因此,大家来看看 ...

  • 微生信生物科研爬虫项目等你来

    写在前面 微生信生物主编,最近大量任务缠身,我(五谷杂粮) 已经辅助运营了一段时间了,我们的好朋友抱起大块块毕业了.有一个月的空余时间,所以为他写了这篇推送. 前言 面对目前科研任务的多样化,越来越多 ...