项目名称 | 单位 | ||
样本数 | 样本类型 | ||
测序平台 | Illumina NovaSeq6000 | 测序区段 | 16S V4区 |
微生物多样性测序(扩增子测序)是基于二代高通量测序对16S/18S/ITS等序列进行测序。可以同时检测样本中的 优势物种、稀有物种及一些未知物种的检测,获得样本的微生物群落组成以及相对丰度。
16S rDNA是细菌16S rRNA相对应的DNA序列,存在于所有细菌的基因组中,其中包括保守区域和高变区域,保守 区在细菌间差异不大,高变区在不同的种属间有一定的差异性,可以用做细菌分类鉴定的指标。通过选取特定可 变区域,用保守区段设计引物进行PCR扩增,通过16S rDNA扩增子测序对高变区进行系统鉴定,来研究环境样本 的微生物群落结构组成。
Fig 2-1-1 实验流程图 |
Fig 2-2-1 数据分析流程图 |
测序完成之后获得的原始序列(raw reads)在正常情况下会存在一部分低质量数据、接头或PCR错误,根据一定的标准过滤掉低质量数据,本报告中的raw-tags为已经过上述质量过滤的clean reads,然后通过聚类方法获得ASVs,并将原始序列比对回ASVs。
下表统计了每个样本的原始序列数量:raw-tags,无完全匹配的单条序列数量:singleton,及其比例:singleton%,比对到最终ASVs的序列数量:tagsmatchedASVs,及其比例:tags-matched-ASVs%和每个样本的ASVs数量。
Fig 3-1-1 各样本ASVs及比对到ASV的序列统计 |
Fig 3-1-2 各分组ASVs及比对到ASV的序列统计 |
ASVs的代表序列文件见 rep_set.fna
可以使用记事本等软件打开查看,序列名为hash编码,名称相同表明序列相同。
首先对样本数据进行TSS标准化,并归一到总丰度10万reads,然后对OTU/ASVs结果进行如下过滤:
所有样本门、纲、目、科、属、种构成情况详见文件目录: 04_Taxonomic/taxa_plot/index.html
以下为标准化到10万reads的物种构成结果文件,可以使用excel打开。
以下为百分比的物种构成结果文件,可以使用excel打开。
使用Qiime2进行alpha多样性分析,命令如下:qiime diversity alpha,分别计算获得simpson,ace,shannon,chao1以及goods_coverage。
α多样性是对单个样本中的物种多样性分析,通过一系列统计学指数来评估菌群物种的丰富度(richness)和多样性(diversity)。其中丰富度是衡量单个样本中物种的种类个数,通过分类单位的个数来衡量,多样性指数是衡量群落的异质性。
计算群落丰富度(Community richness)的指数:
Chao1:用Chao1算法估计样本中所含OTU数目的指数,通过计算群落中只检测到1次和2次的OTU数估计群落中实际存在的物种数。Chao1在生态学中常用来估计物种总数,由Chao(1984)最早提出。
ACE:用来估计群落中含有OTU数目的指数,预设将序列量10以下的OTU都计算在内,从而估计群落中实际存在的物种数。是生态学中估计物种总数的常用指数之一,与Chao1算法不同。
计算群落多样性(Community diversity)的指数:
Shannon:香农-威纳指数综合考虑了群落的丰富度和均匀度。Shannon指数值越高,表明群落的多样性越高。
Simpson:辛普森多样性指数对菌群多样性评估,Simpson指数值越高,表明群落多样性越高。一般而言,Shannon指数侧重对群落的丰富度以及稀有OTU,而Simpson指数侧重均匀度和群落中的优势OTU。
下表统计了每个样本的各项alpha多样性指标。
样品物种丰度 Alpha 多样性指数稀释曲线图,横坐标表示抽取 reads 数量,纵坐标表示相应 Alpha 多样性指数的的值,图中一个颜色代表一个样本,或一组。测序条数不能覆盖样本时,曲线呈上升趋势, 当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物物种信息。
结果在文件夹:/03_diversity-metrics/alpha_rarefaction下
Beta 多样性指针是用来比较多组样本之间的差别度量。首先根据所有样品的物种注释结果和 OTUs 的丰度信息,将 相同分类的 OTUs 信息合并处理得到物种丰度信息表(Profiling Table)。同时利用 OTUs 之间的系统发生关系,进 一步计算 Unifrac 距离(Unweighted Unifrac)。Unifrac 距离是一种利用各样品中微生物序列间的进化信息计算样品 间距离,两个以上的样品,则得到一个距离矩阵。然后,利用 OTUs 的丰度信息对 Unifrac 距离(Unweighted Unifrac)进一步构建 Weighted Unifrac 距离。最后,通过多变量统计学方法主成分分析(PCA,Principal Component Analysis),主坐标分析(PCoA,Principal) 等方法,从中发现不同样品(组)间的差异。
QIIME2数据文件目录
STAMP数据文件目录
MicrobiomeAnalysis.ca数据文件目录
. ├── 01_pick_otu -> OTU/ASV聚类分析及过滤 │ └── summary -> OTU/ASV统计结果目录 │ │ ├── rawotu-summary.txt -> 测序reads总数、均值及OTU数量分布 │ ├── rep_set.fna -> OTU/ASV代表序列(fasta格式) │ ├── repseq.qza -> OTU/ASV代表序列(qiime2的qva格式) │ ├── rawotu_table.biom -> 原始序列生成的OTU/ASV计数表(biom文件) │ ├── rawotu_table.txt -> 原始序列生成的OTU/ASV计数表(文本表文件) │ ├── otu-table100k-tax.biom -> 标准化到10万reads的OTU/ASV计数表-带物种注释(biom文件) │ ├── otu-table100k-tax.txt -> 标准化到10万reads的OTU/ASV计数表-带物种注释(文本表文件) │ ├── otu-filter-minfeq-tax.biom -> 过滤低于万分之一reads的标准化OTU/ASV计数表-带物种注释(biom文件) │ ├── otu-filter-minfeq-tax.txt -> 过滤低于万分之一reads的标准化OTU/ASV计数表-带物种注释(文本表文件) │ └── gg_13-8table100k-tax.biom -> 标准化到10万reads的greengene13_8数据库计数表-带物种注释(biom文件) ├── 02_sequence_statistic -> 序列长度及个样本分组数据量统计 │ ├── reads_length_distribution.txt -> 测序序列读长 │ ├── Group_Sample_stats_OTU.pdf -> 各分组OTU/ASV数量及reads数 │ └── Sample_stats_OTU.pdf -> 各样本OTU/ASV数量及reads数 ├── 03_diversity-metrics -> alpha及beta多样性分析值 │ └── alpha -> alpha多样性计算目录 │ └── XXX_emperor -> beta多样性qiime2导出目录,可进入目录点击index.html │ │ ├── alpha_div.txt -> 样本alpha多样性表 │ ├── rooted-tree.nwk -> 构建的OTU进化树 │ ├── XXXX_dm.txt -> beta多样性不同XXX算法的距离矩阵 │ └── XXXX_pc.txt -> beta多样性不同XXX算法的ordination降维特征 ├── 04_Taxonomic -> 物种注释结果目录 │ ├── silva138taxonomy.qza -> 基于silva138的菌属物种注释(qiime2的qza文件) │ ├── relative -> 相对丰度百分比物种构成表,L2-L7分别是门、纲、目、科、属、种 │ ├── taxa -> 标准化到10万reads的物种构成表,L2-L7分别是门、纲、目、科、属、种 │ └── taxa_plot -> qiime2导出物种构成丰度表及图,可以打开目录下的index.html,csv为excel格式表 ├── Picrust2 -> 基因功能及代谢通路注释结果目录,来自Picrust2.3 │ ├── KO_metagenome_out -> KEGG基因注释结果,KOpred_metagenome_unstrat_descr.tsv为包含基因名称的丰度表 │ ├── EC_metagenome_out -> 酶注释结果,ECpred_metagenome_unstrat_descr.tsv为包含基因名称的丰度表 │ ├── KEGGpathways_out -> KEGG代谢通路注释结果,KEGGpath_abun_unstrat_descr.tsv为包含代谢通路的丰度表 │ ├── pathways_out -> METACYC代谢通路注释结果,METACYCpath_abun_unstrat_descr.tsv为包含代谢通路的丰度表 │ ├── GMMmodelout -> 菌群代谢产物模块预测结果,modules.tsv为丰度表 │ ├── GBMmodelout -> 菌群神经递质代谢产物模块预测结果,modules.tsv为丰度表 │ ├── CAZYout -> 菌群碳水化合物代谢CAZy预测结果,pred_metagenome_unstrat.tsv为丰度表 │ ├── COG_metagenome_out -> COG预测,COGpred_metagenome_unstrat_descr.tsv为丰度表 │ ├── PFAM_metagenome_out -> PFAM功能域模块预测结果,pred_metagenome_unstrat.tsv为丰度表 │ ├── TIGRFAM_metagenome_out -> TIGRFAM功能域模块预测结果,pred_metagenome_unstrat.tsv为丰度表 │ ├── GBMmodelout -> 菌群神经递质代谢产物模块预测结果,modules.tsv为丰度表 │ ├── GBMmodelout -> 菌群神经递质代谢产物模块预测结果,modules.tsv为丰度表 │ ├── GBMmodelout -> 菌群神经递质代谢产物模块预测结果,modules.tsv为丰度表 │ ├── GBMmodelout -> 菌群神经递质代谢产物模块预测结果,modules.tsv为丰度表 │ └── Unigenes.RPKM.xls -> 每个基因在每个样本中的RPKM ├── STAMP -> 用于STAMP软件进行分析所需文件 ├── Groups -> 不同分组情况下的统计结果目录 │ ├── alphadiv -> alpha多样性统计结果 │ ├── betadiv -> beta多样性统计结果 │ │ ├── pca_analysis -> PCA分析结果 │ │ ├── pcoa_bray_analysis -> PCOA分析结果 │ │ ├── pcoa_unweighted_unifrac_analysis -> PCOA非加权 │ │ ├── pcoa_weighted_unifrac_analysis -> PCOA加权 │ │ └── nmds_analysis -> NMDS分析结果,Envfit统计结果查看Envfit.result.log │ ├── otuVenn -> OTU各组韦恩图 │ ├── taxanomyBar -> 各样本及分组物种构成柱状图 │ │ ├── taxon_hist -> include_all\all为显示top10,其他所有归为other;include_all\top10为仅计算top10,不包含其他;without_unknown为去除了未分类的分类单元 │ │ └── taxon_hist_group -> 为各个分组的均值的物种构成柱状图,目录同上。 │ ├── Network -> 物种网络图,提供了门层面的关联网络 │ ├── meta -> 元信息统计检验 │ ├── Lefse_Analysis -> Lefse统计结果,biomarkers_raw_images目录包含具体菌属的标志图 │ ├── Bugbase -> Bugbase分析结果,BugBase_pvlaue.txt为统计检验pvalue │ │ ├── normalized_otus -> 根据拷贝数标准化OTU │ │ ├── otu_contributions -> 各OTU对Bugbase各特征的贡献 │ │ ├── predicted_phenotypes -> Bugbase各特征的样本评估结果 │ │ ├── pcoa_weighted_unifrac_analysis -> PCOA加权 │ │ └── nmds_analysis -> NMDS分析结果,Envfit统计结果查看Envfit.result.log │ ├── FAPROTAX -> FAPROTAX预测及分析结果 │ │ ├── FAPROTAX_heatmap -> FAPROTAX丰度状况,具体OTU构成查看:FAPROTAX_report.txt │ │ ├── Markers -> 组间差异统计检验 │ │ ├── pcoa_unweighted_unifrac_analysis -> PCOA非加权 │ │ ├── pcoa_weighted_unifrac_analysis -> PCOA加权 │ │ └── nmds_analysis -> NMDS分析结果,Envfit统计结果查看Envfit.result.log │ └── diff_analysis -> 组间统计检验及差异分析结果 │ ├── Anosim_analysis -> Anosim分析结果 │ ├── metagenomeRXXXX -> 使用metagenomeSeq进行统计检验结果 │ ├── UnivarTestXXXX -> 使用非参数检验进行统计检验结果 │ ├── TukeyHSD -> 使用Tukey进行统计检验结果 │ ├── TaxaMarkers -> 物种差异分析结果 │ ├── Correlation -> 基于metagenomeSeq的差异指标相互相关性分析结果 │ ├── heatmap -> 显著差异指标的热图 │ ├── metaCorrelation -> 差异指标与元数据及环境因子的相关性分析结果 │ ├── diff_filter -> 统计差异指标筛选后的数据表 │ └── RF -> 使用随机森林进行模型构建和预测结果 └─
如果您的研究课题使用了杭州谷禾信息技术有限公司的测序和分析服务,我们期望您在论文发表时,在Method部分或Acknowledgements部分引用或提及杭州谷禾信息技术有限公司。