谷禾健康
人类微生物组的变化与许多疾病和健康状况有关。然而,看懂人类微生物组研究结果的报告具有挑战性,因为它通常涉及微生物学、基因组学、生物医学、生物信息学、统计学、流行病学等领域的方法。
人类微生物组的研究与其他类型的分子流行病学研究具有许多共同特征,但它们也需要独特的考虑因素,具有自己的方法学最佳实践和报告标准。除了流行病学研究设计的标准要素外,独立于培养的微生物组研究还涉及生物标本的收集、处理和保存;不断发展的实验处理方法,具有更高的批次效应潜力;生物信息学处理;稀疏、异常分布、高维数据的统计分析;报告可能的数千种微生物特征的结果等。
由于微生物组研究没有公认的金标准方法,而且该领域还没有就这些方面形成共识,但是各个领域的人员共同努力逐渐形成适用于广泛的人类微生物组研究报告的规范流程是微生物领域快速发展的基础。
参 与 者
对研究参与者的描述中,应描述入组的人群,以及如何从人群中抽取参与者。
参与者的特征,例如环境、生活方式行为、饮食、生物医学干预、人口统计和地理都可能引起微生物组的显着差异,因此应该包含这些基本描述。
时间背景也很重要,因此应说明招聘、跟进和数据收集的开始和结束日期。
此外,还应包括用于评估潜在参与者是否符合研究资格的具体标准,包括纳入标准和排除标准的详细信息。纳入和排除标准是用于选择研究参与者的预先确定的特征,描述这些标准对于了解研究的目标人群至关重要。
应描述收集的有关可能影响微生物组的抗生素或其他治疗的任何信息,以及是否有任何排除标准包括最近使用抗生素或其他药物。
应说明最终的分析样本量,以及在招募、随访或实验室过程的任何步骤中排除参与者的原因。
建议使用流程图来显示参与者被排除在研究之外的时间和原因。例如如下流程说明。
Mirzayi C, et al., Nat Med. 2021
如果参与者在纵向研究中失访或未完成所有评估,则应说明如何进行随访的详细信息,并应报告特定时间点的样本量。
此外,将病例与对照进行匹配的研究应描述在匹配中使用了哪些变量。
实 验 方 法
应描述实验室样品的处理,包括样品采集、运输和储存的程序。
由于 DNA 提取可能是跨研究技术差异的主要来源,因此应描述 DNA 提取方法。如果进行了人类 DNA 去除和微生物 DNA 富集的描述,也应包括在内。同样,如果使用阳性对照、阴性对照或污染物减轻方法,则应对其进行识别和描述。
应描述报告与测序相关的方法。这包括引物选择和 DNA 扩增(包括16S rRNA 基因可变区,如果适用)。测序完成的主要单位(公司或者检测机构),例如鸟枪法或扩增子测序。最后,应解释用于确定相对丰度的方法。
批次效应应作为潜在的混杂来源进行讨论,包括为确保批次效应不与暴露或感兴趣的结果重叠而采取的步骤。如果进行宏转录组学、宏蛋白质组学或代谢组学,应提供这些方法的详细信息。
数 据 源 / 测 量
对于非微生物组数据(例如,健康结果、参与者的社会经济、行为、饮食和生物医学特征,包括疾病位置和活动以及环境变量),应描述每个变量的测量和定义。例如,参与者的性别和年龄可以从电子病历或分发给参与者的问卷中获得,那么应该清楚描述这个数据源的获得方式。还可以讨论测量的局限性,包括由于错误分类或丢失数据导致的潜在偏差,以及为解决这些测量问题所做的任何尝试。
因果推断的研究设计注意事项
在没有直接观察到假设的因果关系的情况下,观察数据通常用于测试旨在进行因果推断的关联。
方法包括,例如,使用多变量分析或匹配来调整假设暴露(例如微生物分类群的丰度)与研究中的疾病或病症之间的混杂变量。混杂因素可以被认为是暴露和研究结果的常见原因,可以导致暴露和结果之间的虚假关联。例如,年龄可能是一个常见的混杂因素,因为它会影响微生物组和大多数健康结果的风险。
如果不采取措施避免批次间条件的不平衡,实验室批次效应也可能混淆微生物组与感兴趣条件之间的关系。试图控制测量混杂的常用方法是调整或分层混杂。应为因果推断的回归模型中包含或排除的变量提供理由,因为对非混杂变量进行调整或分层会引入偏差。作为这一理论论证的一部分,作者应考虑包括一个有向无环图,显示假设的感兴趣的因果关系。
除了考虑本研究的理论动机外,还应讨论可能会扭曲微生物组与感兴趣变量之间观察到的关系的选择或生存偏差的可能性。例如,这种偏倚可能是由于失访(在纵向研究中)或由于疾病本身而没有将参与者纳入研究(例如,死于侵袭性结直肠癌和还没有幸存下来,无法参与结肠直肠癌微生物组的假设研究)。检查表中其他地方的其他项目可能与因果推断问题直接相关,包括假设、研究设计、匹配、偏倚和普遍性。鼓励调查因果问题的作者在因果推断的背景下考虑他们对这些项目的报告。
生物信息学和统计方法
对生物信息学和统计方法的充分描述对于生成严谨且可重复的研究报告至关重要。
应描述数据转换(例如标准化、稀疏和百分比)。应充分披露质量控制方法,包括过滤或删除读数或样本的标准。应说明用于分析数据的所有统计方法,包括如何选择感兴趣的结果(例如,使用P值、q值或其他阈值)。
应详细描述分类、功能分析或其他序列分析方法。为了重现性,所有用于数据预处理和分析的软件、软件包、数据库和库都应该被描述和引用,包括版本号。
可重复的研究
可重复的研究实践作为出版过程中的质量检查以及进一步的透明度和知识共享,如 Schloss 提出的标题中所详述。期刊越来越多地实施可重复的研究标准,包括数据和代码的发布,并且在可能的情况下应遵循这些指南。
如果可能,原始数据和处理过的数据,应存放在独立维护的公共存储库中,这些存储库可提供长期可用性,例如由 NCBI 或 EMBL-EBI 维护的公共存储库。Zenodo ( https://zenodo.org/ ) 或 Publisso (https://www.publisso.de/en/ ) 可用于为处理后的数据集提供 DOI。
如果数据或代码不公开或不能公开,即使在提供限制访问选项的存储库中,也应提供感兴趣的读者如何访问数据的描述。至少应描述任何受保护的信息,以及如何访问此类数据。
描 述 性 数 据
应报告关于研究人群的描述性统计数据。至少,应描述研究人群的年龄和性别,共享数据文件中应包括每位参与者的年龄和性别,但应尽可能报告其他重要的参与者特征,包括药物使用或生活方式因素,例如饮食。
作者应考虑在描述性统计表中如何报告这些数据。例如R 软件中的 table1 包等包,使创建这样的表不那么复杂。
结 果 数 据
研究的主要结果应该是详细的,包括描述性信息、感兴趣的发现和任何额外分析的结果。
应为每个组和每个时间点报告描述性微生物组分析(例如,降维如主坐标分析、多样性测量和总分类组成)。
这应为读者提供了差异丰度分析的结果。当报告差异丰度测试结果时,应明确说明每个可识别的标准化分类单元的差异丰度的大小和方向。其他类型分析的结果,如代谢功能、功能潜力、MAG 组装和 RNA-seq,也应在结果中描述。
附加结果(例如,非显著结果或完全差异丰度结果)可以包含在补充中,不应完全排除。
虽然这个问题已经存在了几十年,许多领域的期刊都认识到发表偏倚的问题,但在出版物中包含此类结果将有助于降低这种偏倚的严重程度,并改进未来的系统评价和荟萃分析。
讨论应包括对本研究和相关方法的局限性的讨论。应讨论偏差的可能性以及它们将如何影响研究结果。
许多形式的偏倚,例如残差/未测量混杂、与成分分析相关的偏倚、测量偏倚或选择偏倚,都可能影响对研究结果的解释,在讨论中承认潜在的偏倚来源很重要。
还应考虑研究发现的普遍性,以及这些发现是否适用于目标人群或其他人群。如果不同形式的偏见没有被评估或假设,可以忽略不计,但应说明这一点。
主要参考文献
Mirzayi C, Renson A; Genomic Standards Consortium et al. Reporting guidelines for human microbiome research: the STORMS checklist. Nat Med. 2021 Nov;27(11):1885-1892. doi: 10.1038/s41591-021-01552-x.
Wirbel, J. et al. Meta-analysis of fecal metagenomes reveals global microbial signatures that are specific for colorectal cancer. Nat. Med. 25, 679–689 (2019).
Simoneau, J., Dumontier, S., Gosselin, R. & Scott, M. S. Current RNA-seq methodology reporting limits reproducibility. Brief. Bioinform. 22, 140–145 (2021).
Ten Hoopen, P. et al. The metagenomic data life-cycle: standards and best practices. Gigascience 6, 1–11 (2017). – PubMed – PMC
Yilmaz, P. et al. Minimum information about a marker gene sequence (MIMARKS) and minimum information about any (x) sequence (MIxS) specifications. Nat. Biotechnol. 29, 415–420 (2011). – PubMed – PMC
谷禾健康
编辑
微生物组和组学数据集,由于其生物学性质,通常是高维的,特征常以各种成分,如基因、OTU、RNA转录本等的计数为特征。这些数据统称为成分数据。
这类数据分析的中心概念是对数转换,而其中最简单的策略是ALR(Additive log ratio)方法。对于高维数据,ALR方法有一下几个特点:
(a) 次要成分都是相干的
(b)可以解释100%的总对数方差
(c)测量结果非常接近于等距。
最近,来自西班牙科学团队的一篇题为“Compositional Data Analysis of Microbiome and Any-Omics Datasets: A Validation of the Additive Logratio Transformation” 的文章指出:
ALR对数转换可以有效提供一组简单的变量来表示整个成分数据集,其关键节点在于选择哪个成分为参考,并使用三个高维组学数据集进行验证。
通过ALR方法的理论和推导公式(这里不详述,推荐看原文),分别计算总对数方差(The total logratio variance 总结了采样点在多维空间中的分散程度),Logratio Geometry和Procrustes分析,以此找到有效的参照特征。再与其它对数转换方法对比,如CLR对数转换。
1. 兔子数据集
数据集为非零数据集,89个样本,3937个特征。
总对数方差为0.1601,Procrstes相关系数最高为0.9991,对应的基因数为856。该基因在3937个基因中的相对丰度排名第201位。
图一为所有3937个特征的Procrstes相关性直方图。为了直观地显示ALR变量接近等距的程度。
图一
图二显示了在ALR上计算的所有样本间距离,基于所有成对对数的对数距离或同等情况下的所有CLR绘制相应的精确对数距离。
图二
图三为对于数据集的89个样本,参考基因编号856的计数与计数总和之间成正比。
图三
下图四展示了整个数据集的LRA(是所有成对对数的主成分分析(PCA),相当于所有CLR的主成分分析,以加权或非加权的形式)。
而图五中展示了具有参考基因856的ALR的对应PCA。主成分分析与参考成分微生物基因编号为856时,其几何形状实际上与确切的直线几何形状相同(Procrstes相关=0.9991)。字母S和F代表进行测序的两个实验室,显示出明显的分离。
图四
图五
2. 小鼠数据集
数据集大小,28个样本,3147个特征。此数据集中有34个零,使用R包zComposition中的函数cmultReplin替换。
总对数方差 0.2099,Procrustes相关系数最高为0.9977,对应转录本编号1318,其中转录本编号1179的Procrustes相关系数也与其相似。
图六
图七
图六显示了在ALR上计算的样本间距离。为了显示任意大小数据集的ALR变换的质量,对MICE数据进行了模拟研究,从数据中随机抽取不同大小的样本,将每个样本作为独好的立的样本,并为该特定数据集的ALR变换找到最佳参考。
对于100、500、1,000、1,500、2,000、2,500、3,000和3,500个转录本的子集,以及每个子集的100个随机样本,绘制最佳的Procrstes相关性,如图七展示。ALR变换的等距质量随着可能的参考成分特征数量的增加而提高。
图八展示完整数据集的LRA,图九展示了参考转录本编号1179的ALR的PCA。它们实际上是相同的,只是有很小的差异,而在这之前的Procrstes相关系数结果就已经指示出了。标签代表两种不同的处理(L和M)和7种不同的时间(0、1、2、4、6、9和12h)。
图八
图九
3. 奶牛数据集
这是一个大小为211个样,127个特征的核磁共振强度数据集。样本被分成三个饮食组:精料组、混合组和饲草组,还测量了甲烷产量。
图十
图十一
总对数方差0.09128,Procrustes相关系数最高为0.9902,对应于编号101。图十展示完整数据集的LRA,图十一展示了编号101的ALR的PCA。标签C(精料)、M(混合)和F(饲料)。
从以上三个数据集的验证分析不难看出,对于高维数据,使用ALR对数转换也能得到对全部特征使用CLR对数转换方法的结果,关键在于找到有效的参考特征(成分)。
文章中作者建议将其作为此类高维数据成分数据分析的第一步。作者公开了部分数据集的存放地址,以及用于数据处理的部分代码。可以自己尝试看看是否适用。
扩展:数据集位置及实用脚本
兔子数据集: https://www.ebi.ac.uk/ena/browser/view/PRJEB46755
小鼠数据集:http://doi.org/10.5281/zenodo.3270954
其它数据集及脚本:https://github.com/michaelgreenacre/CODAinPractice
在这个github中有详细列出文中所使用的用于数据处理的各个R源码,以及目前这些数据处理的相关函数。
而这些脚本现已被整合为R包,easyCODA,可以从CRAN中直接下载。在Rstudio中调用“install.packages(“easyCODA“)”。
Tips
在对成分数据(composition data)进行分析时,通常会对原始数据进行矫正,也可以理解为一种标准化方法。比较常用的对数转换方法是CLR(Centered Log-Ratio),其次是ALR(Additive Log-Ratio,也就是文章主要推荐的方法)和ILR(Isometric Log-Ratio)。
每种方法都有优缺点,对于后续统计分析的适用程度,CLR>ALR>ILR。个人建议先使用CLR和ALR对数据进行转换,然后使用PCA或其他降维分析方法查看其类群分布,搭配adonis查看其统计显著性水平。只要能达到预期结果就都能使用。如果CLR和ALR数据转换后结果差异不大,那推荐使用CLR。
参考文献:
Greenacre M, Martínez-Álvaro M, Blasco A. Compositional Data Analysis of Microbiome and Any-Omics Datasets: A Validation of the Additive Logratio Transformation. Front Microbiol. 2021 Oct 11;12:727398. doi: 10.3389/fmicb.2021.727398.
谷禾健康
ResistoXplorer基于Web的耐药基因组数据可视化,统计和探索性新分析工具。
对宏基因组测序后的数据进行抗生素耐药性基因组的注释与分析,逐渐成为一条必经之路。过去,人们需要自己下载相关数据库再用比对工具进行比对,然后去冗余,再进行下游分析。这通常需要学习编程并熟练应用,对于一些临床医生或科研人员是一个很大的挑战。
最近有一款新的工具,用于对耐药基因组数据的成分分析,功能分析和比较分析。
ResistoXplorer,一款Web程序,地址:http://www.resistoxplorer.no
ResistoXplorer的主要功能包括:
1.支持多种常用和先进的方法,用于成分分析、可视化和探索性数据分析
2.全面支持各种数据归一化方法,包括标准的和最新的统计和机器学习算法
3.支持对配对数据集进行垂直数据综合分析的多种方法
4. ARG功能注释及其微生物和表型关联,基于10多个参考数据库的对比结果
5.功能强大且齐全的网络可视化,直观展现ARG于微生物的关联
打开网址后的界面:
由三个主要分析模块组成(上图红色箭头所指框内):
“ARG List”:探索给定的ARG信息的功能和微生物宿主的关联,可视化网络。
“ARG Table”:对从宏基因组组学研究中获得的耐药基因组丰度文件进行功能分析,α多样性分析,排序分析,差异丰度分析等。
“Intergration”:综合分析,进一步探索潜在的联系,并结合新的生物学见解和假说,相似性分析,成对微生物-ARG相关分析等
上图绿色箭头所指框内:
“DataFormat”和“About”: 提供了关于注释表的格式、结构和数据库统计信息的详细描述
“FAQs”:提供了一些问题的答疑
“Resources”:分为“Manuals”和“Downloads”两个模块
Manuals是使用手册,对用户进行操作指导,建议仔细阅读。
Downloads,提供了示例上传文件和单个数据库的下载
分析流程
ResistoXplorer接受抗性基因列表和ARG/taxa丰度表作为输入数据。然后是数据处理、数据分析和结果输出三个步骤。数据处理包括数据过滤和标准化,数据分析包括成分分析,比较分析和综合分析。结果输出以可视化图形,表格或html格式输出。
ResistoXplorer的功能注释使用的参考数据库来自9个通用的AMR数据库,CARD、ResFinder、MEGARes、AMRFinder、SARG、DeepARG-DB、ARGminer、ARDB和ARG-ANNOT。
此外,研究人员还从BacMet数据库和抗菌肽(AMP)耐药基因数据集中手动构建了功能注释信息,使用户能够对抗菌药物/金属和AMP抗性基因进行功能分析和下游分析。
数据处理、分析及结果
数据过滤和标准化
默认情况下,低质量的特征会根据样本流行度及其丰度水平进行过滤。默认值是其他工具所使用的值,大多数在文献中可以找到。用户可以根据分位数间范围、标准差或变异系数排除这些低变异特征。
除alpha多样性和稀疏性分析外,过滤后的数据大多数用于下游分析。在综合分析的情况下,用户还可以对分类注释和耐药基因组丰度数据选择不同的数据筛选标准。
过滤后的数据还需要normalization(归一化)。ResistoXplorer提供了三种数据归一化方法,rarefying, scaling和transformation(稀疏、缩放和转换)。此外还支持其他归一化方法,如中心对数(CLR)和加性对数比(ALR)变换,以便于成分数据分析。方法的选择取决于要执行的分析类型。归一化后的数据用于探索性数据分析,包括排序、聚类和综合分析。用户可以自行探索适合的参数。
成分分析
A) 显示各样本在不同分类水平下的ARG丰度。
B) Shannon多样性指数
C) 桑基图。显示了各组内的包括类别,机制和分组的ARG丰度分布。
D) 稀疏曲线。评估样本中估计的多样性的可靠性,在稀疏曲线中,识别的唯一特征(ARG)的数量与序列样本大小相对应。
E) 排序分析。左边是基于时间点的带有样本颜色的3D PCA图。右边是根据不同的治疗组和时间点绘制3D PCoA图。目前,支持三种通用的排序方法, PCoA、NMDS和 PCA。结果表示为2D和3D样本图。
比较分析
差异丰度分析
使用DESeq2、Edger、metagenomeSeq、Lefse,以及单变量分析方法,比如ALDEx2和ANCOM。DESeq2和Edger说明计数数据的特征,相比之下metagenomeSeq使用推荐的CSS规范化,在更大的分组规模下具有更高的性能。
Lefse使用标准的非参数检验统计显著性,结合线性判别分析来评估差异丰富特征的效应大小。
ALDEx2对来自数据的模型化概率分布的对数比值执行参数或非参数统计测试,并返回统计测试的期望值以及效应大小估计。
ANCOM使用非参数统计检验来检验所有特征对的对数比丰度,以找出均值差异。结果以表格样式展现。
基于机器学习的分类
提供了两种功能强大的监督分类方法–随机森林和支持向量机(SVM),以识别潜在的生物标志物。
C)随机森林
D)展示了SVM在特征(变量)数量减少的情况下的分类性能
其他的一些可视化分析
用户可以根据样本的丰度和流行程度,执行核心抗性分析来检测样本或样本组中存在的核心特征集,以热图的形式展现;以及关联分析和层次聚类,使用热图或者树状图可视化。
综合分析
使用各种综合数据分析方法来探索和揭示微生物群和抗性群之间潜在的潜在关联,这种分析大多用于探索不同环境中细菌和ARGs之间的联系。目前,为数据集成和相关分析提供了几种领先的、常用的单变量和多变量统计方法。所有这些分析都是在过滤和归一化数据集上执行的。
全局相似性分析
用两种基于多变量相关性的方法来确定微生物组和AMR数据集之间的总体相似性,分别为普鲁克分析(PA)和协惯量分析(CIA),在各种功能和分类级别上执行分析。相似系数和P值用于评估两个数据集之间的关联的强度和显著性,相似性系数在0到1之间,0表示两个数据集之间的完全相似,而1表示两个数据集之间的完全不相似。可视化结果用2D和3D排序图表示,如下图
A) 来自普鲁克分析的3D NMDS图,包含与数据集相关的样本、形状和颜色。
B) 来自协惯量分析的3D PCoA图,其中连接两点的线的长度表示两个数据集之间的样本的相似性。
组学数据集成方法
基于多变量投影的探索性方法,如正则化典型相关分析(RCCA)和稀疏偏最小二乘法(SPLS),用于微生物组和AMR数据的集成。这些方法旨在突出高维“组学”数据集之间的相关性。
A 门水平微生物群落与ARGs(组水平)之间的聚类图像热图
B 显示存在于两个数据集中的特征(分类群/参数)的相关结构的相关圆图
成对微生物-ARG相关分析
使用单变量相关分析来确定单个菌群和ARGs(耐药基因组)之间是否存在强相关。使用Spearman、Pearson、CCLasso和最大信息系数(Maximal Information Coefficient)四种方法。用户可以使用绝对相关系数和调整p值的组合来选择强且显著的成对相关性。结果如下图,每个节点表示一个菌或ARG。用户可以双击一个节点,以突出显示网络中相应的相关节点。边缘的宽度和颜色表示两个节点之间相关性的强度和方向。
探索ARGs-微生物宿主网络
基于网络的可视化分析系统,提供了解ARGs和微生物宿主之间复杂的“多对多”关系的可能性。例如,通过查找在多个微生物中发现的ARGs或通过识别同时包含多个感兴趣的ARGs的微生物,可以直接从网络的角度找到承上启下的关键点。
从ResistoXplorer程序中涵盖的数据库中搜集ARGs-微生物宿主信息,构建的关联表用于网络可视化和功能分析。如下图,它由三个主要组件组成:中央网络可视化区、左侧的网络定制和功能分析面板,包含节点表的右侧面板。
用户可以使用带滚轮的鼠标直观地查看和操作中心区域的网络。例如,可以滚动滚轮来放大和缩小网络,将鼠标悬停在任何节点上以查看其名称,单击节点以在右下角显示其详细信息,或双击节点以将其选中。
顶部的水平工具栏显示了操纵网络的基本功能。第一个是颜色选择器,能够为下一次选择选择高亮颜色。还可以使用工具栏中的虚线方形图标选择并拖动多个节点。对当前网络中存在的ARGs进行功能富集分析,使用超几何测试方法,这种方法与网络可视化系统相结合,在解释AMR耐药机制和提供ARGs的可能传播路径信息可能会有更好的效果。
文章中为了展示该工具的可用性,在已发表的一些研究中,选择了1个研究进行抗性分析,“利用商业饲养牛检验图拉霉素(抗菌药物)对肠道微生物组和耐药性的影响”,分析的内容就如同上面展示的那样,这里就不多加赘述。
与其他工具的比较,文章中也列举了一个表格,分别与AMR++Shiny、resistomeAnalusis、WHAM!在分析模块上进行了比较。实际上大同小异,主要的分析模块以及使用的数据库都是相似的,只是谁的数据库更强大,搭载的分析模块更多的区别。
哪款软件的算法和统计分析匹配你的实验数据,或者它能为你提供更多的数据信息,就是适合你的。
这款在线分析抗生素耐药性基因组的程序值得探索一下,统计分析方法和数据库内容都挺强大的,交互式的使用也免去了对编程语言的探索,并且开发人员也表示会持续更新和精选数据库以达到更准确的下游分析。
参考文献
Dhariwal A, Junges R, Chen T, Petersen FC. ResistoXplorer: a web-based tool for visual, statistical and exploratory data analysis of resistome data. NAR Genom Bioinform. 2021 Mar 24;3(1): lqab018.
Interagency Coordination Group on Antimicrobial Resistance No time to wait–securing the future from drug-resistant infections. Rep. Secret. Gen. Nations. 2019.
Simonsen G.S., Tapsall J.W., Allegranzi B., Talbot E.A., Lazzari S. The antimicrobial resistance containment and surveillance approach-a public health tool. Bull. World Health Organ. 2004; 82:928–934.
Cecchini M., Langer J., Slawomirski L. Antimicrobial Resistance in G7 Countries and Beyond: Economic Issues, Policies and Options for Action. Paris: Organization for Economic Co-operation and Development. 2015; 1–75.
Xia Y., Zhu Y., Li Q., Lu J. Human gut resistome can be country-specific. PeerJ. 2019; 7:e6389.
Forslund K., Sunagawa S., Kultima J.R., Mende D.R., Arumugam M., Typas A., Bork P. Country-specific antibiotic use practices impact the human gut resistome. Genome Res. 2013; 23:1163–1169.
谷禾健康
微生物多样性测序(扩增子测序)是基于二代高通量测序对16S/18S/ITS等序列进行测序。可以同时检测样本中的优势物种、稀有物种及一些未知物种的检测,获得样本的微生物群落组成以及相对丰度。
相信关注我们的小伙伴对此并不陌生。
这次我们整合了大家平时会遇到的一些问题,在原有的基础上对报告进一步完善。
重要指数 :★★★★★
这部分内容必看。
主要是汇总信息,包括样本数据量,测序质量,重复性效果评估,分组信息,组间差异评估,代谢途径上差异,功能预测等。
这里会给出本项目中的一些重要提示,帮你从众多的报告信息中获取关键的部分。
重要指数 :★★★
技术介绍这部分内容,就是说我们基于是怎么样一个测序平台、什么方法来获得的最后的数据。
如果你担心
这么直观的报告,
会不会不够详细?
小问号里有宝藏!
如上图,点击实验流程旁边的小问号,弹出的文件夹里就有详细的英文版方法介绍。
重要指数 :★★★★
这部分内容主要是数据统计的图表:
Raw-tags: 样本的原始序列数据
Singleton: 无完全匹配的单条序列数量
tagsmatchedASVs: 比对到最终ASVs的序列数据
ASVs:以及ASVs的种类个数
重要指数 :★★★★
经过SILVA138数据库的注释,得到ASVs的物种注释结果。
这一部分可以看到每个样本的物种构成比例,Taxonomic Level 可以选择Level1 ~ Level7 界门纲目科属种,不同分类水平下的物种构成。
这里选择level2就是“界”层级(可根据需求自选),另外比如选一个groups分组,如下:
柱状图太宽?太窄?
一拉即可调整!
同时给出了各分类水平的相关原始数据,可以到对应路径进行查看。
重要指数 :★★★★
α多样性
评估单个样本内的物种构成的丰度情况
使用Qiime2进行α多样性分析,分别计算获得simpson,ace,shannon,chao1以及goods_coverage数据统计结果。
β多样性
通过降维的方法来考察样本与样本之间的相似度和关系,种属构成特征。
三种聚类方式:
Beta多样性PCA、非加权距离的PcoA、加权距离的PcoA的3D图。
按住鼠标随意拖动,可以看到任意角度的三维坐标自由变换。
大小可自行调整
多色系任你挑选
总有你想要的图
重要指数 :★★★★★
按照你填写的样本信息单,对各分组情况,进行统计学差异分析。
分组Venn图
OTU/ASVs比较韦恩图(样本数/分组数<=5个样本,若分组数大于5出花瓣图)
分组元信息统计
对分组样本及其元数据进行统计
α多样性
分组之间alpha多样性指数使用非参数统计检验
分组是否有意义?——β多样性
Beta多样性分组Anosim检验结果
Anosim分析是一种非参数检验,用来检验组间的差异是否显著大于组内差异,从而判断分组是否有意义。
要PCA结果图?
要PCoA结果图?
要NMDS结果图?
要加权?非加权?
… …
全部都有
Beta多样性PCA结果
使用bray_curtis的PCA组间分布及差异
Beta多样性非加权PCoA结果
使用unweighted_unifrac的PCoA组间分布及差异
Beta多样性加权PCoA结果
使用weighted_unifrac的PCoA组间分布及差异
Beta多样性NMDS结果
非度量多维尺度分析 NMDS 分析与 PCoA 类似,也是一种基于样本距离矩阵的分析方法,通过降维处理展现样本特定的距离分布。
通过对样本距离进行等级排序,使样本在低维空间中的排序尽可能符合彼此之间的距离远近关系(而非确切距离数值)。因此,NMDS 分析不受样本距离的数值影响,对于结构复杂的数据排序结果可能更稳定。
你想要的层级或分组都有——组间物种构成柱状图
样本及分组之间聚类热图
了解样品之间的相似性以及属水平上的群落构成相似性。
组间各物种分类水平及功能差异
Tukey检验
如果样本每个分组是完全均等的情况(比如说每个组各有10个样),适合用Tukey检验。
优势:
可以快速在图中表现出多个分组之间,哪两个之间存在显著差异。
组间各物种分类水平
非参数检验
各个层级均有相对应的图展示。
组间菌群比较选取物种标志物
Lefse分析
基于线性判定的方式,筛选组与组间的生物标记物——也就是说找到组间存在特别显著的高丰度的菌属。
Bugbase菌群表型特征功能预测分析
基于文献的一些分类,对菌属进行菌群表征,包括对厌氧/好氧,革兰氏阴性/阳性,生物膜形成等分类。
环境样本工具?——FAPROTAX生态功能预测
整合文献原核功能数据库,偏向于代谢和生物学功能的注释。比较适合环境样本,比如说碳、氢、氧、氮、硫等元素的代谢循环的能力。
基因功能预测?——Picrust2功能预测分析
随着研究的不断深入,很多菌的基因组数据有了,基于基因组数据一旦能确定其物种来源,可以推测它具有的基因的拷贝数、代谢通路的构成特征。
2万多的物种,基因覆盖更完整
还包括了CAZY,GMM,GBM等模块
具体差异的意义要结合你的实际研究目标解释
组间各物种分类水平及功能差异
MetagenomeSeq分析
更保守,结果可靠性更高
组间物种及功能差异热图
基于上面MetagenomeSeq的结果中,找到差异的物种种属和代谢通路做的热图。
差异菌属与代谢通路之间有什么关系?
差异菌属和功能代谢关联分析
从菌属上的差异,代谢通路的差异等来看,到底是如何关联,是什么类的菌或代谢通路作出贡献。
不同分组之间相对明确区别的模型?
随机森林预测
判断是哪个层面上的数据能最大程度作为分组样本的区分,以及区分效果。
我们提供的基础分析包括以下所有内容:
相关阅读:
谷禾健康
肠道菌群检测的第一步是取样,取样的重要程度不言而喻,实验人员只有在拿到合格样本后才能开展后续实验。
如果储存和运输不当菌群结构就会发生变化,进而导致菌群测序不准确,因此,便捷可靠是关键。
谷禾经过多年肠道菌群检测实践和研发,开发出适用于肠道菌群取样和常温储存的取样管,可以采集并稳定DNA,用于定量肠道菌群组成分析。
整个取样盒包括:
取样管(内含裂解液和稳定液);
无菌棉签;
回寄袋;
每个取样管上均有唯一条码。
主要特点:
在家中轻松自行采样高质量样品
起始样品需要量低至0.01g,快速且稳定
常温保存运输
标准样品适合手动或高通量自动处理
获得适用于16S ,qPCR,宏基因组的高质量DNA
条形码化全样本可追溯性
谷禾取样管的独特特点使得取样变的异常简便,下面是取样演示:
仅需使用棉签从厕纸上沾取粪便,然后洗脱到取样管的保存液中即可,使保存液可见粪便颜色即表示取样量足够。
适用于-20°C至65°C下保持DNA完整性
室温下有效存储长达60天
与新鲜样本一致的菌群构成特征
低成本
下面来看一下取样管在不同条件下的保存效果,我们使用凝胶电泳来检测不同保存处理条件下提取菌群DNA的状态:
可以看到,使用谷禾保存管的DNA样品即便在存储至60天仍然没有出现明显的DNA降解情况。
专利号:ZL201511009389.7
配合谷禾肠道菌群取样保存管
适用于提取极低当量菌群DNA
具备以下特点:
磁珠法-适用于自动化高通量提取
起始量限制低
与MoBio试剂盒一致性高
现有样本处理量450例/天
下图可以看到我们使用谷禾提取方法与MoBio试剂盒比较以及重复提取的菌群相关性。另外同时比较了使用谷禾取样管保存不同天数后的提取菌群结果。
专业的实验环境
让整个实验操作
得以高效可靠运行
二级生物安全实验室
注:生物安全实验室的分级
生物安全实验室一般实施两级隔离。一级隔离通过生物安全柜、负压隔离器、正压防护服、手套、眼罩等实现;二级隔离通过实验室的建筑、空调净化和电气控制系统来实现。
谷禾健康
迄今为止,已经有了许多对呼吸道微生物组通过16S rRNA高通量测序的研究。这其中所有基于扩增子的研究的共同之处就是PCR的应用:
一是扩增待测序的目标标记基因,
二是为多样本的混合测序添加必要的索引序列。
这些步骤可以通过一步PCR或两步PCR完成,但没有研究说明两步PCR方案相关的实验室处理步骤是否会使样品比一步PCR方案更容易受到来自实验室的细菌DNA污染的影响。
本文
试图确定对16S rRNA V3V4与V4基因区域的一步或两步PCR的建库方案对上呼吸道和下呼吸道微生物组的影响
对收集的样本进行了三个设置下的lllumina MiSeq测序
设置1(两步PCR,V3V4区域)
设置2(两步PCR,V4区域)
设置3(一步PCR,V4区域)
分别对这三个设置产生的测序数据进行分析
结论
PCR步骤数量的差异会影响对呼吸道微生物群落的物种组成分析,且对上呼吸道(高细菌载量)的影响小于下呼吸道(低细菌载量),这表明PCR设置的偏差与样本生物量有关。
通过三个实验,即对模拟群落样品HM-783D、NCS样品、呼吸道样品采用三种PCR方案进行建库后的测序结果分析,研究这三种建库方案对其菌群描述的影响。
模拟群落样品HM-783D,来自20种不同细菌物种(17个属)的基因组DNA。
阴性对照样本NCS
呼吸道样品,从Bergen COPD微生物组研究中选择了23名研究对象,其中9名健康,4名患哮喘,10名患COPD(慢阻肺)。上呼吸道样本以漱口水(OW)为代表,下呼吸道样本以标本刷(PSB)和支气管肺泡灌洗液(PBAL)为代表。
三种PCR方案:
细菌DNA提取后通过三种不同的建库设置进行MiSeq测序,分别为
Setup1(两步PCR,V3V4区域);
Setup2(两步PCR,V4区域);
Setup3(一步PCR,V4区域)
下图完整的展示了三个PCR设置下的使用呼吸道样本的生物信息学过滤步骤:
最终:
设置1:得到了666个ASVs
设置2:得到了310个ASVs
设置3:得到了291个ASVs
1. 对模拟群落样品HM-783D的分析
在设置1中进行了四次测序,设置2和设置3分别进行了一次。
与预期丰度(Expected)相比,柱状图中观察到三种PCR设置下的各菌属的相对丰度与预期丰度相差不大,表中数据显示,三种PCR设置都在恢复高丰度物种方面具有最高的效率,但设置3在回收低丰度物种时的效率最低。
2. 对阴性对照样品的分析
从上至下分别为设置123测序后,在NCS样品中观察到的20种最丰富的ASV。通过R包Decontam去除污染物,在设置23之间差异最大的是属于肠杆菌科的ASV,与后续的对水样品进行设置23下的测序分析结果相比较,发现大肠杆菌ASV就是在建库步骤中使用设置3的试剂时引入的污染物。
3. 对采集的呼吸道样品的分析
在去除污染物前后,代表为呼吸道菌群的链球菌,普雷伏氏菌,Veillonella和Rothia属的相对丰度变化不大,而去除污染物后,预测作为污染物代表的数量较少的物种被滤出。基于主坐标分析,发现高细菌载量的OW样品聚集在一起,低细菌载量PBAL,PSB一句设置23分离开。
去除污染物之前的三种类型样品的三种PCR设置下的物种分类
去除污染物后的
从左至右分别为去除污染物前后的未加权UniFrac距离的主坐标分析
OW:蓝色; PBAL:绿色;PSB:紫色;NCS:红色。
设置2(球形),3(菱形)
文章作者给出的结论是文库制备和测序方法的选择会对呼吸道微生物组的分析产生影响,且对上呼吸道的影响小于下呼吸道。靶向扩增子区域的差异(16S rRNA基因V3 V4与V4)并未表现出对细菌群落描述的重大影响。对于整篇研究存在的主要的局限性在于仅研究了DNA提取后的PCR步骤,污染或影响也可能来自于更前期的处理。
编者按
在使用测序技术进行的微生物研究中,测序偏差和污染物是一直存在的问题,也因此诞生了许多工具和计算方法用于尽可能的消除或降低这方面的影响。这篇研究也提醒了我们,在呼吸道微生物组的研究中,要注意上呼吸道与下呼吸道的菌群差异或相似可能不仅仅来源于样本自身,还可能掺杂着PCR方法选择上的影响。
参考文献:
Drengenes C, Eagan TML, Haaland I, Wiker HG, Nielsen R. Exploring protocol bias in airway microbiome studies: one versus two PCR steps and 16S rRNA gene region V3 V4 versus V4. BMC Genomics. 2021 Jan 4;22(1):3.
相关阅读: