Author Archive 谷禾健康

RESCRIPt:序列分类参考数据库管理工具

谷禾健康

分类分析的研究,依赖于高质量的序列分类参考数据库,然而,目前已有记录公共序列数据库中出现错误,这些错误可能导致下游结果出错。不同的参考数据库对生物数据的分类结果差别很大,但缺乏客观评价单个数据库质量的标准

有人选择自行构建特定于环境的数据库,但生成这样的数据库在技术上具有挑战性,导致了研究人员难以获取适当参考材料,或者对专有资源和服务有很大的依赖性

为了满足可重复的生物信息学工作流程,以简化数据库生成和管理,来自阿肯色大学的Michael等人开发了一款新的工具——RESCRIPt. 该文章最近发表在《PLOS COMPUTATIONAL BIOLOGY》上。

RESCRIPt是一个独立的python3软件包,也是QIIME 2插件。用于参考序列分类数据库的可重复构建和管理,主要功能是格式化主流的公共数据库内序列用以自建分类数据库,由于处理步骤是透明化的,所以用户可以为不同的研究应用创建参考材料。

次要功能有评估、比较和交互探索参考数据库的定性和定量特征的功能。RESCRIPt使用QIIME 2文件格式,对每个处理步骤都生成专一的文件存储,使用户可以随时追溯任一计算步骤

文章中,作者使用RESCRIPt对几个常用的16S rRNA基因、ITS和COI序列的参考数据库利用RESCRIPt进行了评估,并探讨了RESCRIPt目前存在的问题和未来的目标。

RESCRIPt工作流程

RESCRIPt处理和管理参考数据库的工作流程

实线箭头表示建议的流程。虚线的箭头和边框表示自定义工作流程时的可选步骤。

RESCRIPt可以有效和透明的构建任何存在源数据的扩增子的参考数据库,以及来自NCBI的全基因组。

“Get Data”:获取源数据,可以直接从SILVA和NCBI GenBank数据库中自动下载序列和分类

“Format Data”:格式化数据,包括基本的序列操作、逆转录和解析分类。

“Filter Data”:过滤数据,根据序列的质量或长度过滤以及根据分类和分类单元所在的序列长度过滤。

“Modify Data”:修改数据,去重复、合并分类或聚类。

“Evaluate Data”:评估, 对序列的一般质检,以及对分类准确率的评估。

详细的操作命令,见:
bokulich-lab/RESCRIPt: REference Sequence annotation and CuRatIon Pipeline (github.com)

RESCRIPt比较评估目前常用的四种16S rRNA基因数据库,分别为SILVA、Greengenes、GTDB和NCBI-RefSeq

从结果上看,在这些数据库中,SILVA数据库展示了最多的唯一序列和物种数,但是SILVA缺乏种水平的分类管理,其在种水平的分类准确率为0.73,远远于其他16S rRNA基因数据库。相比之下,SILVA在属水平上的分类准确率得多。

NCBI-RefSeq的参考序列质量最高,分类准确率为0.94。

GTDB表现出略低的分类准确率0.92。

Greengenes13_8含有大量独特的序列和与SILVA相似的序列信息熵,但在属(54%)和种(90%)水平上有许多没被注释的序列。这表明该数据库中的大量序列在遗传上相似(≥98%),但在分类上是不同的,产生了不明确的标签

各数据库的序列信息

图A. 序列长度分布(去除异常值后);

图B. 每个数据库中唯一序列的数量;

图C. 每个数据库中全长序列和不同kmer长度的熵。

各数据库的分类信息和模拟分类的准确率比较

图A.唯一分类标签的数量。 图B.分类熵。

图C.在每一层级上未分类物种的比例。 图D.分类准确率。

横轴表示分类水平域门纲目科属种。

各数据库的分类覆盖率比较

每张子图表示该数据库与其他数据库在每个分类水平上共享的分类群比例。图例指出了要相互比较的数据库。

RESCRIPt比较评估不同过滤步骤对16S rRNA基因SILVA数据库的影响

RESCRIPt使用get-silva-data命令获取SILVA序列和分类文件。“get-silva-data”命令允许选择下载哪个版本的数据库,是否下载LSU、SSU序列或SSU NR99序列,以及使用哪个分类水平和分类解析的选项等其它选项。

对16S rRNA基因SILVA数据库中每个连续序列使用不同RESCRIPt的质量过滤步骤后的序列信息比较

图A.序列长度分布。图B.唯一序列的数量。

图C.全长序列和不同kmer长度的熵。

图例中Base指完整的NR99 SILVA数据库;Culled指在序列中去掉8个或更多的均聚物(homopolymers)和/或5个具有歧义的碱基(ambiguous bases);

LengFiltByTax指基于分类学对数据进行序列长度过滤,即去除长度小于900 bp和小于1200 bp的古菌和细菌序列

DereplicateUniq指使用“uniq”模式对分类和序列去重,即任何具有不同分类的相同序列不会被合并

NoAmbigLabels指任何与具有歧义的标签(通常在较低的分类级别) 相关的序列都从数据集中删除

结果表示Culled和LengFiltByTax步骤对序列的影响是有益的,而NoAmbigLabels方法会过多丢失序列信息。

各过滤步骤下序列分类信息和模拟分类准确率的比较

图A. 唯一分类标签的数量。图B.分类熵。

图C. 无需交叉验证的最佳分类准确率(当真实标签已知,但分类准确率可能被数据库中其他类似的命中混淆时,模拟可能的最佳分类准确率)。

图D. 使用交叉验证的分类准确率(在不知道正确标签的情况下模拟真实的分类任务)。

横轴表示分类水平域门纲目科属种。除了NoAmbigLabels的分类注释外,质量过滤对分类准确率的影响微乎其微。

RESCRIPt评估在多个OTU%相似性阈值下聚类的Greengenes数据库(13_8版本)的多个数据库质量特征

结果表示相似性阈值的降低导致了信息丢失,在属和种水平上,唯一分类标签的数量迅速减少。相反,相似性阈值的增加使得分类准确率上升

这表明,即使选择了认为合适的相似度阈值也可能对数据库的信息内容和分类准确率产生负面影响。但作者还是建议不要在任何标记基因序列数据库中使用相似度<99%的OTU聚类

图A. 唯一分类标签的数量。 图B.分类熵。

图C. 在每一层级里分类单元的数目。

图D. 无需交叉验证的最佳分类准确率(当真实标签已知,但分类准确率可能被数据库中其他类似的命中混淆时,模拟可能的最佳分类准确率)。

图E. 使用交叉验证的分类准确率(在不知道正确标签的情况下模拟真实的分类任务)。

横轴表示分类水平域门纲目科属种。图例指示不同的OTU%相似性阈值。

RESCRIPt评估不同处理步骤下的UNIT ITS真菌序列数据库

结果表示OTU聚类方法里,97%比99%比动态聚类,对结果的影响最小含所有真核生物的数据库所包含的序列是仅含真菌序列数据库的两倍多,但其分类准确率是最低的。

只含目水平或更低级别分类水平的真菌序列数据库在分类准确率上提升最大

对UNIT ITS数据库的三种类型UNIT_97,UNIT_99,UNIT_dynamic数据库分别进行划分

Euks表示含所有真核生物序列,Fungi表示只含真菌序列,Fungi Order表示只含目水平或更低级别分类水平的真菌序列。

图A. 唯一分类标签的数量。 图B. 分类熵。

图C. 在每一层级里分类单元的数目。

图D. 无需交叉验证的最佳分类准确率(当真实标签已知,但分类准确率可能被数据库中其他类似的命中混淆时,模拟可能的最佳分类准确率)。

图E. 使用交叉验证的分类准确率(在不知道正确标签的情况下模拟真实的分类任务)。横轴表示分类水平域门纲目科属种。

RESCRIPt评估用于后生动物分类鉴定的COL基因数据库

首先比较评估了不同序列处理步骤下的BOLD COL基因数据库(BOLD全称Barcode of Life Data Systems)。

结果表示聚类序列大大减少了未修剪和引物修剪的BOLD COI数据集中唯一序列的数量,经引物修剪也会降低唯一序列的数量。且在种水平上表现最明显。聚类和引物修剪也降低了分类准确性。数据表明OTU聚类不利于COI基因分类。

图例中Full表示未修剪的全长序列,ANML表示经引物修剪后的序列,后边接的数字表示相似性聚类阈值。Arthropod指节肢动物,chordate指脊索动物。图A.唯一分类标签的数量。图B.不同kmer长度的分类熵。横轴表示不同数据库。

图A.唯一分类标签的数量。图B.分类熵。

图C.在每一层级里分类单元的数目。

图D. 无需交叉验证的最佳分类准确率(当真实标签已知,但分类准确率可能被数据库中其他类似的命中混淆时,模拟可能的最佳分类准确率)。

图E. 使用交叉验证的分类准确率(在不知道正确标签的情况下模拟真实的分类任务)。横轴表示分类水平域门纲目科属种。

其次评估比较了从BOLD或NCBI GenBank获得的去重复和引物修剪的COL基因数据库

数据表明,整体看NCBI的唯一序列,但局部看,NCBI在属水平种水平上有更多唯一序列。从分类准确率看,NCBI相对于BOLD,从科到种水平都有提高

数据集分别为boldANML(BOLD COL基因数据库)、ncbiAll(ncbiNB与ncbiOB的集合)、ncbiNB(不含BOLD COL基因序列的NCBI GenBank COL基因数据库)、ncbiOB(含BOLD COL基因序列的NCBI GenBank COL基因数据库)。图A.唯一分类标签的数量。图B.不同kmer长度的分类熵。横轴表示不同数据库。

图A. 唯一分类标签的数量。 图B. 分类熵。

图C. 在每一层级里分类单元的数目。

图D. 无需交叉验证的最佳分类准确率(当真实标签已知,但分类准确率可能被数据库中其他类似的命中混淆时,模拟可能的最佳分类准确率)。

图E. 使用交叉验证的分类准确率(在不知道正确标签的情况下模拟真实的分类任务)。横轴表示分类水平域门纲目科属种。

RESCRIPt的局限性

RESCRIPt旨在为研究人员提供可重现的核苷酸序列和分类学数据库生成、整理和评估的工具。它不是一个数据源,也不是分类学、系统学或数据质量方面的权威,并且RESCRIPt生成的评估结果也不是质量或准确性的可靠指标。

与任何生物信息学方法一样,RESCRIPt输出的质量取决于其输入的质量和用户作出的处理决策。一般来说,用户应该使用多个指标来指导他们对RESCRIPt结果的解释,但在对数据库质量作出结论之前,还需要了解输入数据的组成

RESCRIPt的未来目标

RESCRIPt目前的版本已经兼容宏基因组数据库。未来将计划提供更多的基因组和宏基因组功能。例如用于(元)基因组距离估算的ANI和MASH方法,以及用于(元)基因组数据库分类精度估算的方法。会增加学界里常用的公共在线数据库获取序列和分类的方法

结语

RESCRIPt作为一个Python3软件包和QIIME 2插件,可以用conda安装也可以docker运行,或者在已有的qimme2环境中安装。

通过RESCRIPt工具可以独立完成序列的获取、修剪、过滤、去重、聚类整合为数据库,并且可以对多个数据库进行评估比较。每个处理步骤会有独立的日志文件生成和中间文件生成,便于溯源和重现该流程。只是庞大的数据库和庞大的功能在计算资源消耗这方面肯定不容小觑,虽然文章中没有提及这方面的内容,但作为使用者不能忽视。

关于安装和测试使用还是要仔细阅读官方手册,地址:

参考文献:

Robeson MS 2nd, O’Rourke DR, Kaehler BD, Ziemski M, Dillon MR, Foster JT, Bokulich NA. RESCRIPt: Reproducible sequence taxonomy reference database management. PLoS Comput Biol. 2021 Nov 8;17(11):e1009581. doi: 10.1371/journal.pcbi.1009581. PMID: 34748542; PMCID: PMC8601625.

肠道菌群健康检测报告——常见问题解析

谷禾健康

在持续的肠道菌群检测实践过程中,我们收到很多新的问题反馈和对肠道菌群检测在具体问题中的疑问。在此谷禾基于长期和大规模样本群的经验以及实验分析,对部分常见问题进行汇总和整理。

一次肠道菌群检测好比一场健康考试,你拿到报告的那一刻,等同于拿到了你考的那张卷子,那么你首先会关心自己考了多少分。

在肠道菌群检测报告中,同样也有基于肠道菌群的健康评估分数,即健康总分

01 健康总分

基于大数据和整体性评估,报告中会给出健康总分这项指标。这个健康总分是如何计算得出的?

还是拿我们最熟悉不过的考试举例,一场语文考试可能包括了拼音词语、阅读理解、写作等模块,所以最后你的总分是综合各个模块的测试之后得到的(比如说拼音写错了扣1分,阅读理解错了一题扣5分……),通过各模块测评后得到的总分反映的是你的综合能力。

健康总分也是一样,综合计算了三个部分:肠道菌群健康状况疾病风险情况营养饮食均衡情况综合评估计算。总分100分,采取扣分制,疾病风险和营养不均衡以及菌群失衡都会相应的减分。

以上是具体的评分标准。

健康总分可以说是非常直观的一个指标,除此之外,整体性评估指标还有一个:肠道预测年龄

02 肠道预测年龄

生理年龄是指人达到某一时序年龄时生理和其功能所反映出来的水平,是从医学、生物学角度来衡量的。

谷禾肠道预测年龄是基于超过6万人群队列的深度学习模型构建的,对健康人群的肠道年龄预测真实生理年龄吻合度很好

肠道预测年龄和生理年龄就像齿轮运作,井井有条匹配状态,身体这个系统运作起来相对健康轻松。

疾病人群或菌群紊乱人群,肠道年龄会较大偏离真实年龄,也就是这个齿轮系统出现一些偏差问题。

如果肠道菌群多样性下降,且以大肠杆菌为主,可能会被预测为10岁以下儿童,也就是预测年龄远小于真实年龄。

如果存在较多病原菌,则预测年龄会偏向远大于真实年龄。

如果菌群预测年龄和实际生理学年龄相差很大,如何解读?

还是用考试来说,每个年龄段都应具备该年龄段的能力。如果你是一个初中学生,那么就应该答出初中阶段学生该会的题,这时候给你做个测评,发现还停留在幼儿园水平或者已经到了大学生水平,要么太幼稚要么太早熟,都不符合健康的身心发展规律

肠道预测年龄同样,如果肠道预测年龄偏离实际年龄很大,两种情况,一种是偏大,另一种是偏小

这两种情况均表明菌群发育成熟偏离了实际生长发育,我们均认为其代表菌群状况不太好,存在菌群异常或不健康状况。

如果偏小,即肠道年龄远小于生理学年龄,一般菌群发育滞后或者偏幼龄,菌群构成简单,代谢以及免疫功能不完善。

如果偏大,即肠道年龄远大于生理学年龄,一般菌群多样性下降,变形菌、肠杆菌等致病菌增多,核心菌属构成比例低等。

而在正常范围内,肠道预测年龄小于生理学年龄,那么表示菌群发育正常,菌群构成和代谢偏向于更年轻,比较好。那么什么是正常范围呢?

谷禾肠道年龄预测如下范围内表示正常:

0~2岁:偏差小于3个月

3~5岁:偏差在6个月以内

6~15岁:偏差在1岁左右

16~50岁:偏差在3岁以内

50岁以上:偏差在5岁以内

真实年龄与肠道预测年龄在范围内的差异可以反映其肠道菌群的发育和衰老状况。以下情况可能会导致肠道预测年龄完全偏离真实年龄,包括:

▪ 肠道菌群紊乱

▪ 菌群结构过于单一

▪ 近期服用可能严重干扰菌群的药物(如抗生素)

▪ 病原菌感染或者处于疾病状态

▪ 长期补充益生菌

由于肠道年龄考虑了整体的肠道菌群结构,如果肠道年龄严重偏离真实年龄,通过干预调整或去除上述干扰因素肠道年龄是能够恢复正常范围,但该干预周期一般需要1个月以上。

03 有益菌、有害菌

有益菌

有益菌包括益生菌,益生菌主要来自两个菌属:

分别是双歧杆菌属乳杆菌属,目前已获得批准的有效益生菌菌株均来自这两个细菌属。

其中双歧杆菌可有效改善肠道状况,而特定的乳杆菌菌株可以改善精神健康,包括焦虑和情绪,也能改善肠道健康。双歧杆菌和乳杆菌也是人体肠道菌群中常见的菌。

虽然说是常见菌,却不见得它们数量多。在成年人肠道菌群中,双歧杆菌的比例较低,在1%左右乳杆菌更是低于1%,甚至很多人(20~40%)的肠道菌群中比例低至万分之一

下表是谷禾检测的益生菌列表,列出了主要的常见益生菌。

除了上述益生菌,有益菌还包括下列种属,这些菌属是构建肠道菌群的核心菌属,在评估有益菌水平时根据菌属对肠道菌群结构的重要性会给予不同的权重。

Faecalibacterium、Ruminococcus、Roseburia

Phascolarctobacterium、Prevotella、Parabacteroides

Oscillospira、Megamonas、Lachnospira

Lachnoclostridium、Gemmiger、Eubacterium

Coprococcus、Dorea、Dialister

Clostridium、Blautia、Bacteroides

Akkermansia、Alistipes、Agathobacter

通常益生菌的检出率比较低,一般在益生菌补充一周左右报告中可以体现。从大数据来看,益生菌检出的同时,菌群的相关指标也会有所提升,比如说有害菌降低,改善菌群平衡状况。

有害菌

有害菌和肠道内的其他共生菌共同构成菌群微生态,也是大部分人群肠道内常见的菌群。

有害菌是相对而言的,正常肠道菌群也包含许多这些菌属的菌,但有害菌比例或个别菌属丰度超标可能预示着肠道菌群的健康状况受到破坏。这些菌过多会影响肠道内环境,如pH值,含氧量以及肠道内毒素等,可能会导致出现一些机会感染和机会致病菌入侵,进而诱发炎症和疾病

我们报告中的有害菌包含了致病菌条件致病菌,以及属内主要菌种为致病菌的属。为便于统计,我们在计算的时候统一按照属层级进行计算比例。

报告中的有害菌包括了以下的菌属:韦荣氏球菌属、葡萄球菌科、变形菌属、弓形菌属、弯曲菌属、螺杆菌属、厌氧螺菌属以及弧菌属等

在肠道菌群检测报告中会有对有益菌,有害菌的整体评估。

如果有害菌过多,通常建议服用益生菌或益生元的方式首先增加有益菌的比例,相应的有害菌比例就会降低。想要持久的改善菌群结构降低有害菌水平就需要改善生活方式适当增加抗性淀粉等膳食纤维并规律饮食和睡眠增加运动等。

04 肠道菌群平衡 / 失衡

整个生态系统平衡对于地球而言十分重要,同理,肠道菌群平衡对于我们人体健康也很重要。健康的肠道菌群丰富且多样性高。

菌群失调是指体内微生物群不平衡,这可以表现为某些细菌的出现率较高,细菌的出现率较低,细菌的多样性不足,有害菌,有益菌比例失调等。

通常临床上采用大便常规检查,通过显微镜下观察统计染色细菌中杆菌和球菌以及革兰氏阴性和阳性菌的比值是否超标来判别的。

其中致病菌多为球菌和革兰氏阴性菌,而肠道有益菌多为杆菌和阳性菌,因而在传统临床上简单比较两者的比值评估是否菌群紊乱,是相对比较粗放的。

谷禾菌群检测报告中的菌群失调

基于高通量测序可以精准的检测低至万分之一水平的菌,甚至可以分类到种水平,因此可以更加精细化评估菌群是否出现紊乱和异常。

基于谷禾超过30万人群的菌群数据库分析结果,我们将在90%的人群都有检出,且人群平均丰度1%以上的菌属做为核心菌属。这些核心菌属通过长期与人类共生,在帮助消化复杂碳水化合物和产生短链脂肪酸外还影响整个肠道环境,抑制病原微生物的定植生长。因此当这些核心菌属占总肠道菌群比例低于60%时,肠道菌群很可能处于紊乱状态。

【谷禾健康菌群数据库】

详见:肠道菌群失衡的症状、原因和自然改善

如果出现菌群严重失衡,例如致病菌占了相当大比例,那么首先应考虑针对致病菌使用相应的抗生素治疗,然后再通过益生菌补充饮食、生活方式的改变进行调理,直到菌群恢复平衡。

05 菌群多样性

多样性包含两个维度。

一个是肠道菌群种类,人群中肠道菌群的种类参考范围在100~2000种,种类数量越多样性越

另一个维度是均匀性,即各个菌种的含量丰度较为均一没有出现单一菌种占据绝大部分的情况。

多样性的评估一般通过一个叫做香农-维纳多样性指数的指标来进行评估,计算公式为:

H=-∑(Pi)(log2Pi)

其中Pi为每个菌的占比例,值越大代表物种种类越多,均匀性也更好相应的多样性也越高正常人群中香浓指数在2~9之间,一般大于3以上表明具有一定多样性。

换句话说,肠道菌群多样性表现在:微生态系统的稳定性,以及面对外界致病菌等入侵的抵御能力

一定范围内,更高的多样性通常代表饮食更加丰富多样,同时也意味着更健康的身体状况。

菌群多样性可能与下列情况有关:

环境,农村儿童比城市儿童菌群多样性高;

饮食,低脂饮食与菌群多样性较高有关;

年龄,长寿老人的菌群多样性较高;

……

多样性低不代表一定有疾病,但是更容易到饮食,环境或疾病的影响,包括更易发生水土不服或更容易因饮食不洁导致腹泻等。

多样性可能与下列情况有关:

分娩方式,剖腹产宝宝菌群多样性较低;

饮食营养,营养不良的孩子菌群多样性会下降;

药物,抗生素的使用会大幅降低菌群多样性,并且需要一段时间才能恢复。其他药物也会降低菌群多样性,如治疗胃溃疡和反酸的质子泵类药物也会导致菌群多样性降低;

环境,医院的ICU病房、更衣室等消毒严格,可能导致环境菌群多样性下降。

此外,神经系统、代谢、免疫等慢性疾病也与多样性下降有关。

你可以通过在饮食中增加纤维素,从高脂饮食逐渐转为低脂饮食来提高菌群多样性,另外规律运动也可增加多样性。

另外,我们在实际检测中会发现有这样一种情况:

多样性指标虽然很高,但是整体看起来健康总分并不理想。甚至还有很多慢性疾病风险,这是为什么呢?

这种情况可能是核心菌群丰度不够,核心菌群在代谢、免疫等方面都发挥重要作用,一旦核心菌群丰度下降,则可能造成外源物质侵入。感染、旅行等可能会出现这种情况。

06 致病菌/病原菌

看过我们检测报告的可能会发现,报告里有包括肠道致病菌病原菌,分别代表什么?

<篇幅关系,此处仅展示部分>

肠道致病菌列出了最主要和常见的感染类肠道致病菌。(注意这里重点是肠道

病原菌中给出的包括几十种人体的致病菌,不仅仅是肠道的。<如果没有检出就没有列出>

病原菌和条件致病菌的区别是什么?

病原菌一般极少存在于健康人的肠道菌群,正常范围很小,条件致病菌一般会在正常人群的肠道内存在,丰度较高或菌群结构单一到一定程度会引发疾病。如大肠杆菌和肺炎克雷伯氏菌正常人群中都会有检出,但当丰度较是就会导致肠道菌群紊乱或疾病

报告中如果出现病原菌超标的情况,不一定直接认为有病,需要结合症状

如果出现相应的腹泻等症状需要考是不是因为这些病原菌导致的。单纯超标如果没有症状只是表面有病原菌摄入,注意一下饮食和生活卫生,无须过于担心。

★ 幽门螺杆菌

为什么在医院检查出幽门螺杆菌感染,而报告中并未显示?

注意:本检测未检出并不代表完全不存在该致病菌感染,可能由于比例或其他因素未能达到检测丰度或未检出。

如果肠道菌群检测报告中检出幽门螺杆菌,是否需要去医院进行幽门螺杆菌呼气检测?

如果肠道菌群检测报告显示该项为超标,且同时存在胃部不适或其他胃酸、胃胀等症状,建议前往医院进行幽门螺旋杆菌检测,及早发现治疗。

 沙门氏菌

在食物中毒案例中,通常伴随着沙门氏菌,沙门氏菌粘附到肠上皮表面是发病机制中重要的第一步,并且是其在肠道定植的核心。

关于沙门氏菌的治疗及预防详见:食物中毒一文

扩展阅读:细菌大盘点(二) | 葡萄球菌、沙门氏菌、弯曲杆菌

通过以上部分,我们大概了解了菌群的构成及其扮演的角色,那么我们能利用检测到的这些菌的信息,给我们的健康带来什么帮助呢?

很重要的几个点:

第一,也就是前面所述的,菌群的构成本身就可以反映你的肠道内的环境是不是健康菌群,如果紊乱,它会带来很多的问题,比如说儿童菌群紊乱,可能会营养不良,因为菌群紊乱本身会影响营养吸收。

第二,对病原物的抵抗,也就是说身体是不是比较容易出一些状况,比如说腹泻,感染等问题。

第三,它还会诱发一些长期的慢性疾病,比如说糖尿病,实际上当然饮食是一个问题,但是有一些炎症相关的菌群,会诱发慢性的持续的炎症,从而导致慢性疾病的发展

这就是我们接来下要讲的,疾病风险这块内容。

07 疾病风险

目前我们疾病风险检测部分包括16类主要疾病,根据疾病检测准确度稳定性,我们将检测疾病的水平分为三个等级:低风险、中风险和高风险

根据每种病的分值,0~0.3归为低风险,0.3~0.5评估为注意,0.5~0.7为中等风险,超过0.7为高风险。

目前报告中提供的疾病均经过大量病例样本检验并且准确率超过90%,虽然不作为疾病的诊断依据,但是其分值的高低仍然具有很强的指示作用

0-0.3

如果某种疾病的风险值低于0.3以下表明菌群状态提示疾病风险较,不同身体条件和生活方式下会有0.05的波动

0.3-0.5

如果某种疾病的风险值位于0.3~0.5之间我们认为属于疾病前期阶段,通过饮食调理和相应的注意就可以降低风险。

0.5-0.7

如果某种疾病的风险值位于0.5~0.7之间表明可能患有该疾病处于疾病风险阶段,这时候我们建议最好前往医院相关科室进行检查,如果不便前往医院也可根据建议先进行饮食调理和相应的注意,一般一个月后再进行一次检测查看疾病风险是否下降到正常范围,如果仍然较高甚至升高建议最好前往医院复查。

0.7- 1

如果某种疾病的风险值超过0.7表明有很大可能已患有该疾病,且分值越高表明风险越高。因此我们强烈建议去医院进行相应检查并听从医生建议。

注意:本检测目前尚不属于医疗诊断,疾病分值作为提示,低分值不代表完全没有疾病,只表示风险较低,也可能存在一定的未检出。高分值只表示存在很大疾病风险,疾病的确诊和精确诊断需要通过进一步的医疗检查确认。

说到这里,可能有人对以上这个0.3,0.5…这些风险值有所不解,风险值是你们自己确定的吗?如何计算得出这个值的呢?有参考依据吗?

这里我们来了解一下风险值的计算。

通过模型的构建和大规模人群队列的测试和学习,现在大概已经有几十种病,我们可以比较好的通过菌的构成,来预测到底有没有这个疾病。虽然现在它还做不到直接确诊,但它可以起到一个很好的提示作用,以及对病程进展的评估。

那么,具体哪些方面的疾病跟菌群有重要的关系,并且能够用菌群来预测和评估呢?

消化系统疾病

首先当然是消化道疾病,这很好理解,因为菌群本身就在消化道环境内。像肠炎,就包括克罗恩病,溃疡性结肠炎之类的,还有消化性的腹痛、腹胀这些问题,可能是由于菌群的特征变化造成。

炎症性肠病中的菌群失调

详见:炎症性肠病一文

还有过敏性腹泻,有人可能对一些食物过敏,吃完之后会导致一些腹泻,菌群特征变化很明显,包括甚至一些肠道病毒的感染,比如说诺如病毒、轮状病毒的感染。它也会体现出非常特定的菌群变化特征

在肠道菌群检测报告中,这类疾病风险呈现如下:

上图样本可以看到胃病有中等发现,其备注信息里有填:胃痛,可能要开始注意这方面的疾病隐患,通过饮食等调理一段时间,或前往医院就诊。

★ 胃癌

胃部更严重一点的疾病就是胃癌,胃癌与肠道菌群之间也有很大关系,最近,在“谷禾开放基金项目”中,也有相关论文也已发表。

肠道菌群区分胃癌患者和健康人方面具有高度的敏感性和特异性,表明肠道微生物群是胃癌诊断的潜在无创工具

胃炎与胃癌具有某些微生物群特征,化疗降低了胃癌患者的微生物丰度和多样性乳酸杆菌Lactobacillus巨球菌Megasphaera,是胃癌的预测标志物

★ 结直肠癌

现在已经有多项研究表明,通过菌群可以做一个很好的标志物。虽然做不到所有的结直肠癌患者都能够被检出,但是最终的准确率相对来说还是挺的,甚至比一些,包括肿瘤标注可能还要更高一些。

我们现在大概能做到70%多的肿瘤患者是能被筛查出来。并且准确度其实能够到90%,作为普筛或者健康评估来说,已经是一个比较有效的标志物了。

化疗与手术大幅降低风险分值,但仍比健康人高。

此外,结直肠癌会经历从息肉到腺瘤到癌症多个阶段,应结合年龄和家族史判断息肉和结直肠癌。

肝胆类疾病

肝脏类疾病,比如说非酒精性脂肪肝跟肠道菌群有相当大的关系。

不同肝病有不同的菌群特征,尤其是脂肪肝的严重程度,肝功能异常的严重程度。

扩展阅读:深度解析 | 肠道菌群与慢性肝病,肝癌

因为菌群会产生大量的刺激代谢物,这些代谢物本身可能会加重肝脏的负担,并且诱发一些肝脏的疾病,但反过来肝脏的代谢能力的减弱和一些慢性肝脏疾病进展又会反映在菌群的构成上,所以它们是相互的。当然也可以用菌群的构成来反映具体肝病的特征。

由于不同阶段肝功能异常,脂肪肝等情况都统一归类在肝病这个大类,因此目前还无法判断确切的疾病分类,后续如果有更多细分疾病的样本用于建模,报告也会随之迭代更新。

代谢类疾病

代谢类疾病,比如糖尿病,肥胖等,都与肠道菌群有密切关联。

★ 2型糖尿病

2型糖尿病的发病率越来越高,也有更多人开始关注菌群与2型糖尿病的关系。很多文献都有报道它们之间的关联性。

2型糖尿病人群中个体微生物群的差异

Cunningham A L et al., Gut Pathog, 2021

在2型糖尿病患者普遍具有相对高丰度的特定属:Blautia、Coprococcus、Sporobacter、Abiotrophia、Peptostreptococcus、Parasutterella、Collinsella

2型糖尿病患者中,产生丁酸菌特别缺乏,特别是梭菌目,包括:

Ruminococcus、Subdoligranulum,Eubacterium rectale、Faecali prausnitzii、Roseburia intestinalis 、

Roseburia inulinivorans

详见: 2型糖尿病如何做到可防可控?肠道菌群发挥重要作用

通过肠道菌群检测,一方面健康人群可以查看是否有患病风险,另一方面如果已经患病人群,也可以查看菌群是否异常,推测是否是因菌群显著变化导致的,从而能进行更有针对性的干预。

肠道菌群检测报告中疾病风险预测如下:

2型糖尿病的检出率相对较高,可以达到95%以上,准确的也较高,可以预测早期糖尿病风险

★ 肥胖

目前已有很多关于肠道菌群和肥胖之间关系的研究。

人体摄入大量营养素、肠道菌群与肥胖的关系

↑, 增加;↓,减少;NA,不可用;第三列:营养物质和/或饮食基质与肠道微生物群之间的关系

有人说,为什么我们的肠道菌群报告没有判别测试者是否肥胖?

首先,肥胖不肥胖这个症状是肉眼可见的,也就是说测试者自身已经了解,这种情况下用模型来判别没有意义。

而我们更希望通过肠道菌群检测来可以告诉你,可能是什么因素造成的肥胖,饮食结构的,还是某些菌属代谢问题。

通过菌群知道营养构成,以及是否存在一些特定代谢菌的异常,比如说Akk菌,它是一种在一定程度上帮助减肥的菌群。

如果在你的肠道内该菌特别少,那么可能同样减肥,控制饮食,别人一个月假设瘦十斤,你就不一定能达到这个效果。这些都是菌群可以提供的一些信息。

在肠道菌群检测报告中,会列出肥胖正负相关菌群,及其是否超标。

同理,其他各类肉眼可见的症状(包括腹泻、便秘、腹胀、过敏、皮肤状况等)正负相关菌群都会在报告中呈现,此处就不一一列举。

神经系统疾病

听起来神经系统好像没什么关系,但实际上很多肠道菌群能代谢产生大量神经递质及其他代谢产物。

肠道菌群会影响HPA轴的发育,该轴调节压力反应并参与皮质醇的释放。在抑郁和长期处于压力下的人中,HPA轴可能失调,导致过量的皮质醇(一种压力激素)被循环。

详见:深度解读 | 肠道菌群和中枢神经系统的关系

肠道菌群的部分代谢物质也会通过免疫系统影响神经系统。促炎性细胞因子的失衡可导致慢性炎症和自身免疫性疾病,通常与抑郁症同时发生

通过肠道菌群检测,可以了解体内血清素水平及激素水平,同时也可以了解神经系统相关疾病风险,包括自闭症,抑郁症,阿尔兹海默症等。

肺部疾病

宿主,微生物组和环境之间的三重相互作用在健康功能中维持了肺稳态。

Liu NN, et al., NPJ Precis Oncol. 2020

在大量的临床样本数据当中可以发现,肺部感染,包括社区性肺炎,慢性阻塞性肺疾病,通过血氧浓度和全身的免疫反应,一定程度上是可以反映在肠道菌群上

另外像肺部的感染,比如说在肺炎链球菌之类的感染中,肺部的病原菌可以通过痰或者是呼吸进入到肠道,所以我们在肠道当中是能检测到这些肺部的感染菌,并且随着其严重程度和感染进程,菌群的丰度会越来越高。

肠道菌群检测报告中也有对肺部相关疾病风险提示。

免疫疾病

肺部感染会出现咳嗽等症状,但咳嗽不一定仅是肺部感染,也可能是哮喘。

★ 哮喘

在哮喘中,微生物群是导致肺和肠道之间相互作用的重要因素。肠道微生物可以影响肺部的免疫反应,而肺部刺激可以导致肠道反应。

在一项研究中,来自加拿大的三个月大婴儿哮喘高风险的粪便样本中观察到 Lachnospira, Veillonella, Faecalibacterium, Rothia显著下降。这种菌群特征在1岁时不再明显,同时伴随着粪便乙酸的减少和肝肠代谢物失调

肠道微生物对哮喘的影响部分是由细菌代谢物介导的,1岁时粪便中含有大量丁酸和丙酸的儿童,其特应性敏感性明显降低,3至6岁之间哮喘可能性较小。此外,哮喘患者的粪便中Akkermansia muciniphila 菌水平均有所降低

★ 过敏

已知的婴儿期与过敏性疾病相关的微生物群改变如下:

Diego G. Peroni et al, Front.Immunol. 2020

肠道菌群检测报告中有列出与过敏正负相关菌群,及是否超标。

< 篇幅关系,此处仅展示部分 >

08 营养代谢

菌群生长需要养分,它的食物来源取决于你的肠道,有句话叫:you are what you eat (在我们这篇文章中有详细解释它们之间的关系 深度解读 | 饮食、肠道菌群与健康)。

也就是说,你吃的食物会帮助构建你的专属菌群。有的菌擅长代谢碳水化合物,有些菌擅长代谢脂肪,所以饮食结构不同,也就是食物来源比例不同,最后会塑造不同的菌

那反过来,如果知道你的菌群的构成,就可以相对数量化的去了解你的饮食构成,包括营养摄入具体是什么样子,所以菌群很大的另外一个作用就可以反映你的营养饮食摄入状况

这部分内容在我们报告中的呈现如下:

那么这里可能又会有疑惑,以上这些数值是什么意思,如何计算的呢?

不同的细菌有不同的代谢能力,需要不同的营养物质进行繁殖。通过评估特定营养供给下的偏好菌群的比例,即可反映不同营养物质的摄入比例。所以报告中的主要营养代谢分值评估的是主要营养物质摄入的比例在人群中的分布水平

因此不会出现所有主要营养物质均高或均低的情况,也因此主要营养指标的最佳分值在70,且更关注不同营养物质的均衡性

单项营养物质的分值低于5,表明摄入比例在人群中属于最低的5%,评估为缺乏,低于15评估为偏低。

而如果某项指标达到或超过95,则表明该项可能摄入比例偏高通常对应会有其他营养成分较低。只需要针对性的增加缺乏或偏低的营养成分摄入,维持不同营养成分相对一致即达到营养均衡的目标。

为什么会出现所有的营养指标都很低?

这可能是菌群失调引起的。营养指标的评估是基于菌群构成特征和菌群代谢生成特定营养素的途径来评估的,如果菌群结构异常,将导致后续的预测失常,例如大量氨基酸都评估缺乏的情况。

这时候需要先调节菌群,等菌群指标恢复到一定水平后再次检测,评估营养指标。

09 微量元素

我们日常摄入的除了上一小节提到的宏量营养素之外,还包括微量元素和维生素等。有些维生素比如说B族维生素中有相当一部分,甚至百分之六七十需要通过肠道菌群对初始原料进行代谢之后才会产生,也就是说有些细菌会代谢我们食物中的一些成分,转换成B族维生素

而你的菌群构成代谢B族维生素的能力,会直接决定是否缺乏该类维生素。当然也有部分受基因影响,因此肠道菌群相应的基因和代谢途径的丰度水平也会直接反映这些维生素的摄入水平。

总的来说,菌群在这其中起重要作用。在我们报告中呈现如下:

微量营养元素和维生素的评估分值与主要营养物质不同,是通过调查人群的单项营养成分水平,然后寻找与该项成分异常相关的菌群基于这些菌群和代谢途径计算丰度并转换为人群分布后的值。

简单来说,报告中的微量营养元素的分值即代表该营养元素的摄入水平。

菌群检测营养状况与血液检测有什么区别吗?

通过肠道菌群评估的维生素一般反映一段周期内的维生素状况,因为肠道菌群在没有突发疾病的情况下相对稳定,受一段周期的饮食影响为主,一般是2周。B族维生素是水溶性维生素,每日摄入后会通过尿液代谢排出,通过血液检测,不同时间检测波动较大

菌群评估营养和血液检测营养趋势是一样的,在极端缺乏和极端过量是吻合的,中间档可能在数值上不是完全吻合,血液反映的营养水平比较及时。

当了解了体内的营养素和维生素是否缺乏,以及哪方面的缺乏,就可以进行有针对性地补充。菌群也是需要营养物质的,这就离不开我们的日常饮食,那么该如何补充呢?

10 个体化饮食推荐

我们的肠道菌群检测报告中有个体化饮食推荐表。

<篇幅关系,此处仅展示部分>

以上食物推荐表是怎么来的?

这是经过综合考虑疾病风险营养缺乏状况计算得到的。主要是计算每种食物的营养构成与目前营养状况匹配度,以及特定疾病需要避免的食物

该表推荐的食物分数从-100~100,排序为不推荐到强烈推荐,日常饮食可以参考这个推荐表。推荐分值,表示基于目前的菌群和营养状况对食物的推荐指数,正数分值越大,建议优先选择,同时也是对改善最有帮助;负数分值越大,并不表示不能吃,而是目前状况下不优先推荐或尽量少吃。

p.s. 如果有特殊疾病需要忌口的,优先遵医嘱。

该表包括几百种日常食物,如下图。

<个体化饮食推荐,建议用电脑查看,目前手机端展示不太美观>

对于长期调理菌群而言,饮食无疑是最主要的驱动因素之一。

下一步我们将利用更全和详细的菌群结构,食物营养,人群膳食构成以及营养数据库推出个性化膳食营养升级方案,特别会针对个别菌属的异常和失衡状况以及营养元素异常和缺乏问题。

11 饮食影响菌群检测吗?

前面章节我们知道,通过菌群可以反映你的饮食状况,那么反过来,如果你吃了一个东西,会对菌群检测造成影响吗?是不是菌群就变了,那检测就不准了?

这也是比较重要的一部分,也就是肠道菌群检测的准确性,它能允许多大范围内的变化?什么因素会影响?

其实,菌群变化算快,也不算快。饮食对菌群是有一定影响没错,但这种影响呢,一般来说是前一天的饮食会影响第二天的菌群结构的百分之十几,也就是说,假设你昨天吃大餐,大量吃肉,蛋白摄入非常高,而你之前是以碳水化合物为主的,那么第二天饮食当中,你的蛋白质相关的这部分菌的比例可能会有15%,最高到20%可能会有,但一般来说是在15%以内,会有一个波动

然而,总体的核心菌群构成,不会因为你今天一顿大餐,就直接从素食的变成肉食的菌群结构,核心菌是相对稳定的,那么多久会发生变化呢?

一般来说坚持两周,饮食结构的变化,核心菌群就会发生一个迁移改变。但两周只是一个短暂的周期,如果你两周后又换回先前的那种饮食方式,菌群也会随之改变到之前的状态。那要怎么样才能持久改变菌群呢

这个时间线可能要拉长到两个月

这是在我们的菌群干预中,很多人会遇到的一个周期性的问题。也就是如果你想有效改善菌群,至少需要两周会见到相对明显的菌群结构变化,那如果把干预延伸到持续两个月的周期,甚至是持续干预周期更长,那效果会更好

12 如何正确取样?

取样前饮食会不会造成影响?

前面我们知道,菌群会受检测前一天饮食的影响,造成15~30%的菌群改变,同样也会反映在营养状况的评估上,因此建议检测前一天尽量保持近期正常饮食,这样能更好的反映真实的营养饮食状态。

此外,如果你是在调理一段时间后再次检测,想要和上次比较的话,最好在检测前保持饮食大体相似(意思是不要突然吃和平时不一样的食物或者吃完大餐后取样)。

取样过少会怎么样?

取样不能太少,如果太少的话,可能会影响DNA提取,另外会导致一些低丰度的菌检测不到。

取样过多会怎么样?

如果说取样太少导致样本不合格可以理解,那么取样过多为什么也会有问题呢?

我们的采样管中有保存液,可以将菌群固定在采样的瞬间,但是如果取样过多的话,可能导致部分粪便无法完全溶解于粪便,这部分样不能正常保存可能会使其中的大肠杆菌等兼性厌氧菌开始在管内繁殖。

正确合格取样量(黄豆大小,约200mg,如果是稀便,反复沾取)

只需棉签沾取少量,混匀于保存液,固体粪便取样不能超过管子1/5体积(右图刻度线)。且保存液带有粪便颜色即可。(右图所示)

详见:肠道菌群取样方法

注 意 事 项

如3天内使用过抗生素类、质子泵类胃药、阿片类精神药物请停药3天后进行检测(如果长期服用某种药物,如降压、降血糖药等,不建议停药,检测反映的是用药控制的菌群和身体状况)。

感冒、腹泻或其他症状期间不影响取样,拉稀或稀便可以用棉签反复沾取粪便至取样管。

总的来说,取样虽然很重要,但也只是其中一个环节。每一个样本的结果呈现都凝聚了我们与你共同的努力。那么,从取样到结果报告呈现的那一刻,中间经历了什么?

样本之旅

在你取完样之后,把样本用快递寄到我们这里之后,它会经历提取->测序->分析->报告到你手上。下图绿色标注部分是你需要完成的。

13 展望

近年来,我国将全面健康和预防作为国家重点领域。我们致力于将信息技术(IT)与生物技术(BT)相融合,发展推动肠道菌群基因检测进入成为精准和预防医学时代下的“生命健康新基建”,尽管目前的菌群检测,包括疾病关系,算法,数据库,后端干预均在成长积累阶段,但是菌群检测正在进入大数据时代,菌群基因中蕴藏海量对人体生命和健康的重要数据,我们致力于将这些数据和实际应用相结合,最终转化为疾病预防、改善健康的有效方案。

前沿技术正在不断创新发展,报告也在迭代更新中,谷禾肠道菌群健康检测在辅助判别慢病风险、精准营养、亚健康管理、临床治疗干预中显示出其广泛的社会需求和指导价值。

你问我答

不同部位间的样本(如前段/中段/后段),检测结果差异性有多大?

答:会有不同的,不过主要反映在具体的菌种丰度上,有无这种菌的差异不大。另外慢病的评估也影响不大慢病模型中使用了高维特征丰度的变化波动对结果的影响没那么大营养和代谢部分受菌群丰度影响相对大一些,同一个人的前后两天的取样最大可能有15%左右的差异

肠道菌群在肠道内不同部位以及粪便的不同部分其实都存在差异,含水量、连续几餐的饮食构成和排便周期的长度都会对菌群各个菌种的丰度造成影响。单纯从绝对丰度上来看是一个动态变化的过程,各个菌属在继承之前的构成比例的情况下因各种因素的变化增长或降低。因此并不存在一个绝对的菌群构成以及完全准确的单一指标。肠道菌群检测获取的丰度含量本身信息量很大,但是稳定性和一致性并不很高。

更高层级的菌群相对比例顺序则相对稳定一些,之后具体包含的菌种也相对稳定。目前我们使用的疾病预测模型主要通过高维的菌群结构特征,并不单纯依靠每个菌的绝对丰度来评估,稳定性很高。针对一些特定的病原菌或问题菌,需要通过与人群范围比较,在正常范围内并无问题。

日常多添加有益菌或益生菌的酸奶,可以改善肠道菌群状况吗?

答: 大范围人群调查显示添加益生菌的酸奶可以改善肠道健康,但效应因人和状态而定。总体而言我们支持服用益生菌酸奶有益,但需要注意酸奶饮料可能包含果糖,游离糖等,其作用仍然非常有限

同一份样本,不同批次的实验环节如上机测序,差异有多大?这种差异率是否有一个范围呢?

答:不同批次上机影响很小,菌群数据相关性不低于98%。我们会在每轮设置一个阳性对照,一个上轮检测样本对照,一个阴性对照。评估污染,轮次比对。理论上不同的实验室,扩增引物,方法都会带来对不同菌丰度的系统误差,我们尽力保证本实验体系下各个轮次之间最小化的实验误差。另外使用的引物是经过大量验证的标准化引物。

实际患者建不建议送检,我们这个产品主要针对健康体检,还是也可以辅助诊断和预后治疗呢?

答:产品主要针对健康体检,如果临床诊断判断可能菌群异常或疾病症状与菌群相关,产品可以通过菌群检测提供临床参考,用于辅助诊断和治疗方案的评估。产品关于疾病和菌群相关指标的评估仅限于菌群相关方面,以临床诊断为准,不适用于单独使用产品进行疾病诊断。

抗生素是如何影响菌群的,菌群的敏感性和抗性基因是什么?

答:广谱抗生素会杀死细菌,但是部分细菌在抗生素选择或滥用的情况下会在抗生素靶点基因产生突变携带耐药基因,从而对特定抗生素产生耐药。不同菌目前的耐药菌比例以及携带的耐药基因水平不同,对应的抗生素耐药水平和种类也有不同

有在吃富含某种事物或者相关营养素,为什么报告显示缺乏?

答:营养指标的评估是基于菌群构成特征菌群代谢生成特定营养素的途径来评估的,直接的营养素补充会反映在相关菌群构成上,但部分营养素因为吸收部位不同以及菌群代谢途径上下游的影响,预测可能有一定差异。另外菌群构成异常的情况也会导致营养指标预测失常,如大量氨基酸都评估缺乏的情况。

有人说长期服用益生菌,会让肠道自己产生的益生菌的能力减弱或者可以说是肠道自主平衡的能力减弱,不能长期服用。这种说法是否有依据?长期服用一种益生菌,也容易产生耐药性,那么是否建议定期更换或者调整益生菌的菌种和数量呢?

答:持续服用单一或特定组合的益生菌确实会存在效力减退的情况,主要是菌群具有适应性,如果不配合生活方式和饮食结构的改变,会较快失效。可以根据菌群检测结果调整益生菌的方案。

样品的稳定性对于那些数据的影响是比较大的哪些是影响比较小的?

答:越是直接和具体菌相关的指标变化越快越大,和菌群结构相关的指标,比如一些慢病风险还有总体饮食结构一类的变化较稳定

从波动性排序来看,具体菌丰度>多样性>微量营养(锌 铁 氨基酸 维生素)>消化道疾病风险评估 (受当前状态影响较大)>肠龄>宏量营养素(碳水 蛋白 脂肪 纤维素 乳制品)>抗生素水平 >菌属是否出现>其他慢病风险

中大龄儿童小孩检测到自闭症风险高,如何解读?

答:肠道菌群在1-3岁期间主要是菌群发育滞后会影响神经发育和营养3~6岁左右菌群参与的神经递质代谢异常加剧自闭症的程度,但这个年龄段已有的神经发育滞后不光靠菌群改善就能解决了。

所以如果是0~2岁的如果这个风险值较高,不管有没有症状都建议改善菌群。如果是3~6岁甚至6岁以上,如果就风险值高没有相应的神经或行为异常,就问题不大,可能是菌群代谢构成不太好,不会导致自闭症的。如果有症状那改善菌群有助于改善症状。

肠道菌群平衡,为何多样性指数是低的?

答:菌群平衡和多样性指数是2个不同指标;

多样性仅仅评估肠道菌群的种类数量和丰度分布具体是有益和有害无关。多样性主要与饮食摄入,药物如抗生素类以及疾病状态有关。

菌群平衡对应的异常称为肠道菌群失调,临床上有I度失调和更严重的II度失调。大便常规检查是通过显微镜下观察统计染色细菌中杆菌和球菌以及革兰氏阴性和阳性菌的比值是否超标来判别的。本报告同时提供了另一评估算法,通过有益菌/有害菌的总体情况来评估菌群平衡状态,低于2为重度失衡,低于5为失衡,同时分值也提示菌群平衡水平,越高越正常

菌群失衡如何调整?

从菌群失衡的评估角度来看,首先就是快速增加有益菌特别是双歧杆菌的丰度可有效改善该项指标。因此临床上通常提供多联的益生菌制剂来快速补充益生菌,可以短期有效改善菌群平衡比例

菌群平衡和多样性分值都高的,但是肠道年龄预测比实际大,年龄预测模型是不参考多样性和平衡性参数的?

答:肠道年龄是靠机器学习人群大队列做的,不是只根据菌群平衡和多样性,每个年龄段都有核心和标致的菌群特征,比如婴儿的双歧杆菌,老年人瘤胃球菌等,这几个指标都是表征菌群的状态和健康的。

END

声明

谷禾专注于提供肠道菌群基因检测和基于此的健康评估咨询,肠道菌群对人体健康的影响和关联性已被广泛研究和认可,但基于对健康的慎重和法规,谷禾重申其提供的肠道菌群基因检测目前不用于临床疾病诊断,仅作为菌群状况构成检测和健康评估以及基于菌群的科研。分析报告中疾病风险和健康相关评估来自于公开研究数据和谷禾构建的大人群队列数据分析的预测评估结果,涉及临床诊断和医疗建议请遵照临床诊断和医生的医嘱。由于技术进步和样本数据不断积累,报告中可能存在尚未完全涵盖的因素或状况,不可避免的存在一定概率部分风险未被完全检出的情况。

新方法工具 | 标准化注释细菌基因组

谷禾健康

在细菌全基因组测序数据分析中,区域(regional)和功能注释已经成为常规操作。一个完整的基因组注释是下游分析的基础,而注释的准确性和全面性往往影响研究结果。


最近来自德国一个生物信息学团队们开发了Bakta,一款新的命令行工具,用于自动化和标准化的细菌基因组注释。该文章最近在《MICROBIAL GENOMICS》公开发表。

作者认为现有的各种注释软件工具都在以下问题留下了改进的空间:

1. 尽管早在20年前就发现了以前被忽视的保守的短ORF(sORF),但它们既不能预测也不能检测到短于29个氨基酸的小蛋白的编码序列(CDS),因为在基因预测工具中实施了基因长度截断,以减少错误的从头预测的数量。

2. 它们不识别存储在公共数据库(如RefSeq和UniRef100)中的已知蛋白质序列,因此不能分配数据库交叉引用(dbxref),即稳定的公共数据库标识符,方便与更详细的数据库互连。

3. 对于跨越人工序列边的CDS结构注释,没有考虑附加的序列信息,即完整性和拓扑结构。

为了解决这些问题,团队们开发了Bakta。它为编码和非编码基因提供了全面的注释工作流程,并加之CRISPR阵列、gaps、oriC和oriT特征的预测。与其他轻量级注释管道不同,Bakta能够通过自定义的sORF提取和过滤步骤来检测和注释小分子蛋白。而CDS注释流程通过一种基于哈希的、无需比对的蛋白质序列识别方法。

注:CRISPR,clustered regularly interspaced short palindromic repeats

此外,这种新的方法便于通过稳定的标识符交叉引用公共数据库来标注CDS。

方 法

软件工作流程如下图。

输入文件为fasta格式的基因组组装序列。

选择输入序列元数据文件或Prodigal软件提供的training文件。非编码基因,比如tRNA使用tRNAscan-SE预测和注释。

gaps、oriC和oriT等特征的预测用BLAST+工具。利用Prodigal预测CDS,使用BioPython提取短于30个氨基酸的小蛋白的sORF。

HMMER和AntiFam分别过滤假阳性序列和重复的sORF。为了加快对CDS和sORF的注释,使用无比对序列鉴定(AFSI),即通过全长蛋白序列MD5哈希算法相关蛋白质序列长度检查进行鉴定的组合过程。使用Diamond和UniRef90比对识别剩余的未识别蛋白质序列。

Bakta有自建的SQLite数据库,用于识别查找UniRef100, UniRef90、UniRef50、RefSeq、COG、EC 、GO、耐药基因、VFDB等。对于还是没有明确注释的CDS标记为假设蛋白(Hypotheticals),通过HMMER使用Pfam HMM图谱筛选蛋白质结构域。

性能评估

通过与其它软件工具进行基准测试,评估Bakta的性能。

首先是注释得到的特征结果之间的比较。作者选择E. coli O26 : H11 strain 11368菌株的基因组,分别使用Prokka、DFAST、PGAP与Bakta比较,如下表。对于CDS,PGAP和Bakta预测到更多的基因。在CDS序列的功能注释方面,PGAP和Bakta表现最好,且Bakta是唯一一个分配到GO术语的工具。

其次是功能注释的性能基准测试。选择来自RefSeq的35个不同分类的细菌基因组进行注释。统计其假设蛋白占总CDS的比例,如小提琴图。

同时统计了在没有用AFSI(Bakta w/o AFSI,只是用Diamond比对序列)和使用AFSI的假设蛋白占总CDS的比例,两者之间的差异只有0.9%。

由此得出,AFSI对RefSeq中检测到的小蛋白的功能注释贡献很。表格中展示了Bakta检测到的小蛋白参与的一系列与致病性高度相关的重要过程,以及更一般的细胞内务管理过程。

最后比较了Bakta的运行时间、内存消耗存储需求。在具有4个Intel Xeon E5-4627CPU和总共40个核的服务器机器上,使用不同数量的CPU连续三次测量注释E.coli O26:H11 strain11368的PROKKA、DFAST、Bakta和不使用AFSI的Bakta的运行时间。

结果如下图和表格。Bakta虽然运行时间时最慢的,但它所包含的数据库内容是最多的,其分析深度也有很大提高。对比没有使用AFSI的Bakta,在同等条件下,使用AFSI大大提高了序列注释的速度

其它优势

Bakta可以对宏基因组的MAG进行注释,在与DFAST和Prokka的比较中,Bakta依旧是假设蛋白占总CDS比例最低的;注释结果格式符合INSDC标准;在线版Bakta应用程序,提供交互式GUI向导,可输入数据与命令行工具一样,适合不太熟悉命令行操作的研究员,地址:bakta-web-ui (computational.bio)

结 语

通过以上的工作流程介绍和性能评估,该软件有如下优势:

1 Bakta在已知和未知物种的分类范围内对CDS序列的功能注释方面优于现有工具

2 Bakta能够检测和注释当代预测工具无法预测的小蛋白,比如在使用Prodigal和MetaGeneAnnotator工具预测时

3 Bakta能够精确识别已知的蛋白质序列,并分配RefSeq和UniProt数据库标识符

4 新的AFSI方法加速了Bakta的功能注释工作流程

5 Bakta利用序列元数据改进了CDS的结构预测

6 Bakta以功能类别(COG、EC和GO)为CDS提供了同等或更全面的注释

目前看来,较为明显的缺点就是运行时间长,虽然提供了Web版本,但如果样本数量较大,还是需要在linux上运行。

参考文献:

Schwengers O, Jelonek L, Dieckmann MA, Beyvers S, Blom J, Goesmann A. Bakta: rapid and standardized annotation of bacterial genomes via alignment-free sequence identification. Microb Genom. 2021 Nov;7(11). doi: 10.1099/mgen.0.000685. PMID: 34739369.

人类微生物组研究报告——规范流程

谷禾健康

人类微生物组的变化与许多疾病和健康状况有关。然而,看懂人类微生物组研究结果的报告具有挑战性,因为它通常涉及微生物学、基因组学、生物医学、生物信息学、统计学、流行病学等领域的方法。

人类微生物组的研究与其他类型的分子流行病学研究具有许多共同特征,但它们也需要独特的考虑因素,具有自己的方法学最佳实践和报告标准。除了流行病学研究设计的标准要素外,独立于培养的微生物组研究还涉及生物标本的收集、处理和保存;不断发展的实验处理方法,具有更高的批次效应潜力;生物信息学处理;稀疏、异常分布、高维数据的统计分析;报告可能的数千种微生物特征的结果等。

由于微生物组研究没有公认的金标准方法,而且该领域还没有就这些方面形成共识,但是各个领域的人员共同努力逐渐形成适用于广泛的人类微生物组研究报告的规范流程是微生物领域快速发展的基础。

方 法

参 与 者

对研究参与者的描述中,应描述入组的人群,以及如何从人群中抽取参与者。

参与者的特征,例如环境、生活方式行为、饮食、生物医学干预、人口统计和地理都可能引起微生物组的显着差异,因此应该包含这些基本描述。

时间背景也很重要,因此应说明招聘、跟进和数据收集的开始和结束日期。

此外,还应包括用于评估潜在参与者是否符合研究资格的具体标准,包括纳入标准和排除标准的详细信息。纳入和排除标准是用于选择研究参与者的预先确定的特征,描述这些标准对于了解研究的目标人群至关重要

应描述收集的有关可能影响微生物组的抗生素或其他治疗的任何信息,以及是否有任何排除标准包括最近使用抗生素或其他药物。

应说明最终的分析样本量,以及在招募、随访或实验室过程的任何步骤中排除参与者的原因

建议使用流程图来显示参与者被排除在研究之外的时间和原因。例如如下流程说明。

Mirzayi C, et al., Nat Med. 2021

如果参与者在纵向研究中失访或未完成所有评估,则应说明如何进行随访的详细信息,并应报告特定时间点的样本量。

此外,将病例与对照进行匹配的研究应描述在匹配中使用了哪些变量

实 验 方 法

应描述实验室样品的处理,包括样品采集、运输和储存的程序

由于 DNA 提取可能是跨研究技术差异的主要来源,因此应描述 DNA 提取方法。如果进行了人类 DNA 去除和微生物 DNA 富集的描述,也应包括在内。同样,如果使用阳性对照、阴性对照或污染物减轻方法,则应对其进行识别和描述

应描述报告与测序相关的方法。这包括引物选择和 DNA 扩增(包括16S rRNA 基因可变区,如果适用)。测序完成的主要单位(公司或者检测机构),例如鸟枪法或扩增子测序。最后,应解释用于确定相对丰度的方法。

批次效应应作为潜在的混杂来源进行讨论,包括为确保批次效应不与暴露或感兴趣的结果重叠而采取的步骤。如果进行宏转录组学、宏蛋白质组学或代谢组学,应提供这些方法的详细信息

数 据 源 / 测 量

对于非微生物组数据(例如,健康结果、参与者的社会经济、行为、饮食和生物医学特征,包括疾病位置和活动以及环境变量),应描述每个变量的测量和定义。例如,参与者的性别和年龄可以从电子病历或分发给参与者的问卷中获得,那么应该清楚描述这个数据源的获得方式。还可以讨论测量的局限性,包括由于错误分类或丢失数据导致的潜在偏差,以及为解决这些测量问题所做的任何尝试。

因果推断的研究设计注意事项

在没有直接观察到假设的因果关系的情况下,观察数据通常用于测试旨在进行因果推断的关联

方法包括,例如,使用多变量分析或匹配来调整假设暴露(例如微生物分类群的丰度)与研究中的疾病或病症之间的混杂变量。混杂因素可以被认为是暴露和研究结果的常见原因,可以导致暴露和结果之间的虚假关联。例如,年龄可能是一个常见的混杂因素,因为它会影响微生物组和大多数健康结果的风险。

如果不采取措施避免批次间条件的不平衡,实验室批次效应也可能混淆微生物组与感兴趣条件之间的关系。试图控制测量混杂的常用方法是调整或分层混杂。应为因果推断的回归模型中包含或排除的变量提供理由,因为对非混杂变量进行调整或分层会引入偏差。作为这一理论论证的一部分,作者应考虑包括一个有向无环图,显示假设的感兴趣的因果关系。

除了考虑研究的理论动机外,还应讨论可能会扭曲微生物组与感兴趣变量之间观察到的关系的选择或生存偏差的可能性。例如,这种偏倚可能是由于失访(在纵向研究中)或由于疾病本身而没有将参与者纳入研究(例如,死于侵袭性结直肠癌和还没有幸存下来,无法参与结肠直肠癌微生物组的假设研究)。检查表中其他地方的其他项目可能与因果推断问题直接相关,包括假设、研究设计、匹配、偏倚和普遍性。鼓励调查因果问题的作者在因果推断的背景下考虑他们对这些项目的报告。

生物信息学和统计方法

生物信息学和统计方法的充分描述对于生成严谨且可重复的研究报告至关重要。

应描述数据转换(例如标准化、稀疏和百分比)。应充分披露质量控制方法,包括过滤或删除读数或样本的标准。应说明用于分析数据的所有统计方法,包括如何选择感兴趣的结果(例如,使用P值、q值或其他阈值)。

应详细描述分类、功能分析或其他序列分析方法。为了重现性,所有用于数据预处理和分析的软件、软件包、数据库和库都应该被描述和引用,包括版本号

可重复的研究

可重复的研究实践作为出版过程中的质量检查以及进一步的透明度和知识共享,如 Schloss 提出的标题中所详述。期刊越来越多地实施可重复的研究标准,包括数据和代码的发布,并且在可能的情况下应遵循这些指南。

如果可能,原始数据和处理过的数据,应存放在独立维护的公共存储库中,这些存储库可提供长期可用性,例如由 NCBI 或 EMBL-EBI 维护的公共存储库。Zenodo ( https://zenodo.org/ ) 或 Publisso (https://www.publisso.de/en/ ) 可用于为处理后的数据集提供 DOI。

如果数据或代码不公开或不能公开,即使在提供限制访问选项的存储库中,也应提供感兴趣的读者如何访问数据的描述。至少应描述任何受保护的信息,以及如何访问此类数据

结 果

描 述 性 数 据

应报告关于研究人群的描述性统计数据。至少,应描述研究人群的年龄和性别,共享数据文件中应包括每位参与者的年龄和性别,但应尽可能报告其他重要的参与者特征,包括药物使用或生活方式因素,例如饮食。

作者应考虑在描述性统计表中如何报告这些数据。例如R 软件中的 table1 包等包,使创建这样的表不那么复杂。

结 果 数 据

研究的主要结果应该是详细的,包括描述性信息、感兴趣的发现和任何额外分析的结果

应为每个组和每个时间点报告描述性微生物组分析(例如,降维如主坐标分析、多样性测量和总分类组成)。

这应为读者提供了差异丰度分析的结果。当报告差异丰度测试结果时,应明确说明每个可识别的标准化分类单元的差异丰度的大小和方向。其他类型分析的结果,如代谢功能、功能潜力、MAG 组装和 RNA-seq,也应在结果中描述

附加结果(例如,非显著结果或完全差异丰度结果)可以包含在补充中,不应完全排除

虽然这个问题已经存在了几十年,许多领域的期刊都认识到发表偏倚的问题,但在出版物中包含此类结果将有助于降低这种偏倚的严重程度,并改进未来的系统评价和荟萃分析

讨 论

讨论应包括对本研究和相关方法的局限性的讨论。应讨论偏差的可能性以及它们将如何影响研究结果

许多形式的偏倚,例如残差/未测量混杂、与成分分析相关的偏倚、测量偏倚或选择偏倚,都可能影响对研究结果的解释,在讨论中承认潜在的偏倚来源很重要。

还应考虑研究发现的普遍性,以及这些发现是否适用于目标人群或其他人群。如果不同形式的偏见没有被评估或假设,可以忽略不计,但应说明这一点。

主要参考文献

Mirzayi C, Renson A; Genomic Standards Consortium et al. Reporting guidelines for human microbiome research: the STORMS checklist. Nat Med. 2021 Nov;27(11):1885-1892. doi: 10.1038/s41591-021-01552-x.

Wirbel, J. et al. Meta-analysis of fecal metagenomes reveals global microbial signatures that are specific for colorectal cancer. Nat. Med. 25, 679–689 (2019).

Simoneau, J., Dumontier, S., Gosselin, R. & Scott, M. S. Current RNA-seq methodology reporting limits reproducibility. Brief. Bioinform. 22, 140–145 (2021).

Ten Hoopen, P. et al. The metagenomic data life-cycle: standards and best practices. Gigascience 6, 1–11 (2017). – PubMed – PMC

Yilmaz, P. et al. Minimum information about a marker gene sequence (MIMARKS) and minimum information about any (x) sequence (MIxS) specifications. Nat. Biotechnol. 29, 415–420 (2011). – PubMed – PMC

关于《CELL》最新研究:饮食,自闭症与肠道菌群的疑惑与讨论

谷禾健康

本文原创:谷禾健康

自闭症谱系障碍是一种神经发育疾病,其特征是社交和沟通困难限制性和重复性行为以及异常的感觉反应

自闭症的具体发病机制尚不能明确,但目前为止许多研究表明,自闭症与肠道微生物组之间存在很大关联性。

最新,Yap等人发表于Cell的一篇题为“Autism-related dietary preferences mediate autism-gut microbiome associations”的论文就自闭症与肠道菌群的关联给出了他们的研究成果。

其核心结论是:

肠道菌群与自闭症之间没有直接联系。自闭症儿童与正常儿童的肠道菌群差异是由于自闭症症状导致患儿的饮食多样性下降,饮食类型狭窄,从而导致肠道菌群多样性减少,进而引发便秘和消化道症状。

经过对论文的详细阅读,我们认为该结论的适用范围和可靠性需要进一步商榷。

我们来看看其研究设计情况。

关于肠道菌群这方面的研究,很关键的一个点是研究的样本数量。

01 样本数量有限,统计效力存疑

首先,这项研究涵盖了共247名儿童(2-17岁),其中自闭症患者99名,51名患者的兄弟姐妹,97名非自闭症儿童,样本来自澳大利亚自闭症生物银行Australian Autism Biobank (AAB)。

我们观察到样本人群相对于宏基因组来说样本数量还可以,但是99例自闭症患者样本还是让整个研究的统计效力及研究的适用范围有很大限制

02自闭症和队列样本年龄分布与自闭症发生年龄段不一致

自闭症属于神经发育疾病,虽然其病因复杂,但是疾病的发生阶段绝大部分在出生到3岁左右,主要影响了儿童早期的神经系统发育,导致出现神经发育滞后、刻板行为和社交障碍

类似的疾病还有注意力缺陷ADHD以及多动症等。越早期的干预其愈后和改善就越明显,因为早期神经系统发育是阶段性的,错过了发育阶段,很难在后期通过行为学等方面获得明显改善。

进一步查看研究样本的年龄分布我们发现,该研究的样本年龄均值在8.7岁

虽然范围在2-17岁,但是和自闭症发病阶段3岁以下的各组样本分别是7例、7例和8例,2岁以下的样本仅有1例。

也就是说,研究涉及的自闭症患者虽然仍然有着自闭症的诊断和行为表现,但是绝大部分样本均不是处于神经发育的最核心阶段,而且大部分样本应该是经历过多年的包括行为干预或其他治疗。

因为自闭症与早期行为发育相关,大部分确诊儿童可能其行为表现和社交能力直到成年可能仍然没有完全恢复或达到正常水平,可能在多年后即便其引发自闭症的病因(主要是环境或生理因素)已经消失,但症状或诊断仍然没有变化,这就意味着这些样本可能不能反映真实的自闭症发生时的神经发育和菌群状况,因而也不能说明菌群在自闭症的发病和发展过程中并无联系。

更重要的是肠道菌群的组成变化尤其是生命早期与年龄和发育阶段密切相关,3岁之前的肠道菌群基本上每个月龄都存在变化,3岁之后的肠道菌群会趋向于接近成年人的菌群构成,并逐渐成熟。

还需要注意的是,在6个月左右,由于固体辅食的引入,婴幼儿的饮食结构会发生重要变化,相对应的肠道菌群也会发生重要的转变,从乳制品代谢为主的韦荣氏菌、双歧杆菌、大肠杆菌为主逐渐进入以碳水化合物和蛋白质代谢为主的拟杆菌或普雷沃氏菌属等成年人常见核心菌群为主的菌群构成。这一变化阶段恰恰是自闭症对应早期神经发育的最重要阶段,而该研究基本没有这个阶段的样本。

研究中也明确提及肠道菌群构成年龄存在较强的相关性,在分析中是将年龄和性别作为协变量进行控制,但我们认为这种统计方式不足以解决儿童肠道菌群在不同年龄阶段的变化差异,需要进一步对不同年龄阶段或年龄的儿童进行单独分组分析,但是这样该研究的样本数量就严重不足以获得足够的统计效力。

03 配对家庭样本分析存在疑问

研究中包含有来自同一家庭的非自闭症兄弟姐妹,作为对照能较好的控制包括饮食、生活方式及居住环境等变量,因此很自然我们希望看到针对成对家庭兄弟姐妹的比较分析。

在论文的补充材料方法部分有描述了使用成对样本进行比较的内容,一个102个样本,形成51对样本。对于这样的成对样本分析,比较简单的方式是直接进行成对T检验。

然而,论文中并没有这么做,比较奇怪的将family ID作为随机变量从而控制成对样本的差异检验。但是家庭ID本身除了家庭之外并没有类似年龄或分层等信息量,作为随机变量加入后并不能有效实现成对分析的效果。

另外根据论文的结论,饮食结构单一引起了菌群的变化,进而诱发肠道问题,那么在成对家庭成员样本之间,自闭症儿童相较于同家庭的兄弟姐妹在相同饮食习惯和环境下是否饮食结构明显单一呢

我们期待看到自闭症儿童的饮食多样性要显著低于其兄弟姐妹,且基本集中于低多样性的区间。

论文补充材料部分的下面这张图显示,同家庭兄弟姐妹之间的饮食多样性是显著相关的。

那么对应的菌群多样性呢?下面的图显示,基本没有相关性

由于论文没有进行成对样本的检验,因此我们尝试下载数据进行单独分析,很遗憾,论文中提供的数据仅包括100例样本的数据,表型和分组等信息只有50例样本的,无法进行单独分析

针对论文结论的自闭症儿童的饮食类型狭窄的问题,我们认为在早期婴幼儿期饮食构成本身就是相对单一的,而且非自闭症儿童中也存在相当一部分饮食结构单一的,单以饮食结构问题来解释自闭症儿童的菌群差异还不具有足够的说服力

04 菌群数据的过滤筛选对结果的影响

另外我们注意到,该研究将菌种和后续的基因及代谢途径分为常见和罕见两组,其中种部分中位数大于0的作为常见的,一共96个,其他的有607个种作为罕见

另外在后续对功能基因的分析时也是将分析集中于前面发现的Romboutsia timonensis菌种相关的基因。

当然这是受限于样本数量的因素,聚焦于普遍的高丰度的菌属和基因,但是也有很大可能丢失了可能的联系。

综上,文章否定的是菌群与自闭症之间的直接关联,与之相关文章识别到了自闭症与健康儿童间的差异菌(Romboutsia timonensis,经过年龄、性别、饮食偏好调整之后),以及菌群与重复刻板行为存在显著相关(Fig. 4H)。

在这样的事实前面,文章依然要强行否认自闭症与菌群的关系,作者的行为很让人费解。

众说纷纭

对此,网友们也各抒己见,就该文发表了一些见解:

他们的研究甚至没有试图确定:微生物群是否在自闭症谱系障碍中起驱动作用

他们自己的研究需要收费,这让事情更糟糕。人们必须付费去看他们的研究…

我们认为,以下系列问题仍有待回答

1. 他们的自闭症儿童都属于主要集中在轻度或者边缘程度,这个样本选择是否能代表自闭症的全部群体还存疑;

2. 如果将饮食归因于挑食等问题,那么在临床实践中我们也经常看到正常孩子也有挑食。研究者如果要说明菌群和挑食等行为有关而不是自闭有关,那么应该要设置一组挑食的健康对照儿童,才能彻底屏蔽这个因素的可能影响;因为作者明确表示饮食和自闭症有关,而不认为菌群和自闭症有关;

3. 这些样本的分布是否有跨地区特点?如果有,那么区域也会带来极大的差异,如菌群、饮食习惯等等,如何规避这个的影响?

《cell》原文:doi.org/10.1016/j.cell.2021.10.015

微生物组和组学成分数据分析之ALR对数转换

谷禾健康

编辑​

微生物组和组学数据集,由于其生物学性质,通常是高维的,特征常以各种成分,如基因、OTU、RNA转录本等的计数为特征。这些数据统称为成分数据

这类数据分析的中心概念是对数转换,而其中最简单的策略是ALR(Additive log ratio)方法。对于高维数据,ALR方法有一下几个特点:

(a) 次要成分都是相干的

(b)可以解释100%的总对数方差

(c)测量结果非常接近于等距。

最近,来自西班牙科学团队的一篇题为“Compositional Data Analysis of Microbiome and Any-Omics Datasets: A Validation of the Additive Logratio Transformation” 的文章指出:

ALR对数转换可以有效提供一组简单的变量来表示整个成分数据集,其关键节点在于选择哪个成分为参考,并使用三个高维组学数据集进行验证。

01
验证方法

通过ALR方法的理论和推导公式(这里不详述,推荐看原文),分别计算总对数方差(The total logratio variance 总结了采样点在多维空间中的分散程度),Logratio GeometryProcrustes分析,以此找到有效的参照特征。再与其它对数转换方法对比,如CLR对数转换。

02
数据集验证

1. 兔子数据集


数据集为非零数据集,89个样本,3937个特征

总对数方差为0.1601,Procrstes相关系数最高为0.9991,对应的基因数为856。该基因在3937个基因中的相对丰度排名第201位。

图一为所有3937个特征的Procrstes相关性直方图。为了直观地显示ALR变量接近等距的程度

图一

图二显示了在ALR上计算的所有样本间距离,基于所有成对对数的对数距离或同等情况下的所有CLR绘制相应的精确对数距离。

图二

图三为对于数据集的89个样本,参考基因编号856的计数与计数总和之间成正比。

图三

下图四展示了整个数据集的LRA(是所有成对对数的主成分分析(PCA),相当于所有CLR的主成分分析以加权或非加权的形式)。

而图五中展示了具有参考基因856的ALR的对应PCA。主成分分析与参考成分微生物基因编号为856时,其几何形状实际上与确切的直线几何形状相同(Procrstes相关=0.9991)。字母S和F代表进行测序的两个实验室,显示出明显的分离

图四

图五

2. 小鼠数据集

数据集大小,28个样本3147个特征。此数据集中有34个零,使用R包zComposition中的函数cmultReplin替换。

总对数方差 0.2099,Procrustes相关系数最高为0.9977,对应转录本编号1318,其中转录本编号1179的Procrustes相关系数也与其相似。

图六

图七

图六显示了在ALR上计算的样本间距离。为了显示任意大小数据集的ALR变换的质量,对MICE数据进行了模拟研究,从数据中随机抽取不同大小的样本,将每个样本作为独好的立的样本,并为该特定数据集的ALR变换找到最佳参考。

对于100、500、1,000、1,500、2,000、2,500、3,000和3,500个转录本的子集,以及每个子集的100个随机样本,绘制最佳的Procrstes相关性,如图七展示。ALR变换的等距质量随着可能的参考成分特征数量的增加而提高。

图八展示完整数据集的LRA,图九展示了参考转录本编号1179的ALR的PCA。它们实际上是相同的,只是有很小的差异,而在这之前的Procrstes相关系数结果就已经指示出了。标签代表两种不同的处理(L和M)和7种不同的时间(0、1、2、4、6、9和12h)。

图八

图九

3. 奶牛数据集

这是一个大小为211个样127个特征的核磁共振强度数据集。样本被分成三个饮食组:精料组、混合组和饲草组,还测量了甲烷产量。

图十

图十一

总对数方差0.09128,Procrustes相关系数最高为0.9902,对应于编号101。图十展示完整数据集的LRA,图十一展示了编号101的ALR的PCA。标签C(精料)、M(混合)和F(饲料)。

03
结论

从以上三个数据集的验证分析不难看出,对于高维数据,使用ALR对数转换也能得到对全部特征使用CLR对数转换方法的结果,关键在于找到有效的参考特征(成分)。

文章中作者建议将其作为此类高维数据成分数据分析的第一步。作者公开了部分数据集的存放地址,以及用于数据处理的部分代码。可以自己尝试看看是否适用。

扩展:数据集位置及实用脚本

兔子数据集: https://www.ebi.ac.uk/ena/browser/view/PRJEB46755

小鼠数据集:http://doi.org/10.5281/zenodo.3270954

其它数据集及脚本:https://github.com/michaelgreenacre/CODAinPractice

在这个github中有详细列出文中所使用的用于数据处理的各个R源码,以及目前这些数据处理的相关函数。

而这些脚本现已被整合为R包,easyCODA,可以从CRAN中直接下载。在Rstudio中调用“install.packages(“easyCODA“)”。

Tips

在对成分数据(composition data)进行分析时,通常会对原始数据进行矫正,也可以理解为一种标准化方法。比较常用的对数转换方法是CLR(Centered Log-Ratio),其次是ALR(Additive Log-Ratio,也就是文章主要推荐的方法)和ILR(Isometric Log-Ratio)。

每种方法都有优缺点,对于后续统计分析的适用程度,CLR>ALR>ILR个人建议先使用CLR和ALR对数据进行转换,然后使用PCA或其他降维分析方法查看其类群分布,搭配adonis查看其统计显著性水平。只要能达到预期结果就都能使用。如果CLR和ALR数据转换后结果差异不大,那推荐使用CLR

参考文献:

Greenacre M, Martínez-Álvaro M, Blasco A. Compositional Data Analysis of Microbiome and Any-Omics Datasets: A Validation of the Additive Logratio Transformation. Front Microbiol. 2021 Oct 11;12:727398. doi: 10.3389/fmicb.2021.727398.

换个角度看“三胎” | 胎次影响母婴肠道菌群

谷禾健康

生?还是不生? 

随着三胎政策到来,关于三胎的话题源源不断:

包括显而易见的经济压力,职场男女是否平等,教育是否能跟上,住房是否得到保障,医疗问题,家庭关系,产后心理等各个方面。

今天我们抛开这些看,生育更直接的是一身体的考验

单看“三胎”这个词,意味着母亲从十月怀胎到产下宝宝重复经历三次。每一次的妊娠过程都面临着各种风险,如自然流产,早产,难产,妊娠期并发症等。

而影响妊娠健康(包括上述风险)的一个重要因素是孕产妇的肠道微生物组。

最新研究表明,胎次影响母亲及婴儿的肠道微生物组。

胎次:指某次分娩后某个孩子出生时在其母亲所有活产胎儿中所占的顺序数。

之前,关于怀孕和人体微生物组的研究很少涉及胎次问题,且关于胎次的人类研究存在很大挑战大型动物模型则提供了一种替代方法

来自美国宾夕法尼亚大学研究人员就妊娠期间猪微生物群变化及胎次对其影响进行研究,该成果发表在《Microbiome》上。

该研究确定了胎次是妊娠期间调节肠道微生物群的一个重要环境因素,并突出了猪模型在母婴健康中研究微生物群的重要作用。数据显示,胎次的影响不仅限于母亲,而且与后代早期肠道菌群改变有关。

研 究 结 果

通过同步妊娠和密集纵向监测猪微生物群,研究人员描述了妊娠期间的微生物群轨迹,并确定了胎次对该轨迹的调节程度

妊娠期间肠道微生物群的组成变化遵循几个可预测的趋势

A) 利用肠道菌群组成数据可以预测妊娠时间(P = 3.3e−13),并具有一定的准确性(R2=0.27)

B) 对成熟度指数准确性贡献最大的10个分类单元按重要性排序

C) 狄利克雷多项式混合物(DMM)样本分为8个簇,每个簇由独特的肠道微生物组成

D) 对DMM准确度贡献最大的10个分类单元按重要性排序

E) 每个样本的相对丰度

胎次影响妊娠期间肠道菌群轨迹

焦虑可能与食品添加剂有关,警惕食品添加剂引起微生物群变化

谷禾健康


有没有发现我们吃的食品正在变得越来越鲜艳,让人有食欲,“低脂”、“无糖”等字眼出现的频率越来越高,然而这其中必然会用到各类食品添加剂,如防腐剂,甜味剂,乳化剂,着色剂,香料等等。

可以看到孩子们喝的牛奶都是纯白无瑕的,事实上天然牛奶往往没有那么白;孩子们吃的五颜六色的糖果,糕点等也会结合一些人工色素,因此儿童比成人更容易接触到食用色素。

食品添加剂会诱发菌群失调,通过微生物群肠脑轴导致肠道疾病,代谢性疾病等各类问题的发生。这个过程是如何发生的?各类添加剂有什么不同的作用?为什么儿童学习、记忆受到影响?为什么与情绪也有关系?…

本文为大家解答相关疑惑。

首先,我们先来看看:食品添加剂都有哪些种类,它们起到什么样的作用,以及如何查看食品中是否存在添加剂。

01
食品添加剂的种类及功能

工业界使用合成色素使其产品更有吸引力,使用防腐剂有助于保持其功能,适当pH值等特性,因此在大多数情况下,食品添加剂是不可或缺的存在。常见的食品添加剂及其功能用途见下表。

IFIC & FDA

肠道菌群失衡的症状、原因和自然改善

谷禾健康

​肠道菌群是居住在肠道中各种微生物。微生物群的建立甚至在个体出生之前就开始了,随着时间的推移而改变,并在体内持续存在,直到个体死亡。这些微生物群的组成是宿主特定的,在个体的一生中不断进化,并且容易受到各种因素的影响。

胎龄、分娩方式、饮食(母乳与配方奶)、卫生、抗生素,激素、疾病、衰老等都会影响并塑造肠道菌群。肠道菌群的定植、发育、成熟、稳定,老化与我们人类发育以及免疫成熟等高度吻合,不同阶段不同部位的菌群的构成以及丰度有不同特征。

肠道细菌是免疫系统发育和功能的重要组成部分。肠道菌群的变化可能是许多炎症性疾病发生的重要因素。而生活方式的改变可能改变了肠道菌群的初始发育或稳定维持。

本文从肠道菌群的功能,初始构建,到菌群健康/失衡的状态,以及相应的改善措施等进行全面阐述。

01 肠道菌群功能

肠道菌群,居住在肠道(宿主)内的所有本土细菌的总和,被视为一个器官,执行着一系列重要的、对健康至关重要的功能,而这些功能无法通过任何其他方式复制

研究人员通过比较无菌实验动物(没有任何肠道菌群)和正常菌群对照动物来确定这些功能。这些发现也在人群中得到了证实

以下是肠道菌群最重要功能的简要概述:

◥ 粪便中的水分滞留

粪便主要是由水组成(平均水含量75%;各项研究的平均范围为63-86%)。单细胞生物,如细菌,主要含有水,被无法穿透的膜包围。

 形成正常粪便

由于细菌是正常粪便中最主要的成分,它们的缺失可能会导致持续性慢性腹泻。

◥ 生产必需维生素

细菌会合成各种物质,包括某些复合维生素 B、维生素 B12 和维生素 K,这些物质对血液正常凝固至关重要。

 保护肠道上皮(粘膜)免受病原体侵害

正常的肠道菌群控制着不良细菌的数量,例如白色念珠菌(酵母)或大肠杆菌的感染性菌株。保护机制有很多种,食物供应的竞争、对肠粘膜的粘附、维持所需的 pH 值平衡以及产生过氧化物和酶,从而杀死外来细菌。

◥ 组织发育和再生

与健康动物相比,无菌实验动物的肠粘膜(上皮)和淋巴组织(派尔氏斑)发育不良,肠道健康黏膜薄弱、免疫淋巴组织不发达等存在许多缺点。

 免疫

正常肠道细菌负责实现吞噬作用:吞噬细胞在全身范围内破坏致病细菌、病毒、过敏原和其他异物,吞噬细胞是负责非特异性(抗体前)免疫系统防御的专门血细胞。

02 肠道菌群构建及发育

生命的前三年是可塑性增强的时期,肠道微生物群的发育很容易受到环境因素的影响。在婴儿期人与人之间的肠道微生物组差异变化最大,在成年期变得更加相似。

★ 婴幼儿

当婴儿出生后,在几口初乳后,大肠得到“培养”,初乳是一种淡黄色的液体,包含母亲的细菌,富含必需的营养。初乳先于富含脂肪和蛋白质的母乳流出。这个过程在母乳中继续,新生儿的肠道菌群在第6个月开始逐渐成熟,直到“成人”状态。

肠道微生物群的发育及主要影响环境因素

Parkin K et al., Microorganisms,2021

便便之旅,了解和关注便便

谷禾健康

写在前面
排便行为虽然是人类普遍存在的经历,但我们一般很少提及这个生理过程,开启“便便”这个话题并不是容易的事。如果可以抛开偏见,厌恶或者羞耻感,或许你可以尝试去了解更多这方面相关知识。如果这些知识能够普及更多人,或许世界上可以少一些胃肠道疾病患者。

本文试着从排便解剖学、排便的频率、影响排便的因素、粪便类型等多角度来为你阐述“便便”相关知识。

01排便

排便是一个复杂而协调的过程,它整合了多个生理系统,包括神经、肌肉、激素、认知系统等。

结肠基本知识

在了解排便过程之前,我们先认识一些关于结肠结构的基本知识。

结肠和肛门直肠的神经肌肉解剖结构

Heitmann PT, et al., Nat Rev Gastroenterol Hepatol. 2021

a| 结肠和肛门直肠与排便生理有关的外源性感觉运动神经支配。

b| 肛门直肠的冠状图,显示了克制中结构重要性的特征。

结肠是一个粘弹性管状器官,从近端回盲肠交界处开始,远端直肠乙状结肠交界处结束。成人结肠长约130厘米,盲肠的管腔直径为60-80毫米,乙状结肠的管腔逐渐狭窄至25毫米

结肠接受来自肠神经系统的内在神经支配,来自腰神经的外在交感神经支配,以及来自迷走神经(近端结肠)和盆腔内脏神经的外在副交感神经支配,这些神经支配结肠的感觉运动功能。

便便的产生

我们吃进去的食物在体内经历了什么?是如何变成粪便排出的?

进食的时候,食物与唾液相混合,唾液浸湿食物,同时也含有消化淀粉和脂肪的酶。

随后食道将食物推向胃。胃酸、胃液、酶进一步分解,完成后食物就到了小肠

在胰腺、胆囊、微生物群的帮助下,脂肪、蛋白质、微量营养素等进一步被分解,通过小肠吸收后到肝脏,剩下的部分则转到大肠

大肠吸收水分、电解质后产生的粪便进入直肠。直肠积累多了就会向大脑发出信号,大脑考虑现在是否是适合排便的时间。

思考的结果如果是适合的,那么大脑就会向肛门括约肌发出信号,让它放松…

排便过程

关于排便过程,这里主要涉及四个阶段:基础阶段、排出前阶段、排出阶段、结束阶段。下图详细说明了在每个阶段中为保持自制或促进排便所发生的具体变化。

Heitmann PT, et al., Nat Rev Gastroenterol Hepatol. 2021

客服