报告解读

谷禾|宏基因组测序报告解读

谷禾健康

宏基因组测序可以使我们深度全面地了解微生物群的构成,对于缺乏深度研究和高质量参考基因组的样本,宏基因组获得的较为完整的基因组不仅可以丰富参考基因组数据库,同时可以提供更加准确的物种分类。

关于宏基因组的介绍可见我们之前的文章:

在宏基因组分析过程中,可能遇到的问题,及问题相关解决思路如下:

更多关于宏基因组科研服务详询:

商务经理:13336028502(微信同号)

肠道菌群健康检测报告——常见问题解析

谷禾健康

在持续的肠道菌群检测实践过程中,我们收到很多新的问题反馈和对肠道菌群检测在具体问题中的疑问。在此谷禾基于长期和大规模样本群的经验以及实验分析,对部分常见问题进行汇总和整理。

一次肠道菌群检测好比一场健康考试,你拿到报告的那一刻,等同于拿到了你考的那张卷子,那么你首先会关心自己考了多少分。

在肠道菌群检测报告中,同样也有基于肠道菌群的健康评估分数,即健康总分

01 健康总分

基于大数据和整体性评估,报告中会给出健康总分这项指标。这个健康总分是如何计算得出的?

还是拿我们最熟悉不过的考试举例,一场语文考试可能包括了拼音词语、阅读理解、写作等模块,所以最后你的总分是综合各个模块的测试之后得到的(比如说拼音写错了扣1分,阅读理解错了一题扣5分……),通过各模块测评后得到的总分反映的是你的综合能力。

健康总分也是一样,综合计算了三个部分:肠道菌群健康状况疾病风险情况营养饮食均衡情况综合评估计算。总分100分,采取扣分制,疾病风险和营养不均衡以及菌群失衡都会相应的减分。

以上是具体的评分标准。

健康总分可以说是非常直观的一个指标,除此之外,整体性评估指标还有一个:肠道预测年龄

02 肠道预测年龄

生理年龄是指人达到某一时序年龄时生理和其功能所反映出来的水平,是从医学、生物学角度来衡量的。

谷禾肠道预测年龄是基于超过6万人群队列的深度学习模型构建的,对健康人群的肠道年龄预测真实生理年龄吻合度很好

肠道预测年龄和生理年龄就像齿轮运作,井井有条匹配状态,身体这个系统运作起来相对健康轻松。

疾病人群或菌群紊乱人群,肠道年龄会较大偏离真实年龄,也就是这个齿轮系统出现一些偏差问题。

如果肠道菌群多样性下降,且以大肠杆菌为主,可能会被预测为10岁以下儿童,也就是预测年龄远小于真实年龄。

如果存在较多病原菌,则预测年龄会偏向远大于真实年龄。

如果菌群预测年龄和实际生理学年龄相差很大,如何解读?

还是用考试来说,每个年龄段都应具备该年龄段的能力。如果你是一个初中学生,那么就应该答出初中阶段学生该会的题,这时候给你做个测评,发现还停留在幼儿园水平或者已经到了大学生水平,要么太幼稚要么太早熟,都不符合健康的身心发展规律

肠道预测年龄同样,如果肠道预测年龄偏离实际年龄很大,两种情况,一种是偏大,另一种是偏小

这两种情况均表明菌群发育成熟偏离了实际生长发育,我们均认为其代表菌群状况不太好,存在菌群异常或不健康状况。

如果偏小,即肠道年龄远小于生理学年龄,一般菌群发育滞后或者偏幼龄,菌群构成简单,代谢以及免疫功能不完善。

如果偏大,即肠道年龄远大于生理学年龄,一般菌群多样性下降,变形菌、肠杆菌等致病菌增多,核心菌属构成比例低等。

而在正常范围内,肠道预测年龄小于生理学年龄,那么表示菌群发育正常,菌群构成和代谢偏向于更年轻,比较好。那么什么是正常范围呢?

谷禾肠道年龄预测如下范围内表示正常:

0~2岁:偏差小于3个月

3~5岁:偏差在6个月以内

6~15岁:偏差在1岁左右

16~50岁:偏差在3岁以内

50岁以上:偏差在5岁以内

真实年龄与肠道预测年龄在范围内的差异可以反映其肠道菌群的发育和衰老状况。以下情况可能会导致肠道预测年龄完全偏离真实年龄,包括:

▪ 肠道菌群紊乱

▪ 菌群结构过于单一

▪ 近期服用可能严重干扰菌群的药物(如抗生素)

▪ 病原菌感染或者处于疾病状态

▪ 长期补充益生菌

由于肠道年龄考虑了整体的肠道菌群结构,如果肠道年龄严重偏离真实年龄,通过干预调整或去除上述干扰因素肠道年龄是能够恢复正常范围,但该干预周期一般需要1个月以上。

03 有益菌、有害菌

有益菌

有益菌包括益生菌,益生菌主要来自两个菌属:

分别是双歧杆菌属乳杆菌属,目前已获得批准的有效益生菌菌株均来自这两个细菌属。

其中双歧杆菌可有效改善肠道状况,而特定的乳杆菌菌株可以改善精神健康,包括焦虑和情绪,也能改善肠道健康。双歧杆菌和乳杆菌也是人体肠道菌群中常见的菌。

虽然说是常见菌,却不见得它们数量多。在成年人肠道菌群中,双歧杆菌的比例较低,在1%左右乳杆菌更是低于1%,甚至很多人(20~40%)的肠道菌群中比例低至万分之一

下表是谷禾检测的益生菌列表,列出了主要的常见益生菌。

除了上述益生菌,有益菌还包括下列种属,这些菌属是构建肠道菌群的核心菌属,在评估有益菌水平时根据菌属对肠道菌群结构的重要性会给予不同的权重。

Faecalibacterium、Ruminococcus、Roseburia

Phascolarctobacterium、Prevotella、Parabacteroides

Oscillospira、Megamonas、Lachnospira

Lachnoclostridium、Gemmiger、Eubacterium

Coprococcus、Dorea、Dialister

Clostridium、Blautia、Bacteroides

Akkermansia、Alistipes、Agathobacter

通常益生菌的检出率比较低,一般在益生菌补充一周左右报告中可以体现。从大数据来看,益生菌检出的同时,菌群的相关指标也会有所提升,比如说有害菌降低,改善菌群平衡状况。

有害菌

有害菌和肠道内的其他共生菌共同构成菌群微生态,也是大部分人群肠道内常见的菌群。

有害菌是相对而言的,正常肠道菌群也包含许多这些菌属的菌,但有害菌比例或个别菌属丰度超标可能预示着肠道菌群的健康状况受到破坏。这些菌过多会影响肠道内环境,如pH值,含氧量以及肠道内毒素等,可能会导致出现一些机会感染和机会致病菌入侵,进而诱发炎症和疾病

我们报告中的有害菌包含了致病菌条件致病菌,以及属内主要菌种为致病菌的属。为便于统计,我们在计算的时候统一按照属层级进行计算比例。

报告中的有害菌包括了以下的菌属:韦荣氏球菌属、葡萄球菌科、变形菌属、弓形菌属、弯曲菌属、螺杆菌属、厌氧螺菌属以及弧菌属等

在肠道菌群检测报告中会有对有益菌,有害菌的整体评估。

如果有害菌过多,通常建议服用益生菌或益生元的方式首先增加有益菌的比例,相应的有害菌比例就会降低。想要持久的改善菌群结构降低有害菌水平就需要改善生活方式适当增加抗性淀粉等膳食纤维并规律饮食和睡眠增加运动等。

04 肠道菌群平衡 / 失衡

整个生态系统平衡对于地球而言十分重要,同理,肠道菌群平衡对于我们人体健康也很重要。健康的肠道菌群丰富且多样性高。

菌群失调是指体内微生物群不平衡,这可以表现为某些细菌的出现率较高,细菌的出现率较低,细菌的多样性不足,有害菌,有益菌比例失调等。

通常临床上采用大便常规检查,通过显微镜下观察统计染色细菌中杆菌和球菌以及革兰氏阴性和阳性菌的比值是否超标来判别的。

其中致病菌多为球菌和革兰氏阴性菌,而肠道有益菌多为杆菌和阳性菌,因而在传统临床上简单比较两者的比值评估是否菌群紊乱,是相对比较粗放的。

谷禾菌群检测报告中的菌群失调

基于高通量测序可以精准的检测低至万分之一水平的菌,甚至可以分类到种水平,因此可以更加精细化评估菌群是否出现紊乱和异常。

基于谷禾超过30万人群的菌群数据库分析结果,我们将在90%的人群都有检出,且人群平均丰度1%以上的菌属做为核心菌属。这些核心菌属通过长期与人类共生,在帮助消化复杂碳水化合物和产生短链脂肪酸外还影响整个肠道环境,抑制病原微生物的定植生长。因此当这些核心菌属占总肠道菌群比例低于60%时,肠道菌群很可能处于紊乱状态。

【谷禾健康菌群数据库】

详见:肠道菌群失衡的症状、原因和自然改善

如果出现菌群严重失衡,例如致病菌占了相当大比例,那么首先应考虑针对致病菌使用相应的抗生素治疗,然后再通过益生菌补充饮食、生活方式的改变进行调理,直到菌群恢复平衡。

05 菌群多样性

多样性包含两个维度。

一个是肠道菌群种类,人群中肠道菌群的种类参考范围在100~2000种,种类数量越多样性越

另一个维度是均匀性,即各个菌种的含量丰度较为均一没有出现单一菌种占据绝大部分的情况。

多样性的评估一般通过一个叫做香农-维纳多样性指数的指标来进行评估,计算公式为:

H=-∑(Pi)(log2Pi)

其中Pi为每个菌的占比例,值越大代表物种种类越多,均匀性也更好相应的多样性也越高正常人群中香浓指数在2~9之间,一般大于3以上表明具有一定多样性。

换句话说,肠道菌群多样性表现在:微生态系统的稳定性,以及面对外界致病菌等入侵的抵御能力

一定范围内,更高的多样性通常代表饮食更加丰富多样,同时也意味着更健康的身体状况。

菌群多样性可能与下列情况有关:

环境,农村儿童比城市儿童菌群多样性高;

饮食,低脂饮食与菌群多样性较高有关;

年龄,长寿老人的菌群多样性较高;

……

多样性低不代表一定有疾病,但是更容易到饮食,环境或疾病的影响,包括更易发生水土不服或更容易因饮食不洁导致腹泻等。

多样性可能与下列情况有关:

分娩方式,剖腹产宝宝菌群多样性较低;

饮食营养,营养不良的孩子菌群多样性会下降;

药物,抗生素的使用会大幅降低菌群多样性,并且需要一段时间才能恢复。其他药物也会降低菌群多样性,如治疗胃溃疡和反酸的质子泵类药物也会导致菌群多样性降低;

环境,医院的ICU病房、更衣室等消毒严格,可能导致环境菌群多样性下降。

此外,神经系统、代谢、免疫等慢性疾病也与多样性下降有关。

你可以通过在饮食中增加纤维素,从高脂饮食逐渐转为低脂饮食来提高菌群多样性,另外规律运动也可增加多样性。

另外,我们在实际检测中会发现有这样一种情况:

多样性指标虽然很高,但是整体看起来健康总分并不理想。甚至还有很多慢性疾病风险,这是为什么呢?

这种情况可能是核心菌群丰度不够,核心菌群在代谢、免疫等方面都发挥重要作用,一旦核心菌群丰度下降,则可能造成外源物质侵入。感染、旅行等可能会出现这种情况。

06 致病菌/病原菌

看过我们检测报告的可能会发现,报告里有包括肠道致病菌病原菌,分别代表什么?

<篇幅关系,此处仅展示部分>

肠道致病菌列出了最主要和常见的感染类肠道致病菌。(注意这里重点是肠道

病原菌中给出的包括几十种人体的致病菌,不仅仅是肠道的。<如果没有检出就没有列出>

病原菌和条件致病菌的区别是什么?

病原菌一般极少存在于健康人的肠道菌群,正常范围很小,条件致病菌一般会在正常人群的肠道内存在,丰度较高或菌群结构单一到一定程度会引发疾病。如大肠杆菌和肺炎克雷伯氏菌正常人群中都会有检出,但当丰度较是就会导致肠道菌群紊乱或疾病

报告中如果出现病原菌超标的情况,不一定直接认为有病,需要结合症状

如果出现相应的腹泻等症状需要考是不是因为这些病原菌导致的。单纯超标如果没有症状只是表面有病原菌摄入,注意一下饮食和生活卫生,无须过于担心。

★ 幽门螺杆菌

为什么在医院检查出幽门螺杆菌感染,而报告中并未显示?

注意:本检测未检出并不代表完全不存在该致病菌感染,可能由于比例或其他因素未能达到检测丰度或未检出。

如果肠道菌群检测报告中检出幽门螺杆菌,是否需要去医院进行幽门螺杆菌呼气检测?

如果肠道菌群检测报告显示该项为超标,且同时存在胃部不适或其他胃酸、胃胀等症状,建议前往医院进行幽门螺旋杆菌检测,及早发现治疗。

 沙门氏菌

在食物中毒案例中,通常伴随着沙门氏菌,沙门氏菌粘附到肠上皮表面是发病机制中重要的第一步,并且是其在肠道定植的核心。

关于沙门氏菌的治疗及预防详见:食物中毒一文

扩展阅读:细菌大盘点(二) | 葡萄球菌、沙门氏菌、弯曲杆菌

通过以上部分,我们大概了解了菌群的构成及其扮演的角色,那么我们能利用检测到的这些菌的信息,给我们的健康带来什么帮助呢?

很重要的几个点:

第一,也就是前面所述的,菌群的构成本身就可以反映你的肠道内的环境是不是健康菌群,如果紊乱,它会带来很多的问题,比如说儿童菌群紊乱,可能会营养不良,因为菌群紊乱本身会影响营养吸收。

第二,对病原物的抵抗,也就是说身体是不是比较容易出一些状况,比如说腹泻,感染等问题。

第三,它还会诱发一些长期的慢性疾病,比如说糖尿病,实际上当然饮食是一个问题,但是有一些炎症相关的菌群,会诱发慢性的持续的炎症,从而导致慢性疾病的发展

这就是我们接来下要讲的,疾病风险这块内容。

07 疾病风险

目前我们疾病风险检测部分包括16类主要疾病,根据疾病检测准确度稳定性,我们将检测疾病的水平分为三个等级:低风险、中风险和高风险

根据每种病的分值,0~0.3归为低风险,0.3~0.5评估为注意,0.5~0.7为中等风险,超过0.7为高风险。

目前报告中提供的疾病均经过大量病例样本检验并且准确率超过90%,虽然不作为疾病的诊断依据,但是其分值的高低仍然具有很强的指示作用

0-0.3

如果某种疾病的风险值低于0.3以下表明菌群状态提示疾病风险较,不同身体条件和生活方式下会有0.05的波动

0.3-0.5

如果某种疾病的风险值位于0.3~0.5之间我们认为属于疾病前期阶段,通过饮食调理和相应的注意就可以降低风险。

0.5-0.7

如果某种疾病的风险值位于0.5~0.7之间表明可能患有该疾病处于疾病风险阶段,这时候我们建议最好前往医院相关科室进行检查,如果不便前往医院也可根据建议先进行饮食调理和相应的注意,一般一个月后再进行一次检测查看疾病风险是否下降到正常范围,如果仍然较高甚至升高建议最好前往医院复查。

0.7- 1

如果某种疾病的风险值超过0.7表明有很大可能已患有该疾病,且分值越高表明风险越高。因此我们强烈建议去医院进行相应检查并听从医生建议。

注意:本检测目前尚不属于医疗诊断,疾病分值作为提示,低分值不代表完全没有疾病,只表示风险较低,也可能存在一定的未检出。高分值只表示存在很大疾病风险,疾病的确诊和精确诊断需要通过进一步的医疗检查确认。

说到这里,可能有人对以上这个0.3,0.5…这些风险值有所不解,风险值是你们自己确定的吗?如何计算得出这个值的呢?有参考依据吗?

这里我们来了解一下风险值的计算。

通过模型的构建和大规模人群队列的测试和学习,现在大概已经有几十种病,我们可以比较好的通过菌的构成,来预测到底有没有这个疾病。虽然现在它还做不到直接确诊,但它可以起到一个很好的提示作用,以及对病程进展的评估。

那么,具体哪些方面的疾病跟菌群有重要的关系,并且能够用菌群来预测和评估呢?

消化系统疾病

首先当然是消化道疾病,这很好理解,因为菌群本身就在消化道环境内。像肠炎,就包括克罗恩病,溃疡性结肠炎之类的,还有消化性的腹痛、腹胀这些问题,可能是由于菌群的特征变化造成。

炎症性肠病中的菌群失调

详见:炎症性肠病一文

还有过敏性腹泻,有人可能对一些食物过敏,吃完之后会导致一些腹泻,菌群特征变化很明显,包括甚至一些肠道病毒的感染,比如说诺如病毒、轮状病毒的感染。它也会体现出非常特定的菌群变化特征

在肠道菌群检测报告中,这类疾病风险呈现如下:

上图样本可以看到胃病有中等发现,其备注信息里有填:胃痛,可能要开始注意这方面的疾病隐患,通过饮食等调理一段时间,或前往医院就诊。

★ 胃癌

胃部更严重一点的疾病就是胃癌,胃癌与肠道菌群之间也有很大关系,最近,在“谷禾开放基金项目”中,也有相关论文也已发表。

肠道菌群区分胃癌患者和健康人方面具有高度的敏感性和特异性,表明肠道微生物群是胃癌诊断的潜在无创工具

胃炎与胃癌具有某些微生物群特征,化疗降低了胃癌患者的微生物丰度和多样性乳酸杆菌Lactobacillus巨球菌Megasphaera,是胃癌的预测标志物

★ 结直肠癌

现在已经有多项研究表明,通过菌群可以做一个很好的标志物。虽然做不到所有的结直肠癌患者都能够被检出,但是最终的准确率相对来说还是挺的,甚至比一些,包括肿瘤标注可能还要更高一些。

我们现在大概能做到70%多的肿瘤患者是能被筛查出来。并且准确度其实能够到90%,作为普筛或者健康评估来说,已经是一个比较有效的标志物了。

化疗与手术大幅降低风险分值,但仍比健康人高。

此外,结直肠癌会经历从息肉到腺瘤到癌症多个阶段,应结合年龄和家族史判断息肉和结直肠癌。

肝胆类疾病

肝脏类疾病,比如说非酒精性脂肪肝跟肠道菌群有相当大的关系。

不同肝病有不同的菌群特征,尤其是脂肪肝的严重程度,肝功能异常的严重程度。

扩展阅读:深度解析 | 肠道菌群与慢性肝病,肝癌

因为菌群会产生大量的刺激代谢物,这些代谢物本身可能会加重肝脏的负担,并且诱发一些肝脏的疾病,但反过来肝脏的代谢能力的减弱和一些慢性肝脏疾病进展又会反映在菌群的构成上,所以它们是相互的。当然也可以用菌群的构成来反映具体肝病的特征。

由于不同阶段肝功能异常,脂肪肝等情况都统一归类在肝病这个大类,因此目前还无法判断确切的疾病分类,后续如果有更多细分疾病的样本用于建模,报告也会随之迭代更新。

代谢类疾病

代谢类疾病,比如糖尿病,肥胖等,都与肠道菌群有密切关联。

★ 2型糖尿病

2型糖尿病的发病率越来越高,也有更多人开始关注菌群与2型糖尿病的关系。很多文献都有报道它们之间的关联性。

2型糖尿病人群中个体微生物群的差异

Cunningham A L et al., Gut Pathog, 2021

在2型糖尿病患者普遍具有相对高丰度的特定属:Blautia、Coprococcus、Sporobacter、Abiotrophia、Peptostreptococcus、Parasutterella、Collinsella

2型糖尿病患者中,产生丁酸菌特别缺乏,特别是梭菌目,包括:

Ruminococcus、Subdoligranulum,Eubacterium rectale、Faecali prausnitzii、Roseburia intestinalis 、

Roseburia inulinivorans

详见: 2型糖尿病如何做到可防可控?肠道菌群发挥重要作用

通过肠道菌群检测,一方面健康人群可以查看是否有患病风险,另一方面如果已经患病人群,也可以查看菌群是否异常,推测是否是因菌群显著变化导致的,从而能进行更有针对性的干预。

肠道菌群检测报告中疾病风险预测如下:

2型糖尿病的检出率相对较高,可以达到95%以上,准确的也较高,可以预测早期糖尿病风险

★ 肥胖

目前已有很多关于肠道菌群和肥胖之间关系的研究。

人体摄入大量营养素、肠道菌群与肥胖的关系

↑, 增加;↓,减少;NA,不可用;第三列:营养物质和/或饮食基质与肠道微生物群之间的关系

有人说,为什么我们的肠道菌群报告没有判别测试者是否肥胖?

首先,肥胖不肥胖这个症状是肉眼可见的,也就是说测试者自身已经了解,这种情况下用模型来判别没有意义。

而我们更希望通过肠道菌群检测来可以告诉你,可能是什么因素造成的肥胖,饮食结构的,还是某些菌属代谢问题。

通过菌群知道营养构成,以及是否存在一些特定代谢菌的异常,比如说Akk菌,它是一种在一定程度上帮助减肥的菌群。

如果在你的肠道内该菌特别少,那么可能同样减肥,控制饮食,别人一个月假设瘦十斤,你就不一定能达到这个效果。这些都是菌群可以提供的一些信息。

在肠道菌群检测报告中,会列出肥胖正负相关菌群,及其是否超标。

同理,其他各类肉眼可见的症状(包括腹泻、便秘、腹胀、过敏、皮肤状况等)正负相关菌群都会在报告中呈现,此处就不一一列举。

神经系统疾病

听起来神经系统好像没什么关系,但实际上很多肠道菌群能代谢产生大量神经递质及其他代谢产物。

肠道菌群会影响HPA轴的发育,该轴调节压力反应并参与皮质醇的释放。在抑郁和长期处于压力下的人中,HPA轴可能失调,导致过量的皮质醇(一种压力激素)被循环。

详见:深度解读 | 肠道菌群和中枢神经系统的关系

肠道菌群的部分代谢物质也会通过免疫系统影响神经系统。促炎性细胞因子的失衡可导致慢性炎症和自身免疫性疾病,通常与抑郁症同时发生

通过肠道菌群检测,可以了解体内血清素水平及激素水平,同时也可以了解神经系统相关疾病风险,包括自闭症,抑郁症,阿尔兹海默症等。

肺部疾病

宿主,微生物组和环境之间的三重相互作用在健康功能中维持了肺稳态。

Liu NN, et al., NPJ Precis Oncol. 2020

在大量的临床样本数据当中可以发现,肺部感染,包括社区性肺炎,慢性阻塞性肺疾病,通过血氧浓度和全身的免疫反应,一定程度上是可以反映在肠道菌群上

另外像肺部的感染,比如说在肺炎链球菌之类的感染中,肺部的病原菌可以通过痰或者是呼吸进入到肠道,所以我们在肠道当中是能检测到这些肺部的感染菌,并且随着其严重程度和感染进程,菌群的丰度会越来越高。

肠道菌群检测报告中也有对肺部相关疾病风险提示。

免疫疾病

肺部感染会出现咳嗽等症状,但咳嗽不一定仅是肺部感染,也可能是哮喘。

★ 哮喘

在哮喘中,微生物群是导致肺和肠道之间相互作用的重要因素。肠道微生物可以影响肺部的免疫反应,而肺部刺激可以导致肠道反应。

在一项研究中,来自加拿大的三个月大婴儿哮喘高风险的粪便样本中观察到 Lachnospira, Veillonella, Faecalibacterium, Rothia显著下降。这种菌群特征在1岁时不再明显,同时伴随着粪便乙酸的减少和肝肠代谢物失调

肠道微生物对哮喘的影响部分是由细菌代谢物介导的,1岁时粪便中含有大量丁酸和丙酸的儿童,其特应性敏感性明显降低,3至6岁之间哮喘可能性较小。此外,哮喘患者的粪便中Akkermansia muciniphila 菌水平均有所降低

★ 过敏

已知的婴儿期与过敏性疾病相关的微生物群改变如下:

Diego G. Peroni et al, Front.Immunol. 2020

肠道菌群检测报告中有列出与过敏正负相关菌群,及是否超标。

< 篇幅关系,此处仅展示部分 >

08 营养代谢

菌群生长需要养分,它的食物来源取决于你的肠道,有句话叫:you are what you eat (在我们这篇文章中有详细解释它们之间的关系 深度解读 | 饮食、肠道菌群与健康)。

也就是说,你吃的食物会帮助构建你的专属菌群。有的菌擅长代谢碳水化合物,有些菌擅长代谢脂肪,所以饮食结构不同,也就是食物来源比例不同,最后会塑造不同的菌

那反过来,如果知道你的菌群的构成,就可以相对数量化的去了解你的饮食构成,包括营养摄入具体是什么样子,所以菌群很大的另外一个作用就可以反映你的营养饮食摄入状况

这部分内容在我们报告中的呈现如下:

那么这里可能又会有疑惑,以上这些数值是什么意思,如何计算的呢?

不同的细菌有不同的代谢能力,需要不同的营养物质进行繁殖。通过评估特定营养供给下的偏好菌群的比例,即可反映不同营养物质的摄入比例。所以报告中的主要营养代谢分值评估的是主要营养物质摄入的比例在人群中的分布水平

因此不会出现所有主要营养物质均高或均低的情况,也因此主要营养指标的最佳分值在70,且更关注不同营养物质的均衡性

单项营养物质的分值低于5,表明摄入比例在人群中属于最低的5%,评估为缺乏,低于15评估为偏低。

而如果某项指标达到或超过95,则表明该项可能摄入比例偏高通常对应会有其他营养成分较低。只需要针对性的增加缺乏或偏低的营养成分摄入,维持不同营养成分相对一致即达到营养均衡的目标。

为什么会出现所有的营养指标都很低?

这可能是菌群失调引起的。营养指标的评估是基于菌群构成特征和菌群代谢生成特定营养素的途径来评估的,如果菌群结构异常,将导致后续的预测失常,例如大量氨基酸都评估缺乏的情况。

这时候需要先调节菌群,等菌群指标恢复到一定水平后再次检测,评估营养指标。

09 微量元素

我们日常摄入的除了上一小节提到的宏量营养素之外,还包括微量元素和维生素等。有些维生素比如说B族维生素中有相当一部分,甚至百分之六七十需要通过肠道菌群对初始原料进行代谢之后才会产生,也就是说有些细菌会代谢我们食物中的一些成分,转换成B族维生素

而你的菌群构成代谢B族维生素的能力,会直接决定是否缺乏该类维生素。当然也有部分受基因影响,因此肠道菌群相应的基因和代谢途径的丰度水平也会直接反映这些维生素的摄入水平。

总的来说,菌群在这其中起重要作用。在我们报告中呈现如下:

微量营养元素和维生素的评估分值与主要营养物质不同,是通过调查人群的单项营养成分水平,然后寻找与该项成分异常相关的菌群基于这些菌群和代谢途径计算丰度并转换为人群分布后的值。

简单来说,报告中的微量营养元素的分值即代表该营养元素的摄入水平。

菌群检测营养状况与血液检测有什么区别吗?

通过肠道菌群评估的维生素一般反映一段周期内的维生素状况,因为肠道菌群在没有突发疾病的情况下相对稳定,受一段周期的饮食影响为主,一般是2周。B族维生素是水溶性维生素,每日摄入后会通过尿液代谢排出,通过血液检测,不同时间检测波动较大

菌群评估营养和血液检测营养趋势是一样的,在极端缺乏和极端过量是吻合的,中间档可能在数值上不是完全吻合,血液反映的营养水平比较及时。

当了解了体内的营养素和维生素是否缺乏,以及哪方面的缺乏,就可以进行有针对性地补充。菌群也是需要营养物质的,这就离不开我们的日常饮食,那么该如何补充呢?

10 个体化饮食推荐

我们的肠道菌群检测报告中有个体化饮食推荐表。

<篇幅关系,此处仅展示部分>

以上食物推荐表是怎么来的?

这是经过综合考虑疾病风险营养缺乏状况计算得到的。主要是计算每种食物的营养构成与目前营养状况匹配度,以及特定疾病需要避免的食物

该表推荐的食物分数从-100~100,排序为不推荐到强烈推荐,日常饮食可以参考这个推荐表。推荐分值,表示基于目前的菌群和营养状况对食物的推荐指数,正数分值越大,建议优先选择,同时也是对改善最有帮助;负数分值越大,并不表示不能吃,而是目前状况下不优先推荐或尽量少吃。

p.s. 如果有特殊疾病需要忌口的,优先遵医嘱。

该表包括几百种日常食物,如下图。

<个体化饮食推荐,建议用电脑查看,目前手机端展示不太美观>

对于长期调理菌群而言,饮食无疑是最主要的驱动因素之一。

下一步我们将利用更全和详细的菌群结构,食物营养,人群膳食构成以及营养数据库推出个性化膳食营养升级方案,特别会针对个别菌属的异常和失衡状况以及营养元素异常和缺乏问题。

11 饮食影响菌群检测吗?

前面章节我们知道,通过菌群可以反映你的饮食状况,那么反过来,如果你吃了一个东西,会对菌群检测造成影响吗?是不是菌群就变了,那检测就不准了?

这也是比较重要的一部分,也就是肠道菌群检测的准确性,它能允许多大范围内的变化?什么因素会影响?

其实,菌群变化算快,也不算快。饮食对菌群是有一定影响没错,但这种影响呢,一般来说是前一天的饮食会影响第二天的菌群结构的百分之十几,也就是说,假设你昨天吃大餐,大量吃肉,蛋白摄入非常高,而你之前是以碳水化合物为主的,那么第二天饮食当中,你的蛋白质相关的这部分菌的比例可能会有15%,最高到20%可能会有,但一般来说是在15%以内,会有一个波动

然而,总体的核心菌群构成,不会因为你今天一顿大餐,就直接从素食的变成肉食的菌群结构,核心菌是相对稳定的,那么多久会发生变化呢?

一般来说坚持两周,饮食结构的变化,核心菌群就会发生一个迁移改变。但两周只是一个短暂的周期,如果你两周后又换回先前的那种饮食方式,菌群也会随之改变到之前的状态。那要怎么样才能持久改变菌群呢

这个时间线可能要拉长到两个月

这是在我们的菌群干预中,很多人会遇到的一个周期性的问题。也就是如果你想有效改善菌群,至少需要两周会见到相对明显的菌群结构变化,那如果把干预延伸到持续两个月的周期,甚至是持续干预周期更长,那效果会更好

12 如何正确取样?

取样前饮食会不会造成影响?

前面我们知道,菌群会受检测前一天饮食的影响,造成15~30%的菌群改变,同样也会反映在营养状况的评估上,因此建议检测前一天尽量保持近期正常饮食,这样能更好的反映真实的营养饮食状态。

此外,如果你是在调理一段时间后再次检测,想要和上次比较的话,最好在检测前保持饮食大体相似(意思是不要突然吃和平时不一样的食物或者吃完大餐后取样)。

取样过少会怎么样?

取样不能太少,如果太少的话,可能会影响DNA提取,另外会导致一些低丰度的菌检测不到。

取样过多会怎么样?

如果说取样太少导致样本不合格可以理解,那么取样过多为什么也会有问题呢?

我们的采样管中有保存液,可以将菌群固定在采样的瞬间,但是如果取样过多的话,可能导致部分粪便无法完全溶解于粪便,这部分样不能正常保存可能会使其中的大肠杆菌等兼性厌氧菌开始在管内繁殖。

正确合格取样量(黄豆大小,约200mg,如果是稀便,反复沾取)

只需棉签沾取少量,混匀于保存液,固体粪便取样不能超过管子1/5体积(右图刻度线)。且保存液带有粪便颜色即可。(右图所示)

详见:肠道菌群取样方法

注 意 事 项

如3天内使用过抗生素类、质子泵类胃药、阿片类精神药物请停药3天后进行检测(如果长期服用某种药物,如降压、降血糖药等,不建议停药,检测反映的是用药控制的菌群和身体状况)。

感冒、腹泻或其他症状期间不影响取样,拉稀或稀便可以用棉签反复沾取粪便至取样管。

总的来说,取样虽然很重要,但也只是其中一个环节。每一个样本的结果呈现都凝聚了我们与你共同的努力。那么,从取样到结果报告呈现的那一刻,中间经历了什么?

样本之旅

在你取完样之后,把样本用快递寄到我们这里之后,它会经历提取->测序->分析->报告到你手上。下图绿色标注部分是你需要完成的。

13 展望

近年来,我国将全面健康和预防作为国家重点领域。我们致力于将信息技术(IT)与生物技术(BT)相融合,发展推动肠道菌群基因检测进入成为精准和预防医学时代下的“生命健康新基建”,尽管目前的菌群检测,包括疾病关系,算法,数据库,后端干预均在成长积累阶段,但是菌群检测正在进入大数据时代,菌群基因中蕴藏海量对人体生命和健康的重要数据,我们致力于将这些数据和实际应用相结合,最终转化为疾病预防、改善健康的有效方案。

前沿技术正在不断创新发展,报告也在迭代更新中,谷禾肠道菌群健康检测在辅助判别慢病风险、精准营养、亚健康管理、临床治疗干预中显示出其广泛的社会需求和指导价值。

你问我答

不同部位间的样本(如前段/中段/后段),检测结果差异性有多大?

答:会有不同的,不过主要反映在具体的菌种丰度上,有无这种菌的差异不大。另外慢病的评估也影响不大慢病模型中使用了高维特征丰度的变化波动对结果的影响没那么大营养和代谢部分受菌群丰度影响相对大一些,同一个人的前后两天的取样最大可能有15%左右的差异

肠道菌群在肠道内不同部位以及粪便的不同部分其实都存在差异,含水量、连续几餐的饮食构成和排便周期的长度都会对菌群各个菌种的丰度造成影响。单纯从绝对丰度上来看是一个动态变化的过程,各个菌属在继承之前的构成比例的情况下因各种因素的变化增长或降低。因此并不存在一个绝对的菌群构成以及完全准确的单一指标。肠道菌群检测获取的丰度含量本身信息量很大,但是稳定性和一致性并不很高。

更高层级的菌群相对比例顺序则相对稳定一些,之后具体包含的菌种也相对稳定。目前我们使用的疾病预测模型主要通过高维的菌群结构特征,并不单纯依靠每个菌的绝对丰度来评估,稳定性很高。针对一些特定的病原菌或问题菌,需要通过与人群范围比较,在正常范围内并无问题。

日常多添加有益菌或益生菌的酸奶,可以改善肠道菌群状况吗?

答: 大范围人群调查显示添加益生菌的酸奶可以改善肠道健康,但效应因人和状态而定。总体而言我们支持服用益生菌酸奶有益,但需要注意酸奶饮料可能包含果糖,游离糖等,其作用仍然非常有限

同一份样本,不同批次的实验环节如上机测序,差异有多大?这种差异率是否有一个范围呢?

答:不同批次上机影响很小,菌群数据相关性不低于98%。我们会在每轮设置一个阳性对照,一个上轮检测样本对照,一个阴性对照。评估污染,轮次比对。理论上不同的实验室,扩增引物,方法都会带来对不同菌丰度的系统误差,我们尽力保证本实验体系下各个轮次之间最小化的实验误差。另外使用的引物是经过大量验证的标准化引物。

实际患者建不建议送检,我们这个产品主要针对健康体检,还是也可以辅助诊断和预后治疗呢?

答:产品主要针对健康体检,如果临床诊断判断可能菌群异常或疾病症状与菌群相关,产品可以通过菌群检测提供临床参考,用于辅助诊断和治疗方案的评估。产品关于疾病和菌群相关指标的评估仅限于菌群相关方面,以临床诊断为准,不适用于单独使用产品进行疾病诊断。

抗生素是如何影响菌群的,菌群的敏感性和抗性基因是什么?

答:广谱抗生素会杀死细菌,但是部分细菌在抗生素选择或滥用的情况下会在抗生素靶点基因产生突变携带耐药基因,从而对特定抗生素产生耐药。不同菌目前的耐药菌比例以及携带的耐药基因水平不同,对应的抗生素耐药水平和种类也有不同

有在吃富含某种事物或者相关营养素,为什么报告显示缺乏?

答:营养指标的评估是基于菌群构成特征菌群代谢生成特定营养素的途径来评估的,直接的营养素补充会反映在相关菌群构成上,但部分营养素因为吸收部位不同以及菌群代谢途径上下游的影响,预测可能有一定差异。另外菌群构成异常的情况也会导致营养指标预测失常,如大量氨基酸都评估缺乏的情况。

有人说长期服用益生菌,会让肠道自己产生的益生菌的能力减弱或者可以说是肠道自主平衡的能力减弱,不能长期服用。这种说法是否有依据?长期服用一种益生菌,也容易产生耐药性,那么是否建议定期更换或者调整益生菌的菌种和数量呢?

答:持续服用单一或特定组合的益生菌确实会存在效力减退的情况,主要是菌群具有适应性,如果不配合生活方式和饮食结构的改变,会较快失效。可以根据菌群检测结果调整益生菌的方案。

样品的稳定性对于那些数据的影响是比较大的哪些是影响比较小的?

答:越是直接和具体菌相关的指标变化越快越大,和菌群结构相关的指标,比如一些慢病风险还有总体饮食结构一类的变化较稳定

从波动性排序来看,具体菌丰度>多样性>微量营养(锌 铁 氨基酸 维生素)>消化道疾病风险评估 (受当前状态影响较大)>肠龄>宏量营养素(碳水 蛋白 脂肪 纤维素 乳制品)>抗生素水平 >菌属是否出现>其他慢病风险

中大龄儿童小孩检测到自闭症风险高,如何解读?

答:肠道菌群在1-3岁期间主要是菌群发育滞后会影响神经发育和营养3~6岁左右菌群参与的神经递质代谢异常加剧自闭症的程度,但这个年龄段已有的神经发育滞后不光靠菌群改善就能解决了。

所以如果是0~2岁的如果这个风险值较高,不管有没有症状都建议改善菌群。如果是3~6岁甚至6岁以上,如果就风险值高没有相应的神经或行为异常,就问题不大,可能是菌群代谢构成不太好,不会导致自闭症的。如果有症状那改善菌群有助于改善症状。

肠道菌群平衡,为何多样性指数是低的?

答:菌群平衡和多样性指数是2个不同指标;

多样性仅仅评估肠道菌群的种类数量和丰度分布具体是有益和有害无关。多样性主要与饮食摄入,药物如抗生素类以及疾病状态有关。

菌群平衡对应的异常称为肠道菌群失调,临床上有I度失调和更严重的II度失调。大便常规检查是通过显微镜下观察统计染色细菌中杆菌和球菌以及革兰氏阴性和阳性菌的比值是否超标来判别的。本报告同时提供了另一评估算法,通过有益菌/有害菌的总体情况来评估菌群平衡状态,低于2为重度失衡,低于5为失衡,同时分值也提示菌群平衡水平,越高越正常

菌群失衡如何调整?

从菌群失衡的评估角度来看,首先就是快速增加有益菌特别是双歧杆菌的丰度可有效改善该项指标。因此临床上通常提供多联的益生菌制剂来快速补充益生菌,可以短期有效改善菌群平衡比例

菌群平衡和多样性分值都高的,但是肠道年龄预测比实际大,年龄预测模型是不参考多样性和平衡性参数的?

答:肠道年龄是靠机器学习人群大队列做的,不是只根据菌群平衡和多样性,每个年龄段都有核心和标致的菌群特征,比如婴儿的双歧杆菌,老年人瘤胃球菌等,这几个指标都是表征菌群的状态和健康的。

END

声明

谷禾专注于提供肠道菌群基因检测和基于此的健康评估咨询,肠道菌群对人体健康的影响和关联性已被广泛研究和认可,但基于对健康的慎重和法规,谷禾重申其提供的肠道菌群基因检测目前不用于临床疾病诊断,仅作为菌群状况构成检测和健康评估以及基于菌群的科研。分析报告中疾病风险和健康相关评估来自于公开研究数据和谷禾构建的大人群队列数据分析的预测评估结果,涉及临床诊断和医疗建议请遵照临床诊断和医生的医嘱。由于技术进步和样本数据不断积累,报告中可能存在尚未完全涵盖的因素或状况,不可避免的存在一定概率部分风险未被完全检出的情况。

如何读懂和利用你的微生物多样性测序结果?

做过16s测序的小伙伴们都知道

测完之后会拿到一份结果报告

但这并不代表可以开始写文章了

看似一大堆数据图表却不知如何下手

这是很多人头疼的地方

那么怎样给报告中的数据赋予灵魂

让它真正成为对你有帮助的分析呢?

今天我们来详细解读下。

一文扫除困惑

首先什么是16S rRNA?

16S rRNA 基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。

16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系, 而可变区序列则能体现物种间的差异。 

16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。

二代高通量测序原理

目前二代测序是一个边合成边测序的过程,使用的是荧光可逆终止子。每个可逆终止子的碱基3’端都有一个阻断基团,而在侧边带有一种荧光。由于有4种不同的碱基(ATCG),因此也会有对应4种不同颜色的荧光。开始扩增每次结合上一个碱基,DNA的扩增便会停止,此时能收到一种荧光信号。然后放试剂除去阻断基团,进行下一个碱基的结合,以此类推得到一连串的荧光信号组合序列。而根据荧光的颜色我们便可以确定每一个位点的基因型,即可以得到这一段DNA片段的序列。

环境样品高通量分析需要重复么?

在进行实验设计前,这是有些小伙伴面临的一个问题。环境样本由于来源和条件不完全可控,每个样品之间会存在很大的差异,即便是相同样本的不同取样时间和部位也会存在一定的差异。

基于高通量测序主要是为了了解样品的菌群构成和功能分析,以及寻找不同环境之间的差异,包括菌和功能基因以及代谢。如果仅做单一样本,很可能结论只能代表这个单一取样样本的信息,无法排除不同样本重复之间的差异,也就可能得不到真正代表环境差异的结果。
所以环境样品不仅要重复而且还应该以分组方式取尽量多的样本以全面的代表一个环境条件下的各种变异情况。

测序区段如何选择

确定做重复后,又面临该怎么选择测序区段的问题。目前市面上有v1-v3区/v3-v4区/v4区等可供选择。

16S rRNA编码基因序列共有9个保守区和9个高可变区。其中,V4区其特异性好,数据库信息全,我们通过大量的测序试验证明用v4区扩增出菌群结果的可以很好的反应样本的菌群结构用于后续的数据建模分析,是细菌多样性分析注释的最佳选择。

基本确定好后,就要着手开始实验,实验完送样又是个问题,以往给测序公司送样往往是低温运输,且不说麻烦,还要提心吊胆怕运输过程会不会有什么问题。为此我们免费提供常温保存取样盒,就不用有这样的顾虑,取样及运输全程都只需要常温即可。

样品到公司之后就更不用操心,全套服务等着呢!

16s分析结果详解

很多小伙伴有过这样的经历,在拿到公司出具的报告之后,仍然一头雾水,几十页的报告内容看着丰富却不知该怎么运用。我们一起来理一下关键图表的含义

OTU是我们要搞清的一个重要概念,可以说是后续分析的基石。

OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。通常按照 97% 的相似性阈值将序列划分为不同的 OTU,每一个 OTU 通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种,相似性小于93%-95%,可以认为属于不同的属。样品中的微生物多样性和不同微生物的丰度都是基于对OTU的分析。

有了OTU这个概念之后,就不难理解下表。对每个样本的测序数量和OTU数目进行统计,并且在表栺中列出了测序覆盖的完整度。

其中 SampleName表示样本名称;SampleSize表示样本序列总数;OTUsNumber表示注释上的OTU数目;OTUsSeq表示注释上OTU的样本序列总数。

Coverage是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。计算公式为:C=1-n1/N  其中n1 = 只含有一条序列的OTU的数目;N = 抽样中出现的总的序列数目。

下表是对每个样本在分类字水平上的数量进行统计,并且在表栺中列出了在每个分类字水平上的物种数目

其中SampleName表示样本名称;Phylum表示分类到门的OTU数量;Class表示分类到纲的OTU数量;Order表示分类到目的OTU数量;Family表示分类到科的OTU数量;Genus表示分类到属的OTU数量;Species表示分类到种的OTU数量。

我们可以看到绝大部分的OTU都分类到了属(Genus),也有很多分类到了种(Species)。但是仍然有很多无法完全分类到种一级,这是由于环境微生物本身存在非常丰富的多样性,还有大量的菌仍然没有被测序和发现。

当然,对这些种属的构成还可以进行柱状图展示:

横坐标中每一个条形图代表一个样本,纵坐标代表该分类层级的序列数目或比例。同一种颜色代表相同的分类级别。图中的每根柱子中的颜色表示该样本在不同级别(门、纲、目等)的序列数目,序列数目只计算级别最低的分类,例如在属中计算过了,则在科中则不重复计算。

我们还需要对样本之间或分组之间的OTU进行比较获得韦恩图:

样品构成丰度

稀释曲线

微生物多样性分析中如何验证测序数据量是否足以反映样品中的物种多样性?

稀释曲线(丰富度曲线)可以派上用场。它是用来评价测序量是否足以覆盖所有类群,并间接反映样品中物种的丰富程度

不免有同学有疑惑,稀释曲线怎么来的?

它是利用已测得16S rDNA序列中已知的各种OTU的相对比例,来计算抽取n个(n小于测得reads序列总数)reads时出现OTU数量的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列)与其相对应的OTU数量的期望值做出曲线来。

至此,我们虽然知道了稀释曲线的由来,那么这个五彩缤纷的稀释曲线该怎么看呢?

当曲线趋于平缓或者达到平台期时也就可以认为测序深度已经基本覆盖到样品中所有的物种,增加测序数据无法再找到更多的OTU;

反之,则表示样品中物种多样性较高,还存在较多未被测序检测到的物种。

横坐标代表随机抽取的序列数量;纵坐标代表观测到的OTU数量。样本曲线的延伸终点的横坐标位置为该样本的测序数量。

Shannon-Winner曲线

Shannon-Wiener 曲线,是利用shannon指数来进行绘制的,反映样品中微生物多样性的指数,利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性。 

当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物物种信息。

横坐标代表随机抽取的序列数量;纵坐标代表的是反映物种多样性的Shannon指数,样本曲线的延伸终点的横坐标位置为该样本的测序数量。

其中曲线的最高点也就是该样本的Shannon指数,指数越高表明样品的物种多样性越高。

好奇的同学又有疑问,Shannon指数怎么算的?

这里有Shannon指数的公式:

其中,Sobs= 实际测量出的OTU数目;

ni= 含有i 条序列的OTU数目;N = 所有的序列数。

Rank-Abundance曲线

该曲线用于同时解释样品多样性的两个方面,即样品所含物种的丰富程度均匀程度

横坐标代表物种排序的数量;纵坐标代表观测到的相对丰度。

样本曲线的延伸终点的横坐标位置为该样本的物种数量

物种的丰富程度由曲线在横轴上的长度来反映,曲线越宽,表示物种的组成越丰富;

物种组成的均匀程度由曲线的形状来反映,曲线越平坦,表示物种组成的均匀程度越高。

如果曲线越平滑下降表明样本的物种多样性越高,而曲线快速陡然下降表明样本中的优势菌群所占比例很高,多样性较低。

但一般超过20个样本图就会变得非常复杂而且不美观!所以假如没超过20个样可以考虑该图哦~

Alpha多样性(样本内多样性)

Alpha多样性是指一个特定区域或者生态系统内的多样性,常用的度量指标有Chao1 丰富度估计量(Chao1 richness estimator) 、香农 – 威纳多样性指数(Shannon-wiener diversity index)、辛普森多样性指数(Simpson diversity index)等。

计算菌群丰度:Chao、ace;  

计算菌群多样性:Shannon、Simpson。

Simpson指数值越大,说明群落多样性越高;Shannon指数越大,说明群落多样性越高。

看了那么多指数,可能觉得有点晕,到底每个指数是什么意思呢?

当然要解释下咯:

Chao1:是用chao1 算法计算群落中只检测到1次和2次的OTU数估计群落中实际存在的物种数。Chao1 在生态学中常用来估计物种总数,由Chao (1984) 最早提出。Chao1值越大代表物种总数越多

Schao1=Sobs+n1(n1-1)/2(n2+1)

其中Schao1为估计的OTU数,Sobs为观测到的OTU数,n1为只有一条序列的OTU数目,n2为只有两条序列的OTU数目。

Shannon:用来估算样品中微生物的多样性指数之一。它与 Simpson 多样性指数均为常用的反映 alpha 多样性的指数。Shannon值越大,说明群落多样性越高

Ace:用来估计群落中含有OTU 数目的指数,由Chao 提出,是生态学中估计物种总数的常用指数之一,与Chao1 的算法不同。

Simpson:用来估算样品中微生物的多样性指数之一,由Edward Hugh Simpson ( 1949) 提出,在生态学中常用来定量的描述一个区域的生物多样性。Simpson 指数值越大,说明群落多样性越高。

Alpha多样性指数差异箱形图

分别对 Alpha diversity 的各个指数进行秩和检验分析(若两组样品比较则使用 R 中的wilcox.test 函数,若两组以上的样品比较则使用 R 中的 kruskal.test 函数),通过秩和检验筛选不同条件下的显著差异的 Alpha Diversity指数。

Beta多样性分析(样品间差异分析)

也许我们有听说Beta多样性在最近10年间成为生物多样性研究的热点问题之一。具体解释下:

Beta多样性度量时空尺度上物种组成的变化, 是生物多样性的重要组成部分, 与许多生态学和进化生物学问题密切相关!

PCoA分析

PCoA(principal co-ordinates analysis)是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,PCoA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。

重要的是,它是可以用来观察个体或群体间的差异的。

每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的群落构成差异越小。

另一种相似的是PCA分析

主成分分析(Principal component analysis)PCA 是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要的前几位特征值,采取降维的思想,PCA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。

详细关于主成分分析的解释推荐大家看一篇文章,http://blog.csdn.net/aywhehe/article/details/5736659 

一起来看看包含PCoA研究的文章

案例解析

研究背景:全球塑料产量飞速增长,而且呈持续上升的趋势,因此导致大量塑料废物排放到环境中,从沿海河口到大洋环流,从东大西洋到南太平洋海域。塑料废弃物具有化学稳定性和生物利用率低的特点,可长期存在于海洋中,从而影响海洋环境包括海洋生物的生存。

作为一个独特的底物,塑料碎片可以吸附海洋中的微生物并形成个“塑性球”。以生物膜形式存在于塑料碎片上的微生物群落。许多研究表明,无论是在海洋还是淡水生态系统中,附着在塑料碎片上微生物群落的组成明显不同于周围环境(水和沉积物),而且易受位置、时间和塑料类型的影响。

主要图表

两两群落差异指数的PCoA图

PCoA 图可以清楚地看到,SW区细菌群落的置信椭圆与pd和sd的置信椭圆有显著的偏差(p<0.05),而sd上细菌群落的置信椭圆几乎覆盖了pd的置信椭圆(p>0.05),这表明pd和sd上的细菌群落有相似之处。

不同样本和处理下的细菌群落( 前 10 位)丰度分布

底物(SW、SD和Pd)上的主要属为细菌和假互斥单胞菌,暴露两周后,这些菌可能是分布广泛和适应性强的三种底物(SW、SD和PD)。暴露4周后,弧菌相对丰度增加.此外,暴露6周后,自养细菌(如扁平菌和硝酸菌)的数量增加。这三种底物上个细菌群落的生长模式也与3.2的结果一致。图5还显示,在6个星期内,在429个原位点中,假单胞菌在pd上的相对丰度高于sw和sd(anova,p<0.05)。

研究结论:首先,营养物质 (TN 和 TP) 与生物膜的平均生长速率呈正相关,而盐度与生物膜的平均生长速率呈负相关。盐度是影响PD的个细菌多样性的主要因素,而温度、溶解氧和养分(TN和TP)在类似的盐度条件下可能具有二次效应。尽管种聚合物类型对PD上的细菌群落的多样性具有较少的影响,但是在细菌群落中的一些属显示对PD的聚合物类型的选择性,并且倾向于将其优选的基质定殖。大的相对丰度SW、PD、SD间属显著差异。盐度是改变河口地区Pd条件致病菌富集的主要因素。另外,在种病原物种丰富的基础上,PD具有较高的致病性。

NMDS分析(非度量多维尺度分析)

NMDS(Nonmetric Multidimensional Scaling)常用于比对样本组之间的差异,可以基于进化关系或数量距离矩阵。

横轴和纵轴:表示基于进化或者数量距离矩阵的数值在二维表中成图。与PCA分析的主要差异在于考量了进化上的信息

每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的群落构成差异越小。

排序分析

PCA,PcoA,NMDS分析都属于排序分析(Ordination analysis)。

排序(ordination)的过程就是在一个可视化的低维空间或平面重新排列这些样本。

目的:使得样本之间的距离最大程度地反映出平面散点图内样本之间的关系信息。

排序又分两种:非限制性排序和限制性排序。

1、非限制性排序(unconstrained ordination)

——使用物种组成数据的排序

(1) 主成分分析(principal components analysis,PCA)

(2) 对应分析(correspondence analysis, CA)

(3) 去趋势对应分析(Detrended correspondence analysis, DCA)

(4) 主坐标分析(principal coordinate analysis, PCoA)

(5) 非度量多维尺度分析(non-metric multi-dimensional scaling, NMDS)

2、限制性排序(constrained ordination)

    ——同时使用物种环境因子组成数据的排序

(1) 冗余分析(redundancy analysis,RDA)

(2) 典范对应分析(canonical correspondence analysis, CCA)

比较PCA和PCoA

在非限制性排序中,16S和宏基因组数据分析通常用到的是PCA分析和PCoA分析,两者的区别在于:

PCA分析是基于原始的物种组成矩阵所做的排序分析,而PCoA分析则是基于由物种组成计算得到的距离矩阵得出的。

在PCoA分析中,计算距离矩阵的方法有很多种,包括如:Euclidean, Bray-Curtis, and Jaccard,以及(un)weighted Unifrac (利用各样品序列间的进化信息来计算样品间距离,其中weighted考虑物种的丰度,unweighted没有对物种丰度进行加权处理)。

LDA差异贡献分析

如果说 PCA,它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上,映射时没有利用任何数据内部的分类信息,是无监督的。

那么LDA是有监督的,增加了种属之间的信息关系后,结合显著性差异标准测试(克鲁斯卡尔-沃利斯检验和两两Wilcoxon测试)和线性判别分析的方法进行特征选择。

两者相同点:

  • 都可以对数据进行降维。
  • 降维时都采用了矩阵特征分解的思想。

差异:

1)LDA是有监督学习的降维方法,而PCA是无监督的降维方法。(注:监督学习是从标记的训练数据来推断一个功能的机器学习任务。)

2)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

除了可以检测重要特征,他还可以根据效应值进行功能特性排序,这些功能特性可以解释大部分生物学差异。这部分希望能详细了解的同学可以参考这篇文章http://blog.csdn.net/sunmenggmail/article/details/8071502 。

  • 不同颜色代表不同样本或组之间的显著差异物种。
  • 使用LefSe软件分析获得,其中显著差异的logarithmic LDA score设为2。

LDA分析究竟能做什么

组间差异显著物种又可以称作生物标记物(biomarkers),这个LDA分析主要是想找到组间在丰度上有显著差异的物种

案例解析

研究背景:研究表明遗传和环境影响都在I型糖尿病的发展中起作用,增加的遗传风险不足以引起疾病,环境因素也是需要的,而且起着至关重要的作用。肠道菌群也许就是这个重要的环境因素,肠道菌群在免疫系统的成熟中起重要作用,此外还影响自身免疫疾病发展。

不同遗传风险儿童的LDA差异菌群

不同遗传风险分组中包含的常见菌属,部分存在特定分组中

PCoA分析揭示不同遗传风险儿童肠道菌群的在不同地域样本中均存在显著差异

点评:针对I型糖尿病疾病发生过程中遗传HLA分型风险和对应肠道菌群菌的关联分析,揭示了特定肠道菌群与宿主特定遗传风险共同作用推进疾病发生。某些特定菌属可能无法在遗传高风险儿童肠道内定植,可能对疾病发生存在特定作用。此外对于其他遗传风险的自身免疫疾病也具有重要提示意义,例如乳糜泻和类风湿性关节炎。

物种进化树的样本群落分布图

这是另一款和LDA长得有点像的图,当然功能可完全不一样。它是将不同样本的群落构成及分布以物种分类树的形式在一个环图中展示。数据经过分析后,将物种分类树和分类丰度信息通过这款软件GraPhlAn进行绘制

(http://huttenhower.sph.harvard.edu/GraPhlAn )。

其目的是将物种之间的进化关系以及不同样本的物种分布丰度最高分布样本的信息在一个视觉集中的环图中一次展示,其提供的信息量较其他图最为丰富。

  • 中间为物种进化分类树
  • 不同颜色的分支代表不同的纲(具体的代表颜色见右上角的图例),
  • 接着的外圈的灰色标示字母的环表示的是本次研究中比例最高的15个科(字母代表的科参见左上角的图例)。
  • 之后的外圈提供的是热力图,如果样本数<=10个则绘制样本,如果样本数超过10个则按照分组绘制,每一环为一个样本,根据其丰度绘制的热力图。
  • 最外圈为柱状图,绘制的是该属所占比例最高的样本的丰度和样本颜色(样本颜色见环最下方的样本名字的颜色)。其中热力图和柱状图取值均为原比例值x10000后进行log2转换后的值。

物种相关性分析

根据各个物种在各个样品中的丰度以及变化情况,计算物种之间的相关性,包括正相关和负相关。

相关性分析使用CCREPE算法

怎么画的?

首先对原始16s测序数据的种属数量进行标准化,然后进行Spearman和Pearson秩相关分析并进行统计检验计算出各个物种之间的相关性,之后在所有物种中根据simscore绝对值的大小挑选出相关性最高的前100组数据,基于Cytoscap绘制共表达分析网络图。

网络图采用两种不同的形式表现出来。

物种相关性网络图A

○  图中每一个点代表一个物种,存在相关性的物种用连线连接。

 ○  红色的连线代表负相关,绿色的先代表正相关。

 ○  连线颜色的深浅代表相关性的高低

物种相关性网络图B

 ○  图中每一个代表一个物种

 ○  点的大小表示与其他物种的关联关系的多少

 ○  其中与之有相关性的物种数越多点的半径和字体越大

 ○  连线的粗细代表两物种之间相关性的大小

连线越粗,相关性越

案例解析

研究背景:气候变化导致美国中部草原的降水模式发生变化,对土壤微生物群落构成及代谢影响很大。

研究希望明确土壤微生物群落对土壤水分变化的反应,并确定响应的特定代谢特征。

主要图表

同一样本在不同水分含量孵化处理下土壤菌群的变化

受到水分条件影响的土壤菌群代谢途径和网络分布

研究结论:土壤干燥导致土壤微生物组的组成和功能发生显着变化。相反,润湿后几乎没有变化。由于干旱导致的土壤水分减少对土壤碳循环和土壤微生物组进行的其他关键生物地球化学循环的影响很大。导致渗透保护剂化合物产生的代谢途径受到较大影响。

点评:

相对简单的样本和实验设计,但是从多个维度探寻支持土壤微生物群落对湿润和干燥表型的反应。

与常见的环境采样检测不同,针对同一样本在对照环境下进行环境控制孵化,然后比较菌群变化可以更为有效的控制背景差异。

聚类分析

根据OTU数据进行标准化处理(1wlog10)之后,选取数目最多的前60个物种,基于R heatmap进行作图

 ○  热图中的每一个色块代表一个样品的一个属的丰度

 ○  样品横向排列,属纵向排列

 ○  差异是是否对样品进行聚类,从聚类中可以了解样品之间的相似性以及属水平上的群落构成相似性

Tips:

如果聚类结果中出现大面积的白或黑是因为大量的菌含量非常低,导致都没有数值,可以在绘制之前进行标准化操作,对每一类菌单独自身进行Z标准化。

案例解析

研究背景:妊娠期糖尿病(GDM)的患病率在全球范围内迅速增加,构成一个重要的健康问题和产科实践的重大挑战(Ferrara,2007)。高脂血症是妊娠常见的合并症。在GDM患者中,血脂的生理变化可能导致怀孕期间潜在的代谢紊乱。肠道失调在宿主代谢异常中起着至关重要的作用,最近关于2型糖尿病(T2D)和肥胖的研究就证明了这一点。这些研究表明,妊娠期间肠道微生物ME的主要变化可能在GDM的发展中起着至关重要的作用。

GDM加高脂血症(M队列)妊娠期间与显著改变的脂质相关的肠道微生物群(属)

研究结论:我们的结果表明,血脂水平可能反映了GDM发展过程中的一些异常变化。所鉴定的多种生物标志物对GDM合并高脂血症的防治有一定的参考价值。

组间物种差异性箱形图

组间物种差异性盒形图描述在不同分组之间具有差异显著的某一物种做盒形图,图中以属水平为例做物种差异性盒形图,展示如下:

 ○  图中不同颜色代表不同的分组,更直观显示组间物种差异

 ○  每一个盒形图代表一个物种,图上方是物种名。

Anosim检验

Anosim分析是一种非参数检验,用来检验组间的差异是否显著大于组内差异,从而判断分组是否有意义

展示如下:

R-value介于(-1,1)之间,R-value大于0,说明组间差异显著。

R-value小于0,说明组内差异大于组间差异。

统计分析的可信度用 P-value 表示,P< 0.05 表示统计具有显著性。

对Anosim的分析结果,基于两两样本之间的距离值排序获得的秩(组间的为between,组内的为within),这样任一两两组的比较可以获得三个分类的数据,并进行箱线图的展示(若两个箱的凹槽互不重叠,则表明它们的中位数有显著差异)

随机森林分类树属分类效果

随机森林是机器学习算法的一种,它可以被看作是一个包含多个决策树的分类器

其输出的分类结果是由每棵决策树“投票”的结果。由于每棵树在构建过程中都采用了随机变量和随机抽样的方法,因此随机森林的分类结果具有较高的准确度,并且不需要“减枝”来减少过拟合现象。

随机森林可以有效的对分组样品进行分类和预测。

物种重要性点图。横坐标为重要性水平,纵坐标为按照重要性排序后的物种名称。上图反映了分类器中对分类效果起主要作用的菌属,按作用从大到小排列。

Error rate: 表示使用下方的特征进行随机森林方法预测分类的错误率,越高表示基于菌属特征分类准确度不高,可能分组之间菌属特征不明显。图中以所有水平为例,取前60个作图。

ROC曲线图

ROC 曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性特异性连续变量的综合指标,通过构图法揭示敏感性和特异性的相互关系。

ROC 曲线将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线。

曲线下面积越大,诊断准确性越高。展示如下:

FAPROTAX生态功能预测

FAPROTAX是一款在2016年发表在SCIENCE上的较新的基于16S测序的功能预测软件。它整合了多个已发表的可培养菌文章的手动整理的原核功能数据库,数据库包含超过4600个物种的7600多个功能注释信息,这些信息共分为80多个功能分组,其中包括如硝酸盐呼吸、产甲烷、发酵、植物病原等。

FAPROTAX对环境样本更友好

如果说PICRUSt(后续会介绍)在肠道微生物研究更为适合,那么FAPROTAX尤其适用于生态环境研究,特别是地球化学物质循环分析。

FAPROTAX适用于对环境样本(如海洋、湖泊等)的生物地球化学循环过程(特别是碳、氢、氮、磷、硫等元素循环)进行功能注释预测。因其基于已发表验证的可培养菌文献,其预测准确度可能较好,但相比于上述PICRUSt和Tax4Fun来说预测的覆盖度可能会降低。

FAPROTAX可根据16S序列的分类注释结果对微生物群落功能(特别是生物地化循环相关)进行注释预测。

图中横坐标代表样本,纵坐标表示包括碳、氢、氮、硫等元素循环相关及其他诸多功能分组。可快速用于评估样品来源或特征。

基于BugBase的表型分类比较

Bugbase也是16年所提供服务的一款免费在线16S功能预测工具,到今年才发表文章公布其软件原理。该工具主要进行表型预测,其中表型类型包括革兰氏阳性、革兰氏阴性、生物膜形成、致病性、移动元件、氧需求,包括厌氧菌、好氧菌、兼性菌)及氧化胁迫耐受等7类。

Gram Negative 革兰氏阴性菌

Picrust群落功能差异分析

通过对已有测序微生物基因组的基因功能的构成进行分析后,我们可以通过16s测序获得的物种构成推测样本中的功能基因的构成,从而分析不同样本和分组之间在功能上的差异(PICRUSt Nature Biotechnology, 1-10. 8 2013)。

Picrust对肠道菌群样本更友好

通过对宏基因组测序数据功能分析和对应16s预测功能分析结果的比较发现,此方法的准确性在84%-95%,对肠道微生物菌群和土壤菌群的功能分析接近95%,能非常好的反映样品中的功能基因构成

怎么做出来的?

为了能够通过16s测序数据来准确的预测出功能构成,首先需要对原始16s测序数据的种属数量进行标准化,因为不同的种属菌包含的16s拷贝数不相同。

然后将16s的种属构成信息通过构建好的已测序基因组的种属功能基因构成表映射获得预测的功能结果。(根据属这个水平,对不同样本间的物种丰度进行显著性差异两两检验,我们这里的检验方法使用STAMP中的two-sample中T-TEST方法,Pvalue值过滤为0.05,作Extent error bar图。)

此处提供COG,KO基因预测以及KEGG代谢途径预测。当然,跃跃欲试的小伙伴也可自行使用我们提供的文件和软件(STAMP)对不同层级以及不同分组之间进行统计分析和制图,以及选择不同的统计方法和显著性水平。

这里提到的STAMP有些小伙伴说不太了解,别急,后面会有更多介绍。

COG构成差异分析图

图中不同颜色代表不同的分组,列出了COG构成在组间存在显著差异的功能分类以及在各组的比例,此外右侧还给出了差异的比例和置信区间以及P-value。

KEGG代谢途径差异分析图

通过KEGG代谢途径的预测差异分析,我们可以了解到不同分组的样品之间在微生物群落的功能基因在代谢途径上的差异,以及变化的高低。为我们了解群落样本的环境适应变化的代谢过程提供一种简便快捷的方法。

本例图所显示的是第三层级的KEGG代谢途径的差异分析,也可以针对第二或第一层的分级进行分析。

图中不同颜色代表不同的分组,列出了在第三层级的构成在组间存在显著差异的KEGG代谢途径第三层分类以及在各组的比例,此外右侧还给出了差异的比例和置信区间以及P-value。

案例解析

研究背景:尽管普遍认为肠道微生物组的生态多样性和分类组成在肥胖和T2D中发生改变,但与单个微生物或微生物产物的关联在研究之间不一致。缺乏大样本群体研究,从而确定肠道微生物组,血浆代谢组,肥胖和糖尿病表型以及环境因素之间的几种关联。

主要图表

按照肥胖和糖尿病对人群分为三组,同时进行了16S,代谢和宏基因组的检测。

与肥胖相关的菌属以及代谢途径

研究结论:确定了肠道微生物组,血浆代谢组,肥胖和糖尿病表型以及环境因素之间的几种关联。与肠道微生物组变异相关的主要是肥胖,不是2型糖尿病。存在与肠道微生物组变异相关的药物和膳食补充剂。高铁摄入量影响小鼠的肠道微生物组成。微生物组变异也反映在血清代谢物谱中。

点评:

相对大人群的队列研究,同时涵盖了菌群、代谢和疾病表型以及膳食补充调查的数据。

从结果看菌属和血浆代谢存在关联,但是贡献度都较低,如果样本数量不足很可能找不到显著的联系,这也是这类大样本队列研究的意义。

本研究在人群分组时针对性的研究了肥胖-II型糖尿病和菌群的关联,因而构建了三个主要分组人群,结果显示肥胖与菌群的关联度更大,解释了大部分的菌群差异,而糖尿病的菌群变化较小。

本研究其中较为重要的是发现了不同膳食补充对菌群的影响,并在小鼠实验中得到证实。

基因的差异分析图

除了能对大的基因功能分类和代谢途径进行预测外,我们还能提供精细的功能基因的数量构成的预测,以及进行样本间以及组间的差异分析,并给出具有统计意义和置信区间的分析结果

这一分析将我们对于样本群落的差异进一步深入到了每一类基因的层面。

图中不同颜色代表不同的分组,列出了在组间/样本间存在显著差异的每一个功能基因(酶)以及在各组的比例,此外右侧还给出了差异的比例和置信区间以及P-value。

很多小伙伴总希望能亲自上手做点分析,机会来了!

在获得标准报告后如果希望单独修改分组或对某些组之间进行显著性差异分析,可以使用STAMP软件在自己的电脑上进行数据分析。STAMP提供了丰富的统计检验方法图形化结果的输出。

在使用STAMP之前需要首先准备需要的spf格式文件和样品分组信息表,但是如果数据不会处理,那也很不便。

而在我们的报告中已经将KEGG和KO以及COG的结果文件后经过转换生成了适用于STAMP软件打开的spf格式文件,还有对应的分组信息表文件groupfile.txt。

使用STAMP时的一些相关问题

1、STAMP作图用的原始数据的来源?

STAMP 可以直接使用来自QIIME的biom文件和PICUST的KEGG和ko 文件,groupfile.txt文件的格式为tab-saperated value (tab键隔开的数据)

2、分组问题?

导入数据之后,viewàgroup legend ,在窗口右侧会出现分组栏,根据需要进行分组。

3、Unclassiffied选项中,remain Unclassiffied reads、remove Unclassiffied reads、和use only for calculating frequency profiles 方法的区别?

remain Unclassiffied reads和use only for calculating frequency profiles方法会保留所有的数据,而remove Unclassiffied reads仅仅保留有确定分组信息的数据。

4、Statistical test 中,Welch’s t-test、t-test、white’s non-parametric t-test的区别,各自优缺点?

为了确保统计学意义和准确度和精确性,需要足够多的样本数目,t-test检验可以在最少样本数为4的时候确保高的准确度和精确性。

当两个样本之间具有相同方差的时候,用t-test更为准确,当两个样本没有相同方差Welch’s t-test更为准确。

当样本数目少于8的时候,可以使用white’s non-parametric t-test,该计算时间较长,当样本数目过多的时候不宜使用该方法。

5、Two-group 中 type: one side和two side的区别?

One side 只会显示前一个group与后一个group差异的比例,而two side 两者之间的比例均会显示

6、STAMP在使用时首先打开了一个分析文件,如果新打开一个可能会导致显示错误?

目前版本的STAMP存在一些小问题,一次分析只能使用一个数据文件,如果要打开新的需要关闭软件后再打开。

详细的STAMP使用教程可以参考我们提供的STAMP使用教程。

环境因子分析

冗余分析(redundancy analysis, RDA)或者

典范对应分析(canonical correspondence analysis, CCA)都是基于对应分析发展的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,又称多元直接梯度分析。主要用来反映菌群与环境因子之间的关系。

RDA 是基于线性模型,CCA是基于单峰模型。分析可以检测环境因子样品菌群三者之间的关系或者两两之间的关系。

○ 冗余分析可以基于所有样品的OTU作图,也可以基于样品中优势物种作图;

○ 箭头射线:箭头分别代表不同的环境因子;

○ 夹角:环境因子之间的夹角为锐角时表示两个环境因子之间呈正相关关系,钝角时呈负相关关系。环境因子的射线越长,说明该影响因子的影响程度越大;

○ 不同颜色的点表示不同组别的样品或者同一组别不同时期的样品,图中的拉丁文代表物种名称,可以将关注的优势物种也纳入图中;

○ 环境因子数量要少于样本数量,同时在分析时,需要提供环境因子的数据,比如 pH值,测定的温度值等。

个性化图表

除以上部分,还可以进行个性化图表定制,像下面这样:

看完以上内容,也许还有不明白的地方,没关系,我们罗列了一些常见的问题。看看有没有你想问的。

答疑小课堂

Q1

原始数据形式以及数据如何上传?

原始fastq格式是一个文本格式用于存储生物序列(通常是核酸序列)和其测序对应的质量值。这些序列以及质量信息用ASCII字符标识。通常fastq文件中一个序列有4行信息:如

第一行:序列标识,以 @开头。格式自由,允许添加描述信息,描述信息以空格分开。

第二行:序列信息,不允许出现空格或制表符。一般是明确的DNA或RNA字符,通常大写

第三行:用于将序列信息和质量值分隔开。以 +开头,后边是描述信息或者不加。

第四行:质量值, 每个字符与第二行的碱基一一对应,按照一定规则转换为碱基质量得分。进而反映该碱基的错误率,因此字符数必须和第二行保持一致。

Fasta格式

fasta是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。由两部分信息组成:如

第一行:序列标记,以 >开头,接序列的标识符,序列标识符以空格结束,后接描述信息。为保证分析软件能区分每条序列,每个序列的标识必须具有唯一性。

第二行:序列信息,使用既定的核苷酸或氨基酸编码符号。

数据提交

原始数据(Raw data),常见的是illumina机器产生的fastq文件,这一类文件需要向NCBI的SRA数据库进行提交,SRA是NCBI为了并行测序的高通量数据(massively parallel sequencing)提供的存储平台。完整提交SRA需要一些独立项目的分步提交,包括BioProject、BioSample、Experiment、Run等,每一部分用以描述数据的不同属性。

Q2

如何判断测序质量是否合格?

原始的Tags数据会经过质控、过滤、去嵌合体,最终得到有效数据(Effective Tags)。所以在判断测序质量是否合格时应该从几个方面去判断。

打开文件01_sequence_statistic/sumOTUPerSample.txt

报告里所有的txt打开如果格式不对的话,可以用excel表打开。

其中tags为经质量过滤后能正确overlap包含正确barcode和高质量序列的数据。

Singleton为非完全相同的序列,只要有1个碱基的差异即为不同序列,该值的高低与OUT数量并无直接关系,OTU是以97%的相似度聚类,测序质量较低导致的碱基错误、PCR扩增过程中的碱基错误、菌种内部的多样性以及OTU数量均会影响该数量。

Chimeras为通过与RDP等标准数据库比对分析判断可能由于PCR过程错误扩增导致的嵌合体比例,chimeras%为百分比,一般低于1。

首先判断下机数据tags和有效数据 clean tags 的数据量是否满足测序要求,一般下机数据量达到3万条reads以上满足测序需要,谷禾16s样本的测序深度可以达到10万条reads左右。如果数据量不够则需要重新补测样本。通过观察嵌合体数chimras 和嵌合体所占百分比chimeras%,可以反应出有效序列的转化率,嵌合体的比例越小序列的利用转化率就越高。

根据稀释曲线可以判断测序深度是否达到饱和,如图中曲线都逐渐趋于平缓,就证明样本的测序深度较好,测序深度基本覆盖能测到的该样本所有的物种,测序深度比较好。同时曲线趋于水平纵坐标的高低也能够反映各样本的微生物多样性情况,曲线越高,证明测到的物种种类越多,样本的微生物多样性就越高。

而从该图可以看出,个别样本的曲线未趋于平缓,证明该样本测序深度不够,测序深度未能很好的反映出该样本的完整菌群构成。如果测序数据量更大的的话会检测到更多物种。

Q3

如何了解分组内部的多个样本的重复性以及多样性情况?

观察分组内部多个样本的重复性如何可以从以下几个方面考虑。

首先在各分类水平的柱状图的菌属构成来看

从构成图来看,Flu组和ZW3.7组,组内样本重复性较好。Ctrl组中Ctrl.2明显区别于组内另外两个样本,可以去掉该样本。而ZW3.8组内样本间差异性较大。

比如人体肠道或小鼠肠道样本本身个体差异性较大,菌群结构组成复杂,即便通过不同疾病的分类的样本,但营养饮食、代谢以及环境的影响都会改变肠道菌群的构成,所以有可能组内样本间差异性会比较大。而经过单因素处理的样本组内差异会比较小。

所以在前期实验设计时,尽量选择同一批次相同处理的小鼠或其他样本,避免组内差异的影响。并且要预留好多余的样本,比如组内只有3个样本,如果去掉一个差异性较大的样本,一个分组内只有2个样本,会影响后续组间差异比较,组间差异性比较分析每组要至少要3个样本。

通过beta多样性分析PCA,PCoA,MNDS 也可以大致观察组内样本重复性情况,左图组内样本重复性较好,右图组内样本间差异性较大,两组间的区割不是很明显。

在加圈图的beta多样性分析中,右下角有给出PC1和PC2的P值,小于0.05则差异显著。

Alpha多样性是针对单个样品中物种多样性的分析,包括chao1指数、ace指数,shannon指数以及simpson指数等。前面4个指数越大,最后一个指数越小,说明样品中的物种越丰富。

其中chao指数和ACE指数反映样品中群落的丰富度(species richness),即简单指群落中物种的数量,而不考虑群落中每个物种的丰度情况。指数对应的稀释曲线还可以反映样品测序量是否足够。如果曲线趋于平缓或者达到平台期时也就可以认为测序深度已经基本覆盖到样品中所有的物种;反之,则表示样品中物种多样性较高,还存在较多未被测序检测到的物种。

而shannon指数以及simpson指数反映群落的多样性(species diversity),受样品群落中物种丰富度(species richness)和物种均匀度(species evenness)的影响。相同物种丰富度的情况下,群落中各物种具有越大的均匀度,则认为群落具有越大的多样性。

稀释曲线是利用已测得序列中已知的各种OTU的相对比例,来计算抽取n个(n小于测得Reads序列总数)Tags时各Alpha指数的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列,本项目公差为500 )与其相对应的Alpha指数的期望值绘制曲线。

Q4

不同的样本之间差异大吗?不同分组之间能否用菌群差异来区分?

观察不同分组间差异的大小可以观察随机森林分类效果图。

路径在07_diff_analysis/RF

图中以该分类水平下选取用于区分不同分组间的差异性起到关键性影响因素的物种作为标志物作图。标志物按重要性从大到小排列,图中随机森林值error rate 表示用随机森林方法预测分组之间的错误率,分值越高代表所选取的标志物准确度不高,并不能很好的用于区分各分组,分组差异不显著。分值越低证明分组效果比较好。

上图中的随机森林按照门和属以及代谢途径分别进行分析作图,各自都有单独文件,报告中仅给出了一个图,其他文件需要到目录中查看。可能存在门或属区分效果不佳,但是代谢途径区分效果较好。

随机森林筛选出来的物种是用于区分所有分组的重要标志。分值越高代表该物种用于区分所有组之间的重要性越大。

Q5

二代测序16s 能用普通酶扩增吗?

16s测序主要为了鉴定菌种,通常在做鉴定的时候区分标准是97%,区分亚种和菌株的时候相似度更高。
普通TAQ酶的复制错误率较高,可能在扩增过程中引入错误,这些错配可能导致相似度下降从而分类错误。
一般我们不建议使用普通TAQ酶进行扩增,都选择高保真酶。

Q6

利用16s rRNA鉴定细菌能确定到种上吗?

16s rRNA长度为1.5k多,作为菌种鉴定一般选择相似度97%的标准,相似度超过97%一般定义为同一种菌。


如果是sanger测序获得16s全长的都可以鉴定到种,甚至能区分亚种。有些细菌并不只有1个16s序列,会包含有1-15拷贝的16s序列,所以单一的16s序列鉴定可能会出现偏差。


利用高通量如454或miseq测序一般由于读长的缘故,通常只有300-500多个碱基被测序,所以在物种鉴定上一般比较可靠的是能分类到属,部分能分类到种。


根据我们的经验,不同的样品会有大约10-50的菌能分类到种。利用新的分析方法,我们现在也可以利用16s rRNA的群落多样性高通测序数据进行亚种级别的分析。主要是利用16s中共同变化的SNP位点进行分型。这样可以大大提高菌种的分类精度,尤其是在有些菌株之间表型差异巨大的时候。

Q7

听说光测16s就可能预测基因和功能,是真的吗?

16s序列能够区分菌的种属,但是并不包含这些菌的基因和代谢功能的信息。不过由于我们已经对大量的细菌基因组进行了测序,所以可以根据16s的菌种信息,利用这个菌属已经测序的细菌基因组的基因信息和代谢功能信息来估计每类基因的上限和下限。


所以答案是可以利用16s序列测序来预测菌群的功能基因分布和代谢途径分布情况。
目前主要使用的软件是PICRUSt和新发表的Tax4Fun。


从我们实际分析和实验结果来看,预测的准确性还是很高的,不过和样品有很大关系。像肠道菌群和土壤以及一些致病菌的测序较多,所以预测的准确度较高可以到85-90%以上。一些海洋的菌由于测序的菌较少,预测准确性要差一些。目前发表的文献基本都是用PICRUSt,新的软件还有待验证。

Q8

测16s rRNA能分到亚种吗?不同菌株都有致病性差异光到种不解决问题啊!

16s rRNA如果是使用sanger测序可以细分到亚种甚至有些可以精确区分菌株,但是要看菌种。

如果是高通量测序,目前的常见分析一般以97%为标准,大部分情况只能到属,少部分能区分到种。如果要进一步细分到亚种甚至更小的区分目前是有可能的,我们在使用oligotype一类的方法时可以将相同变化模式的SNP归类,并对原来的OTU进行进一步细分,理论上可以区分到菌株。


不过这种区分不同菌属差异很大,有些可以很理想的区分,主要用来了解在更细分化尺度上菌株构成的地理和时间变化。
仅通过16s高通量测序恐怕不能完全解决菌株致病性差异这种问题,但是通过对常见OTU的进一步深入分析可以提供可能的解释或方向。如果明确了某一特定类型菌株的变化有关,可以采用比如毒力基因或菌株特异性标记等方法详细了解不同菌株的比例和差异。

多项合作成果发表于Nature communications、PNAS、Plant biotechnology journal、DNA Research、Environmental Science & Technology、Plant、cell & environment、Science of The Total Environment 、Gut Microbes 、Frontiers in microbiologyt、Journal of environmental management 等国际著名学术期刊。

近期发表文章目录

  • Li W, Zhang Y, Wu N, et al. Colonization characteristics of bacterial communities on plastic debris, influenced by environmental factors and polymer types in the Haihe Estuary of Bohai Bay, China[J]. Environmental Science & Technology, 2019. 
  • Mao Z, Li Y, Dong T, et al. Exposure to Titanium Dioxide Nanoparticles During Pregnancy Changed Maternal Gut Microbiota and  Increased Blood Glucose of Rat[J]. Nanoscale research letters, 2019, 14: 26. 
  • He Z, Kong X, Shao T, et al. Alterations of the Gut Microbiome Associated with Promoting Efficacy of Prednisone by Bromofuranone in MRL/lpr Mice[J]. Frontiers in Microbiology, 2019, 10: 978. 
  • Liu Y, Lu M, Zhang X, et al. Shift of the microbial communities from exposed sandstone rocks to forest soils during pedogenesis[J]. International Biodeterioration & Biodegradation, 2019, 140: 21-28. 
  • Lu H, Wang W, Li F, et al. Mixed-surfactant-enhanced phytoremediation of PAHs in soil: Bioavailability of PAHs and responses of microbial community structure[J]. Science of The Total Environment, 2019, 653: 658-666. 
  • Xu S, Wang W, Zhu L. Enhanced microbial degradation of benzo [a] pyrene by chemical oxidation[J]. Science of The Total Environment, 2019, 653: 1293-1300. 
  • Ji C, Yan L, Chen Y, et al. Evaluation of the developmental toxicity of 2, 7-dibromocarbazole to zebrafish based on transcriptomics assay[J]. Journal of hazardous materials, 2019, 368: 514-522. 
  • Ju M, Liu Y, Li M, et al. Baicalin improves intestinal microecology and abnormal metabolism induced by high-fat diet[J]. European journal of pharmacology, 2019: 172457. 
  • Wu H, Li Y, Zhang W, et al. Bacterial community composition and function shift with the aggravation of water quality in a heavily polluted river[J]. Journal of environmental management, 2019, 237: 433-441.
  • Xia H, Wu Y, Chen X, et al. Effects of antibiotic residuals in dewatered sludge on the behavior of ammonia oxidizers during vermicomposting maturation process[J]. Chemosphere, 2019, 218: 810-817. 
  • Sun Y, Geng W, Pan Y, et al. Supplementation with Lactobacillus kefiranofaciens ZW3 from Tibetan Kefir improves depression-like behavior in stressed mice by modulating the gut microbiota[J]. Food & function, 2019, 10: 925-937. 
  • Wu S, Qiu J, Gao Q. QTL-BSA: A Bulked Segregant Analysis and Visualization Pipeline for QTL-seq[J]. Interdisciplinary Sciences: Computational Life Sciences, 2019: 1-8
  • Liu H, Pan L, Lv S, et al. Alterations of Gut Microbiota and Blood Lipidome in Gestational Diabetes Mellitus with Hyperlipidemia[J]. Frontiers in Physiology, 2019, 10: 1015. 

1