技术

微生物浅宏基因组科研测序服务

产品介绍

宏基因组测序方案是针对16s分辨率和宏基因组高成本之间的一个折中方案,通过降低测序深度,每个样本100万reads左右,但是物种的分辨率并没有一般宏基因组(普遍5~10G数据量)差很多。 不通过拼接组装,直接基于kraken2等kmer,或MetaPhlAn2等标记基因的参考基因组方法进行种属丰度分类。结合其到菌株的物种分类和丰度数据可较16s方案下的PICRUST更加准确的预测基因构成。

产品特点

比较适合想要获得更全和更精细分类精度而同时不需要获得完整基因组序列和重建菌群基因的,浅宏基因组测序就可以成为很好的选择,其成本低,分析简便快速,同样能获得宏基因组的基本丰度数据。

适用范围

不过浅宏基因组也有其适用范围,根据样品类型的不同,一些样品可能包含 >99%的人类宿主DNA,这不仅增加了序列成本,而且给测量带来了不确定性。
在许多研究中也会采取在进行宏基因组测序文库的准备之前去除宿主DNA的方法。但是,在去除宿主DNA后,可能没有足够的微生物基因组DNA用于宏基因组测序,这通常需要最少50ng的输入。

浅宏基因组较适合于宿主DNA含量较低的样本如:人类粪便、水体、土壤等;

不太适合:口腔唾液、肺泡灌洗液、血液等人体体液类样本。

我们可以免费提供针对粪便及环境样本助力临床/科研取样。
人体口腔、痰液、腹水、脑脊液、尿液、皮肤、阴道分泌物等高寄主细胞含量样本可根据我们的处理方案简单处理后大幅降低宿主DNA比例。

参数介绍

测序平台:Illumina Novaseq,PE150,默认:100万reads/样

价格周期

低至300元/样,2周左右出报告

报告内容

测序深度分析

当测序深度达到50万reads以上,浅宏基因组与深度测序宏基因组在主要物种构成的丰度已经基本一致。如下图所示:

谷禾优势

样本需求量低:公司研发实现了低当量微生物样本提取和建库,保证提取丰度以及片段完整性同时,样本量需求低于同行其他公司要求;对于样本获取困难的样本,也可以选择微量建库,样本量可低至10ng。

免费取样盒和针对性取样建议:粪便及环境样本提供取样盒助力临床/科研取样,人体口腔、痰液、腹水、脑脊液、尿液、皮肤等高寄主细胞含量样本可根据我们的处理方案简单处理后大幅降低宿主DNA比例。

 严格标准的实验流程:自动化样品处理平台辅助,每轮设置阳性对照,上轮检测样本对照,阴性对照。评估污染,轮次比对,最大化减少误差,保证样本重复性和稳定性

Illumina测序平台:宏基因组测序(PE150)采用先进的Illumina Novaseq测序平台,快速、高效地读取高质量的测序数据、结合样品特点和数据的产出,充分挖掘环境样品中的微生物菌群和功能基因

大数据分析流程质量流程控制严格:优化的数据质量控制,包括过滤比对质量低、非特异性扩增、覆盖度低、低复杂度的序列,从而快速准确获得样本中微生物信息及其丰度信息,最大化提高质量数据

分析内容丰富全面:物种分析,基因预测与分析,多样性和相似性分析,功能分析,网路互作分析,代谢网络,关联分析等

完整详细的报告:提供质检实验报告,分析统计报告,分析报告解读,原始数据

 高效个性化服务:在线项目系统方便您及时查看项目动态和下载报告以及与分析人员高效交流,免费支持个性化图表修改以及重新分组出报告。

 价格低,周期快:包括提取,测序到分析,最快2周出报告。

大数据分析团队和多中心大项目分析经验(团队主要源自浙江大学,包括生物信息学,计算机,微生物以及统计分析等专业,积累了多年的大健康项目多中心项目分析经验,有助于多样本,多表型,多组学联合分析

若需要进一步了解咨询,可以致电联系我们

科研路漫漫,谷禾与您常相伴!

多快好省的宏基因组研究技巧

原创 谷禾健康

近年的研究热点集中于环境和生物体相互作用的微生物群体,而大量复杂的微生物群体存在培养困难,构成复杂(包括细菌、古菌、真菌、原生生物、病毒甚至小型真核生物)。因此如何用高通量精准的了解这些群体的构成,基因功能分布以及具体的表达活性和代谢状况成为首要问题。

高通量测序技术的发展,让我们可以不经过培养,一次性了解微生物群落构成甚至基因代谢组成。

随着技术的进步,检测方法也逐渐丰富,对应的分析手段和软件算法也逐步完善,使我们可以根据研究需要选择不同的检测和分析策略来获得海量的数据并进行相应的研究分析。

01

简 介

免于培养的微生物学研究方法主要基于测序,高通量测序使我们一次可以获得整个微生物群体的数据信息,简单来说包括两种策略:

1、基于特定标记基因的扩增测序方案(常见的16s,ITs,18s或特定功能基因)

2、对整个群落DNA进行测序,获取全部微生物基因组进而进行分类和功能分析的策略(鸟枪法宏基因组测序shotgun metagenomics)。

基于16s基因的分析方法

由于其极低的成本,对于样本DNA的低要求非常适合于大规模群体样本的调查和分析,随着DADA2等分析方法的改进,物种分类精度和准确度也有所提升,加上PICRUST等功能预测方法一定程度上弥补了基因信息的缺失,因此16s这类基于基因的微生物研究方法仍然是不可或缺的方案。

下表列了16s常见的分析软件,目前QIIME2作为整合包使用最为方便,VSEARCH也作为UPARSE的开源版本使用也非常广泛。

16s测序的分析流程如下图,获得序列经过聚类后获得OTU或ASV,并得到相对丰度。

经过PICRUSt可以得到预测的基因分类丰度,进而进行alpha多样性和Beta多样性以及组间差异和相关性分析。

PICRSt的工作原理如下图,将OTU表内16s序列进行对应物种16s拷贝数标准化后,将物种丰度乘以已经整理好的物种的基因注释数表就获得基因的预测丰度。

02

浅宏基因组

浅宏基因组测序方案是去年knights-lab在msystems上发表的针对16s分辨率和宏基因组高成本之间的一个折中方案,通过降低测序深度,每个样本50万reads,但是物种的分辨率并没有低于一般宏基因组(普遍5~10G数据量)。

不通过拼接组装,直接基于kraken2等kmer,或MetaPhlAn2等标记基因的参考基因组方法进行种属丰度分类。结合其到菌株的物种分类和丰度数据可较16s方案下的PICRUST更加准确的预测基因构成。

Hillmann B, Al-Ghalith GA, Shields-Cutler RR, Zhu Q, Gohl DM, Beckman KB, Knight R, Knights D. 2018. Evaluating the information content of shallow shotgun metagenomics. mSystems 3:e00069-18. https://doi.org/10.1128/mSystems.00069-18.

我们发现有些小伙伴的需求是:

想要获得更全更精细分类精度同时不需要获得完整基因组序列和重建菌群基因的。

那么这时候,我们提供的浅宏基因组测序就可以成为很好的选择,其成本低(快要接近16s测序分析的价格了,文末有福利),分析简便快速,同样能获得宏基因组基本丰度数据。不过浅宏基因组也有其适用范围,根据样品类型的不同,一些样品可能包含 >99%的人类宿主DNA,这不仅增加了序列成本,而且给测量带来了不确定性。

在许多研究中也会采取在进行宏基因组测序文库的准备之前去除宿主DNA的方法。但是,在去除宿主DNA后,可能没有足够的微生物基因组DNA用于宏基因组测序,这通常需要最少50ng的输入。因此浅宏基因组较适合于宿主DNA含量较低的样本,如人类粪便、水体、土壤等;而如口腔唾液、肺泡灌洗液、血液等人体体液类样本就不太适合。

下图是宏基因组测序数据中比对到人类基因组的序列比例,根据样本类型不同而不同。

我们可以免费提供针对粪便及环境样本助力临床/科研取样。

人体口腔痰液腹水脑脊液尿液皮肤阴道分泌物等高寄主细胞含量样本可根据我们的处理方案简单处理后大幅降低宿主DNA比例。

处理方案如下:

高宿主含量DNA样本(包括唾液、血液、肺泡灌洗液、腹水、阴道分泌物和黏膜类样品)的取样前处

将200微升唾液等体液样本以10,000g离心8分钟 

弃去上清液,通过移液将细胞沉淀重悬于200μl无菌水中,短暂涡旋,然后在室温下静置5分钟,以渗透压裂解哺乳动物细胞

添加终浓度为10μm的PMA(叠氮溴化丙锭)(向200μl样品中添加10μl的0.2 mM PMA溶液),并将样品短暂涡旋,然后在黑暗中于室温温育5分钟

然后将样品从标准台式荧光灯放置在<20cm的冰上水平放置25分钟,短暂离心并每5分钟旋转一次

完成后,可将样品冷冻在−20°C或转移到取样管的储存液中

Marotz CA, Sanders JG, Zuniga C, Zaramela LS, Knight R, Zengler K. Improving saliva shotgun metagenomics by chemical host DNA depletion. Microbiome. 2018;6(1):42. Published 2018 Feb 27. doi:10.1186/s40168-018-0426-3

本处理方案以后宿主DNA可以降低8%以下。

03

宏基因组

说起宏基因组,对于熟悉宏基因组或者打算做宏基因组的同学可能已经迫不及待想知道这个怎么分析啊,怎么看结果啊之类的问题… 但在这之前,首先你应该了解的是宏基因组是什么,做宏基因组你能得到什么。

此外,对于缺乏深度研究和高质量参考基因组的样本,如土壤和特殊环境下的样本,宏基因组获得的较为完整的基因组不仅可以丰富参考基因组数据库,同时可以提供更加准确的物种分类

因此,深度宏基因组测序是解析新环境样本的核心方法,不过从单一样本中重建出完整的菌株基因组有相当困难,一般需要较多样本设置梯度样本从而利用更高深度和共同变化来获取分箱信息,当然对应测序和分析成本会更高。

至此,我们了解了16s、浅宏基因组、宏基因组三种方式,我们将它们各自的特点总结如下表,便于你更直观地去了解(文末有福利~)。

宏基因组报告中有哪些分析内容?

上图可以快速预览一下我们报告中的分析内容。

接下来,我们会详细介绍这些内容是如何从原始数据开始一步步实现的,同时也会选取一些文章案例来给大家做详细解读,希望给大家带来一些思路。

数据分析流程

测序数据需要经过质检去除接头和低质量序列,一般还会进行一步过滤人的基因组序列,然后分为两个路径,使用参考数据的比对方法和从头组装的方法,下图是一个完整的宏基因组分析流程

看完上图,可以对宏基因组测序的基本流程有个大致了解。

对于宏基因组测序而言,最重要的就是获得微生物群准确的物种构成及其丰度

一、 物种构成

首先你需要了解的是无论16S测序还是宏基因组测序获得的均是相对丰度,即每种菌占所有菌属的比例

要获得绝对的丰度需要在取样时做好取样量的计量,并在提取和建库中加入已知绝对量的参照DNA。

宏基因组测序获得物种构成及其丰度有以下两条路可以走:

我们先讲其中之一: 直接比对 。

直接比对是基于参考数据的,那么基于参考数据的物种构成分析主要有两类方法:

一类是基于Kmer和LCA比对特征来分析对应物种丰度,如kraken2等。

另一类是基于特征标记基因进行分析的,如MetaPhlAn2等。

基于参考基因组的分析工具如下表:

除了上面表中列出来的,另外还有

Centrifuge:比kraken2慢2x,内存使用少很多

Sourmash:类似CLARK,可以使用整个refseq作为数据库。

主流的kraken2——快速、准确度高、内存要求高

目前主要使用kraken2为主,因为快速准确度也相当不错。不过,对于内存的要求较高,另外受数据库本身质量影响较大,默认kraken2的参考数据库只包括了细菌、古菌、病毒和人,还需要添加其他域的参考基因组。但涵盖的测序参考种仍然有限,对于菌株水平的鉴定受一定影响。后续使用Bracken可以针对kraken2的比对结果进行计算相对丰度

MetaPhlAn2——物种跨度大、实用

MetaPhlAn2首先从全基因组数据库中找出clade-specific marker genes,然后利用这个marker genes的数据库对高通量测序得到的shotgun序列进行注释,目前主要用于后面直接使用reads获得基因和代谢通路丰度的HUMANn2的流程中,其物种跨度较大,速度也可以接受。

以上我们了解了直接使用reads获得丰度。

如果有足够测序深度样本数量还可以通过组装出参考基因组来鉴定获得。该部分我们在下面的组装和分箱流程部分详细讲。

接下来,看一下我们报告中获得的结果和图:

使用Kraken2对其中的微生物进行物种注释。我们的Kraken2使用的数据库是由Refseq(2020.04.20)细菌,古细菌、真菌、原生动物和病毒库以及GRCh38人类基因组构建的。

通过查询数据库序列中的每个k-mer,然后使用所得的LCA分类单元集确定序列的适当标签,对序列进行分类。数据库中没有k-mers的序列不会被Kraken2分类。这里我们是在使用k-mer=35的条件下进行物种注释。

使用Bracken对物种注释结果计算相对丰度。Bracken是一种高度精确的统计方法,可从宏基因组学样本计算DNA序列中物种的丰度。Braken使用Kraken2分配的分类标签来估计源自样本中每种物种的读数数量。

对物种注释结果使用 KRONA 进行可视化展示。

注:圆圈从内到外依次代表不同的分类级别(界门纲目科属种),扇形的大小代表不同注释结果的相对比例。

上面的是使用KRONA对单个样本的构成图形化,所有样本合并使用柱状图就可以了解具体的样本构成丰度,从门-纲-目-科-属-种-甚至菌株每个层次都可以进行显示(下面是截取我们报告中的相关图)。

如果嫌柱状图的展示方式单一,当然也可以有别的选择。比如说以Circos的环图形式展现:

也可以进行聚类分析

有了这些数据我们就可以进行alpha多样性(指每个样本内部菌群多样性)的分析了。

各样本和多组之间也可以进行Beta多样性的比较分析:

计算样本之间的菌属构成相似度

组间的差异分析:寻找差异或代表性菌属,如下:

Trukey多组间检验

LefSe分析

其中LEfSe基于线性判别分析(Linear discriminant analysis,LDA)的分析方法,筛选组与组之间生物标记物Biomarker(基因、通路和分类单元等),即组间差异显著物种或基因。当分组较多时较难获得每个分组独特的Biomarker。

以上是关于物种组成部分,但是有些小伙伴会有这样一些疑惑:物种构成变化很大怎么办?个体差异也很大?之类的诸多疑问。

是的,微生物群落一般对应特定的环境,其物种构成有时候变化迅速,而且个体或不同地点的构成差异极大。如人体的肠道菌群,个体之间的菌群构成差异很大,仅少量核心菌在绝大部分人的肠道内出现,个体特异性菌株也非常常见。那么如此多样性和复杂的构成如何应对相似的环境呢?

研究显示不同的菌属可能有着相似的基因或代谢能力,差异极大的种属在基因功能层面可能有着相似的构成。因此,获得微生物群的基因和功能代谢构成及分布对于解释和了解微生物如何响应和适应环境就尤为重要。

二、功能构成

下图可以帮你更好地理解上面这段话。从图中我们可以看到,舌背样本和粪便样本虽然在种属上有很大差异,但它们在基因功能层面却有着相似的构成。

与物种构成丰度的分析类似,基因功能构成分析也同样可以包括两种方法:

方法一、通过直接基于reads的参考数据库方法获得

方法二、通过组装后预测注释基因并得到丰度

在具体展开方法之前,我们需要先了解关于基因功能的基本概念。

基因功能

每个菌的基因组中都包含大量的编码基因(ORF)以及非编码的RNA。这些基因之间又存在同源或序列相似性,达到一定相似程度的称为同源基因(一般通过CD-hit聚类为unigene,gltA这类基因名称,而数据库中一般聚类为如uniref90,eggNOG_ortholog等不同相似度的非冗余基因),这些同源基因除了序列相似同样也有着相似的功能,基于其功能或具备的蛋白功能域可以进一步分类为基因家族(Pfam),酶(EC 1.4.1.13),代谢通路(ko:K00266),更进一步层层分类为GO或顶层代谢通路Metacyc或COG等。

我们先来看方法一具体是如何操作的?

主流的HUMAnN2——获得基因和代谢通路丰度的同时可直接进行下游分析

基于测序原始序列直接获得基因构成丰度的软件目前最主要的是HUMAnN2,其首先使用MetaPhlAn2进行物种分类(关于这个软件我们在前面物种组成部分已经讲过),并提取相应物种参考基因组用于比对,未比对上的用于进一步和uniref数据库进行蛋白质序列比对。原理见下图:

HUMAnN2的便利之处在于获得基因和代谢通路丰度的同时可以直接进行下游分析,将导出的表用于如LEFSE等差异分析,此外还可以反向给出不同样本中每个基因或代谢通路里的物种贡献。

下图是基于HUMAnN2的不同代谢通路的菌贡献比例图:

在我们的宏基因组报告中获得的是这样的:

而另外一种方法是通过组装获得,我们在前面物种构成小节也已经提到过组装分析,那么这里我们就组装拼接分析这部分展开讲解一下。

三、基于组装拼接的分析

什么样的条件下可以进行组装分析?

测序深度足够的情况下,目前illumina二代和Pacbio以及Nanopore等长片段测序技术已经足以组装出高质量的细菌基因组草图,结合Binning方法可以一次性获得大量物种的高质量接近完成基因组。此外还有Hi-C等手段可以进一步完成基因组以及对应质粒的完整拼接。

组装的流程是什么样的?

来看一下整个基于组装的流程:

① 提取、测序

首先从样本中提取基因组DNA,进行测序,可以使用Illumina的段片段深度测序也可以辅助三代长片段测序。

② 获得contig序列

接着对序列经过质检过滤处理后直接使用序列进行拼接,获得contig序列,这时通常每个菌的基因组会有几十到数千个contig片段,由于构成复杂,很多近缘菌之间的基因组存在大量相似序列,以及每种菌丰度都不一致,所以contig阶段的片段仍然较多。

③ Binning分析 

基于序列构成特征如GC含量、核苷酸多态性、覆盖度以及基因的物种相似度等多种数据,如果有多个样本或梯度可以同时结合样本丰度变化来进行分箱也就是Binning分析,将具有相同特征和变化的contig聚类归为同一个来源的箱,每个bins通常来自单一菌也就是一个菌株的基因组(我们的数据分析中包含这部分分析内容)。

④ 进一步质检评估

之后会进行进一步的质检,如checkM等评估每个Bin的完整度(核心基因以及rRNA等的完整性)和污染比例(如错误拼接,不同物种来源等)。一般要求50%以上的完整度以及10%以下的污染,当然样本数量越多,测序深度越高,测序读长越长理论上binning的质量也会更好,能获得更多高质量的单一菌完整基因组。

借用一张分箱的说明PPT:

目前组装contig方面比较好的软件主要是SPAdes和MegaHIT。分箱方面MetaWRAP流程可以将整个组装和分箱优化全部完成,包括前期质检到组装以及使用三种分箱方法concoct, metabat2和maxbin2,并最终进行合并提纯优化,输出最终的分箱。

同时还可以对每个分箱bins进行物种鉴定和定量,这样我们就可以获得基于拼接组装后的物种丰度构成表,开展上述的物种多样性和样本差异统计分析。

⑤ 注释

最后使用PROKKA进行基因预测,获得的编码序列我们经过进一步CD-Hit聚类去冗余,然后使用eggNOG-mapper对其进行进一步的功能比对注释。使用salmon完成基因的定量,这样我们就得到基于组装注释的基因丰度数据了。之后就可以进行基因和功能层面的多样性构成以及样本和组间差异分析

我们获得的最基础的uniref,eggNOG,KEGG和GO等注释如下:

KEGG

COG

eggNOG

组间差异分析,如KEGG途径:

除此之外,还可以使用其他的功能基因数据库来进行进一步的基因注释和分析。比如:

CAZy:

VFDB毒力因子注释:

抗性基因注释:

TCDB数据库注释:

PHI数据库注释:

BCGs分析:

以及基于antiSMASH和BiG-SCAPE来对代谢物的合成生物基因簇BCGs进行分析。

固定代谢能力评估:

或更聚焦于特定代谢的如下图中的氮、磷、硫和碳固定代谢能力和水平的评估:

当有了大量样本的菌群构成丰度信息,以及各种基因和代谢丰度数据后,我们需要根据样本的meta信息,基于不同分组,时间或环境因子等数据进行统计分析和检验进而发现和探索可能的关联以及背后的生物学意义

四、统计检验

那么在面对宏基因组这类数据时在进行统计检验分析时需要注意什么呢,应该采用哪些分析,并如何解读这些结果呢?

首先,微生物组数据分析分为四大类:

在对所有数据进行统计检验前一般建议对数据进行基本的质量过滤。一类是去除绝大部分样本都不存在的物种和基因,如Prevalence in samples (20%),还有一类是去除变异度过小的Percentage to remove (10%)基于Inter-quantile range。

为什么可以过滤这两类?

上述的两类由于其携带的信息量和变化过小在进行组间比较统计检验的时候都建议过滤,因为要么是污染,要么与差异无关。

宏基因组数据具有一些独特的特征,例如测序深度的巨大差异稀疏性(包含许多零)和分布的巨大差异(过度分散)。在进行后续的统计检验之前建议针对不同的分析方法进行相应匹配的标准化处理。标准化包括:

Rarefaction和缩放方法:这些方法通过将样本放到相同的比例进行比较来处理不均匀的测序深度;

转换方法:包括处理稀疏性,组成性和数据中较大变化的方法。

那么各种标准化方法是什么,应该选择哪种方法?

参考MicrobiomeAnalyst网站提供的信息,以下是一个简短的介绍:

请注意,数据标准化主要用于可视数据探索,例如beta多样性和聚类分析。有时候不使用标准化也能获得最佳结果,比如:单变量统计和LEfSe。

同时,其他比较分析将使用其自己的特定标准化方法。例如,对metagenomeSeq使用累积总和定标(CSS)标准化,对edgeR应用M值的修剪均值(TMM)。

经常有小伙伴问,这个数据是用的什么标准化?没有做标准化怎么办?这类问题。

目前,尚无关于应使用标准化的共识性指南。建议大家可以探索不同的方法,然后目视检查分离模式(即PCoA图)以评估不同标准化程序对实验条件或其他感兴趣的宏基因组数据的影响。

有关这些方法的详细讨论,请参考使用者最近发表的两篇论文 

①  Paul J. McMurdie等

https://doi.org/10.1371/journal.pcbi.1003531)

② Jonathan Thorsen等

http://doi.org/10.1186/s40168-016-0208-8

以上是关于标准化的这部分内容需要了解的知识,接下来我们来看具体如何操作,怎么得到那些图表?它们分别代表什么?

一般我们需要先进行探索性分析,也就是不设预订的假设,首先从主成分分析结果中了解样本的菌属和基因的大概分布

主成分分析是根据不同距离算法计算样本之间的距离矩阵,然后进行降维,最终形成一个三维的空间分布。样本之间在空间上分隔越远表明样本之间的差异越大。

比如我们报告中的下图,疾病和正常样本可以较好的区分,一般此处我们还会进行一个统计检验,来判别PC1和PC2这几个维度上两组之间是否真的存在统计差异。

基于丰度图来评估各样本和分组的基本构成,如:

之后我们可以针对不同分组或处理之间的样本进行统计检验,可以使用的检验方法包括两组间的非参数统计检验T-test/ANOVA,3组以上组间统计检验可以使用Tukey test,其直接生成各组将的统计差异,并提供字母标注,直观简便,如:

具体的统计方法选择可以参考下表:

除了常规的非参数检验外,包括metagenomeSeq和DEseq以及edgeR等统计方法包可以很好的分析组间差异特征。LEfSe则一般用于寻找特征标志物。

那么有了大量的差异特征菌属或基因之后,我们是否能基于这些差异菌属有效的区分不同的分组呢,或构件一个模型来预测或分类呢?

这时候可以使用随机森林(Random Forest)一类的决策树机器学习模型,来利用这些差异特征构建分类模型,并使用AUC等指标来评估基于这些模型的预测有效性和准确度(我们报告中如下图)。

当然也可以使用其他更复杂的如深度学习等方法来构建分类模型。

除了性别、疾病、地点等分类差异之外,我们通常还有很多元数据,包括临床指标环境因子等信息,这些数据通常是连续型数值,对于这类数据我们可以进行相关性分析

当然反过来,将菌群特征作为表型也可以和如基因组的基因型或SNP构成来进行相关性分析

对于菌群数据的相关性分析比较推荐:

SparCC方法,可以构建菌种或菌属之间的相关性网络,相对稳定。

对于与疾病或环境变量进行相关性分析可以使用:

Sperman秩相关分析

另外RDA/CCA分析也可以有效的反映菌属与环境因子等指标直接的关系(我们报告中如下图)。

Mentel检验也可以用于判断菌群构成特征与单个或一组环境因子之间是否存在显著相关

要 点 

宏基因组从大量菌群和基因构成中寻找关联是需要足够的样本量才能达到有效的统计效力,因为一次性获得了大量的特征数据,样本量过少会带来统计结论的无效,越是组内差异大,组间差异小的研究足够大的样本量才能得到可靠的结论。

一般动物样本具有较好的背景可控,组内样本数量建议至少6个,而人群研究由于背景复杂,个体多样性高,一般建议组内50例以上较好。

以上看完后,你应该对宏基因组的数据分析流程有了整体的认识,也学会了相应的一些操作,但是不一定能直接从自己的这些数据、图表中真正探索到和实际生物学相关的有价值的研究成果。

所以,我们又选取了一些已发表的研究作为案例,结合实际问题来具体分析,从实验设计到具体分析流程方法和图表的展示,再到相应的结论,掌握这类文章的总体思路。

之后无论是刚开始的实验设计,还是后面的分析,都会更加得心应手。

建议想好整个实验思路再开始(或者也可以咨询我们,我们专业的数据分析团队会为你提供切实可行的项目方案)。

04 案例解析

  < 案例一 > 肥胖患者的肠道微生物组

第一项研究是关于肥胖患者减肥手术后的宏基因组和代谢数据的分析研究。

文献来源:Aron-Wisnewsky J, Prifti E, Belda E, et al. Major microbiota dysbiosis in severe obesity: fate after bariatric surgery.Gut. 2019;68(1):70–82. doi:10.1136/gutjnl-2018-316103

研究纳入了61名严重肥胖的受试者,他们是可调节胃束带术(AGB,n = 20)或Roux-en-Y胃旁路术(RYGB,n = 41)的候选人。减肥手术后1、3和12个月随访24名受试者。使用宏基因组学测序和LC-MS分析肠道菌群和血清代谢组。另外纳入了10人和147人分别作为宏基因组和代谢检测的验证集。

研究思路

这样的设计分别有什么作用?

第一点持续的动态采样可以获得持续变化情况,尤其是在一个特定变化后(减肥手术),持续的最终采样有助于确认菌群的变化出现和特定事件或生理病理变化的前后,尤其是在确定因果中有重要帮助。

第二点获得多维的数据有助于帮助我们全方位的了解菌群变化背后的带来的生理和代谢变化以及之间的关联。

第三点独立验证集的存在将大大增强研究的可信度,尤其是该研究纳入的样本量并不多,无法全面有效的控制无关因素,使得很多统计检验的效力无法显现。这也导致该研究仅在基因总量和多样性上获得较好的重复效果,而更多的菌群精细特征以及具体基因和代谢通路没有得到深入分析。但是独立验证集保证了核心结论的可靠性和重复性,这点在宏基因组研究中非常重要。

从下图可以看到研究针对样本的总基因多样性水平生理指标和疾病状态进行相关性分析和组间差异分析,图中给出了显著相关和差异的指标。

使用的统计检验方法是pearson和sperman相关和t-test以及Kruskal-Wallis检验。

下图是研究将MAGs与各项生理和代谢值进行相关性分析后的热力图。该研究由于测序较早,并未独立拼接,而是直接使用了之前一项人类肠道菌群研究获得组装基因组参考序列。

进一步研究分析了术后特定变化模式的MAGs以及它们与代谢生理指标的相关性,见下图:

上图的研究可以通过pattern search的方法寻找特定变化模式的菌种。

研究的主要结论发现是低基因丰富度(LGC)存在于75%的患者中,并且与躯干脂肪质量和合并症(2型糖尿病,高血压和严重程度)增加相关。LGC改变了78种宏基因组种(MGS),其中50%与不良的身体成分和代谢表型有关。九种血清代谢产物(包括谷氨酸盐,3-甲氧基苯基乙酸和L-组氨酸)和含有参与其代谢的蛋白质家族的功能模块与低MGR密切相关。术后一年,BS会增加MGR,但尽管RYGB患者的代谢改善比AGB患者大,但术后一年的MGR仍然很低。

点 评 :

总体而言该项研究可以使用浅宏基因组(在文章开头第二部分详细介绍过)来完成所有测序和分析,进一步扩大样本数量,如果能同时获得人的转录组数据甚至能更加明确的找到菌群变化与特定代谢通路的关联关系。

 < 案例二 >  食物与人类肠道微生物组

第二项研究是Dan Knights实验室发表在Cell Host & Microbe,2019的一篇针对34个人17天每日饮食和菌群变化的相关研究,试图揭示日常食物选择与人类肠道微生物组组成之间的精细关系

文献来源:Johnson Abigail J,Vangay Pajau,Al-Ghalith Gabriel Aet al. Daily Sampling Reveals Personalized Diet-Microbiome Associations in Humans.[J].Cell Host Microbe, 2019, 25: 789-802.e5.

可以看到,研究同时记录了粪便样本的菌群宏基因组和每日的饮食记录。研究的核心在于将每日饮食的食物通过营养构成进行量化,并构建类似物种进化树的食物物候树

此外由于有每日的数据,可以通过前一日的食物与第二日的菌群数据进行时间序列分析,构建食物与菌之间的关联以及时间相关性。

最后基于菌群数据前一日饮食来构建模型预测判断后一日的菌群状态,帮助我们了解食物对于个体菌群的影响因素并实现定量和预测

研究中对数据的处理过滤标准如下:删除所有具有低读取计数(每个样品<23,500个读取)的样品。物种级别的分类表仅限于研究对象中至少存在25%的研究日,且在10%的研究样本对象中发现的那些物种。

最后,相对丰度<0.01%的稀有物种被丢弃,将物种数量限制为290个注释。将得到的分类表汇总到较高的分类级别(即属,科,门等),以进行下游分析。

菌群和饮食以及营养构成的堆叠图很好展现了变化和对应。

下面这张图很好的显示了饮食食物的变化与菌群变化之间的时间变化关系:

下面这张图通过对每个人单独进行菌属与食物的Spearman相关,展现了菌与食物之间的关联的个体化差异,在特定菌属对应相同食物不同人会出现完全不同方向的变化,这也正是这项研究所揭示的,这种关联关系的复杂性

点 评 :

本研究虽然有大量样本,但并未进行组装,而是直接使用了Refseq的细菌完成基因组序列作为参考。研究由于样本数量众多,测序深度也很有限,类似研究也可以使用浅宏基因组方式完成。

  < 案例三 >  类风湿关节炎的人群肠道微生物组 

接下来的一个研究是比较典型的宏基因组组装并与疾病进行关联分析的案例,研究的是日本人群类风湿关节炎的肠道微生物组的全基因组关联研究。

文献来源:Kishikawa Toshihiro, Maeda Yuichi,Nii Takuroet al. Metagenome-wide association study of gut microbiome revealed novel aetiology of rheumatoid arthritis in the Japanese population.[J] .Ann. Rheum. Dis., 2020, 79: 103-111.

研究使用较高深度的宏基因组shotgun测序(每个样本平均13 Gb)对日本人群(病例 = 82,对照 = 42)进行了RA肠道微生物组的MWAS分析。MWAS由三个主要的生物信息学分析渠道(系统发育分析、功能基因分析、途径分析)组成。

使用了之前研究中6139个完成拼接日本人肠道宏基因组作为参考序列以及其他几项研究的参考基因组,在过滤部分种过多的基因组之后,最后一共使用了7881个参考基因组。

将QC后的序列直接比对到参考基因组,并根据基因组长度计算对应物种的相对丰度。

基因方面选择denovo组装,使用MegaHIT,然后再contig上完成ORF预测和CD-HIT聚类去冗余,最后与UniRef和KEGG数据库比对

最后使用bowtie2将测序序列比对到注释后的unigene序列上获得基因丰度,经过KEGG注释得到代谢途径的丰度。研究的数据处理流程图如下:

在数据分析流程和方案选择上人体肠道菌群由于研究众多,以及有多个深度测序拼接完成的Binning参考基因组数据集,确实可以直接使用参考基因组直接比对。

对于其他一些环境或来源的样本这个深度的数据量可以考虑独立拼接和分箱。该研究中使用已有参考基因组,大概88%的序列能比对到参考基因组,如果直接组装这个比例应该可以更高一些。另外在获得基因丰度是可以考虑使用Salmon,比对获得基因丰度更为方便。

获得相应数据后对相对丰度,该研究使用Box-Cox transformation对数据进行标准化,并过滤了一些低丰度的菌属。Case-control的相关性分析使用的R的glm2模块,将年龄、性别和测序上机分组作为协变量。

对于菌属的关联分析,最终将显著性结果以火山图和GraPhlAn图的形式展现如下:

上面其中D图使用每个菌的丰度进行UMAP分析,并映射关联效应的展示比较有意思。

不过在基因层面上并未找到相应的关联,可以看到下图UniRef90的NMDS分布图两组之间无法有效区分,多样性也没有显著差异。

点 评 :

这项研究在菌层面发现了多个普雷沃氏菌属的菌在日本人群中与类风湿性关节炎存在关联,不过除此之外其他方面的发现并不多,仅找到一个基因存在显著关联,涉及的临床调查也相对有限,且人群队列数量不算多,并无独立验证集,因此亮点并不多。如果能纳入免疫相应指标可能能研究的更细致一些。

  < 案例四 > 永冻土中参与有机物降级的关键菌群

最后这项研究是对来自永冻土融化梯度的214个样品的宏基因组测序组装了1,529个基因组,揭示了参与有机物降解的关键种群,包括其基因组编码先前未描述的木糖降解真菌途径的细菌

文献来源:Woodcroft Ben J,Singleton Caitlin M,Boyd Joel Aet al.Genome-centric view of carbon processing in thawing permafrost.[J] .Nature, 2018, 560: 49-54.

通过宏基因组denovo组装分箱Binning,最终获得了1529个永冻土菌群基因组。基于这些数据描绘了永冻土融化梯度下的菌群构成特征,如下图。

论文是2018年发表的,测序是在2011和12年测的,使用的是CLC Genomics Workbench 较早的4.4版分单样本组装,然后使用MetaBAT进行分箱,最后的标准是70%完成度和低于10%的污染。

其中糖苷水解酶基因使用dbCAN数据库的HMM进行预测,碳代谢使用KEGG数据

研究还同时选择了部分样本进行了宏转录组和宏蛋白组的测序,对碳代谢同时结合转录组和蛋白组的数据,展现了特定通路下不同永冻土的菌群构成和表达丰度差异

基因组拼接的分布情况,以及不同地域样本分布和菌属丰度情况如下:

木糖降解途径在每个样本中的分布和维恩图,另外详细的展现了主要门对每个代谢途径的贡献和基因表达丰度,如下图:

这张图分析了特定菌与地理位置和CO2以及甲烷的浓度的关联性,如下图:

对关键物种的CH 4 :CO2浓度比相关代谢途径的重建,以及相应基因的基因家族分析。

点 评 :

总结一下这项研究,永冻土的菌群参考基因组数据缺乏,该研究从大量地点采集样本重建了1500多个参考基因组。

首先从物种构成特征上与永冻土融化阶段特征进行分析,并与重要环境因子进行分析,锁定重要的特征菌。

然后针对重要的代谢途径关键基因结合宏转录组和宏蛋白组全面解析代谢途径的分布和差异变化。对关键的物种重建了相关代谢途径并对其相关基因家族进行分析。

研究基本上从头构建了一个生态环境下的菌群结构数据,并利用获得的基因组深度解析特定代谢途径和基因的构成和表达变化,应该说既宽又深。很多样本采集和测序是2011年和 2012年就开展的,虽然测序技术远不如现在成本低和成熟,但是其独特的研究对象和全面深入的分析仍然使整项研究和目前的一些研究相比完成的更加出色。

p.s. 以上展示的图表,我们都可以帮你实现~ 

05 工具分享

 一、 MicrobiomeAnalyst 

网址:https://www.microbiomeanalyst.ca/,只需要biom文件或丰度表就可以进行绝大部分统计检验分析,而且生成图表完整,可以直接使用。偶尔会有服务器不稳定,上传提示错误的情况。

特别推荐其中的Taxon Set Enrichment Analysis模块,直接提交物种列表(一般是找到的差异物种列表),可以直接在各种已有的相关性(人体基因-菌属相关,生活方式-菌属相关,疾病-菌属相关)中进行富集分析,能很好的帮助判断和提供差异菌群的具体关联和证据支持。

完整的支持分析包括:

可以直接生成下面的图:

基本上常见的分析和图都能在线实现。

 二、 gcMeta 

另一个是https://gcmeta.wdcm.org/,是中科院微生物研究所搞的平台,里面包括了宏基因组的样本数据和在线分析平台,可以直接上传原始数据,直接使用工具进行在线分析,大部分常见工具都有,也有一些流程。

对于缺乏计算资源或想自己动手分析的朋友挺友好的,非常推荐试试看。

最后,帮大家整理了宏基因组可投稿的期刊,具体研究方向和影响因子见下表:




来源: 谷禾健康

分享|破解菌群检测应用于多疾病临床辅助诊断应用的难题

越来越多小伙伴开始关注我们产品的同时也会对产品的准确性,检测使用的技术等产生强烈的好奇日常提问:

检测后能得到什么有用的信息?

这个结果的准确性如何?

通过检测能直接区分患者和健康人吗?

同个人过一段时间做菌群变化大吗?

取样时间不同影响大吗?

疾病之间会不会相互干扰?

……各种问题层出不穷今天就为大家详细解答

以下是分享原文。

非常高兴有机会在这里跟大家分享我们这几年在肠道菌群检测应用于临床和健康管理方面的尝试,以及我们的一些经验。

谷禾成立于 2012年,是最早从事肠道菌群健康事业的公司,技术骨干源自浙大。建立了完整的pcr分子实验室。

我们比较专注,一直在做肠道菌群检测,从整个样本量来说,我们更关注来自于临床的有病理的信息,以及临床辅助诊断的数据样本。所以我们在这方面积累了相当大一部分的数据集。

而且这些临床样本相对来说,对于我们后续将肠道菌群检测应用于临床辅助诊断当中有很大的帮助。

我们其实不只是检测一下肠道菌群的构成,以及哪些菌有异常,我们是希望将肠道菌群检测直接做成一个临床辅助诊断的产品。

不只是告诉你可能有哪些疾病风险,我们希望可以直接给出包括结直肠癌、胃癌、甚至肝癌、抑郁症、自闭症的临床辅助诊断提示

从这个角度上来说,可能跟目前已有的检测,包括这几天嘉宾分享的一些研究,可能就会有很大的不同。

你可以通过检测找到很多肠道菌群构成的显著性差异,比如自闭症患者跟健康人之间有相当大一部分的菌是存在丰度上的显著差异,但是:

能不能准确告知,哪个是自闭症患者,哪个是健康人,或者是他甚至有中间型的状态?

那么这个过程当中就需要解决几个问题。

第一个问题,首先是准确度

不仅仅是告诉你一个概率的问题,而且需要临床辅助诊断,那么就需要提高样品的处理本身,以及疾病诊断模型的准确度。

第二个是稳定性

大家都知道肠道菌群其实受的影响因素非常多,你的饮食方式、生活、地域、健康状态、甚至情绪状态都可能对菌群有巨大的影响。

这种巨大的影响的来源有这么多的情况,那么如何保证无论你什么时候检测,都能够是可靠稳定的?

假设一个结直肠癌患者,他今天做了,和隔了一个礼拜之后再去做,从病理的状态上来说,他还是个结直肠癌患者,但是他的菌群状态可能会产生巨大的变化。

那么这些变化本身是否会对我们的检测和临床结论产生巨大的影响,这种波动如何去消除,所以这个是个稳定性的问题。我等会也会讲到。

再一个是可解释性

因为菌群相对来说,实际算是一个大的数据。我们现在如果采用高通量测序的方式来做,一次性可以拿到大量的数据集。

这些数据集本身会有各种各样的菌的构成差异,我们的经验是差不多每个人,从婴幼儿开始到成年人,大概两岁以上的婴幼儿,菌群构成会从200到2000种菌不等,也就是说每个人会有这么大的菌的种类。

但是总的数据集有多大呢?我们自己有几万例的人群的样本,构建了一个人的肠道菌群的参考数据集,这个数据集里目前包括7500多种菌。但是我们自己的评估,全人类的肠道当中可能出现的定植菌应该会超过10万例。

那么这么大的数据量当中的异常菌如何去进行解释,如何给临床上提供更有意义的,病理上也好,或者机制上的一种解释,以及可以量化的干预方案,这就是可解释性。

最后一个是经济性

因为如果希望肠道菌群检测能够作为一个临床辅助诊断的项目,或者是针对具体的临床疾病的辅助诊断来说,它不仅仅要做到准确,它要具有足够大的经济性。

也就是说成本必须要得到控制,几千块钱的项目可能能做,但是它无法做到普及,也无法在临床当中被大量的应用,所以如何控制成本也是个巨大的一个问题。

我们做了很多的工作,尝试在上面提到的方向去努力实现在临床应用当中的可能,以下几方面我后面会逐一讲一下我们所做的工作。

第一是取样和储存运输,然后是如何大规模、低成本、高效准确的去处理样品。

再一个是参考数据库,完整的数据库的建立,其实也是非常重要的。

然后是大规模人群队列和临床数。我们的核心经验,由于肠道菌群的多样性,以及受各种因素的影响比较多,那么大规模的人群队列就变成一个非常重要的点。如何去构建大规模的临床队列,以及从这个大规模的临床队列当中,我们能不能拿到一些信息和有用的经验。

再有是全方位的解析,我们等会儿会讲到不只是在菌群层面上,也不只是在代谢层面上,我们甚至可以基于肠道菌群,把代谢营养,生理生化指标,免疫指标,我们都是来自于临床的,包括血常规,尿常规,我们都能够进行解析。

还有重要的一点是如何使用人工智能的高可用性的模型,从这么大的数据当中精细化的提高检出率的同时,又能够保证它的特异性和敏感度,这是个巨大的一个挑战,这个我后面也会讲到。

第一个方面,可能我们现在采用的这个取样方式,应该相对来说最简便和最小的一个取样方式,我们直接可以用棉签从厕纸上蘸取,直接洗脱在取样管当中。

你可以看到取样颜色达到左侧第二个管子的这种颜色的粪便量,我们就可以完成整个检测,从使用体验上来说,会比较简便,而且需要量少

样本保存也可以在室温下至少可以保存一个月,运输过程当中就不需要涉及到冷链,可以直接快递,便捷性也会大大提高。

有了这个取样管之后,实际上从临床和门诊当中可以快速的拿到大量的方便的样品,因为不需要采用非常复杂的取样和储存的方案。

我们讲第二个方面,刚才提到菌群的构成特点是很多样性的,而且跟很多因素包括取样时间有关,比如说早上取、晚上取,取的粪便的部位以及取样的量的多少,可能出来的菌群构成都会有一些区别。

如何再将这些区别和波动有效地控制,并且从中提取稳定准确的信息

这就涉及到一个我们能够从菌群数据当中能拿到一些什么结果,我主要从几个维度来讲。

——首先是菌群丰度和菌群结构

你首先可以知道每一种菌大概有多少的量,相对比例是多少。你还会知道菌群构成,也就是说都有些什么菌。

——然后是菌群结构

所谓菌群结构就是说,有一些菌它会共同出现。甚至你会发现你检测到了有几种菌,并不代表其他的菌可能就没有出现。我们的肠道菌群总共可能会有七万多种菌,每个人差不多200到2000种,但是在99%的人当中都出现的菌,可能不超过30几种。你的肠道当中有这种菌,但是很多人当中都没有这种菌,那么很多的信息是稀疏的。但是通过构建菌群结构之后,你会发现这两种菌,可能一个在你这里有,一个在另外一个人当中有,但是这两种菌它其实代表的意义和内涵是类似的。

——再一个方面,我们通过数据的模型的挖掘,可以拿到更高维的特征

这些特征反应的是生理的,比如说你的尿酸量,你的尿蛋白,你的血液当中的高密度脂肪酸,包括一些代谢的指标,这些指标的生理的特征和病理的特征,我们也可以通过菌群结构来进行提取。

那么从信息的维度上提升了之后,你可以看到数据的稳定性在不断提高

最底层数据菌种的丰度波动性是非常大的。前一天的饮食如果有改变,跟你日常的饮食习惯有一些稍微的改变,第二天的检测,菌群的构成丰度上,波动甚至会达到30%。这种菌群丰度的变化,就代表如果你单纯依据少量的几种菌的丰度变化去检测它的异常,或者是这个疾病的状态的话,稳定性是很差的。那么你就需要控制各种场景,各种条件,才能拿到一个稳定的结果。但是菌种丰度又代表了一个非常高的信息量。

那我们尝试的更多的是从第二个维度开始,就菌群的构成,菌群的结构以及高维的菌群特征这个角度,因为它的稳定性更好。我们通过不断的去加入各种各样的临床病例的数据的方式来提取这些菌群的附加信息。

这就涉及到第二个问题,我们要把这更多维度的信息量能够提出来的话,你就必须要有涉及到非常大规模的样本人群,包括疾病状态、年龄、社会生活区域、饮食方式等各种因素的情况。

那么大量样本的话,我前面提到我们在取样盒上的改进,对应的我们还提供了一个快速的提取方式。就是通过磁珠法,来完全全自动化的来配合我们的取样盒,来做到大规模,自动化的,低成本的快速提取。

因为一般来说像MoBio这一类的试剂盒它对于样本的起始量有一个比较高的要求,并不适用于我们前面那种非常低当量的一个量。

我们自己改进之后的方法,稳定性和可靠性也是相当高的,这样是极大地降低了我们的整个实验处理过程当中的成本,同时又能够有效地保证这个检测结果的可靠性。我们的方法已经有文章发表。

那么当有了大量的样本之后,第二个问题就是

需要你更精准,更精细化的去提取这些数据

提取这些数据的过程当中我们自己也做过比较。用公共数据库包括Greengene、RDP或者HMP这些数据参考集,我们大概也就只能最多到95%的数据是能比对上去的,到种属的鉴定甚至会更低一些。

我们自己大概用了24000例的来自全球各地的样本,包括我们自己大概测了将近有17000多例的我们早期测的样本,还有各种来源的,特征的,包括疾病状态的,包括我们纳入了从各种基因组数据库拿到的肠道疾病和人体病原物的这些菌的数据,总共汇总之后,我们有24000多人的样本。

最后,我们构建了一个全新的人体肠道的一个参考集,这个参考集大概有75000多种OTU的菌,然后我们做了大量的注释,超过99.5%的菌是都能够完成比对的,这就大大的提高了对于菌属和样品当中菌构成的分辨率。

我们目前总的样本量已经接近快20万了,估计今年应该会超过20万例。

多种相关疾病互相存在干扰

这个是遇到的另外一个问题。

当我们解析了这些菌之后,我们尝试去做不同的疾病状态下菌的构成丰度和这些菌的特征信息,我们去尝试做疾病的分类。

前期做的时候效果相对还是非常不错的,因为它的特征菌比较明显。但是实际上面对临床的时候会遇到第二个问题,临床当中没有一个人的样品是非常干净,他可能会有结直肠癌,但是同时又会有高血压,或者是有消化道的疾病。

这些样本在你做检测之前你其实不知道他的状态,在试验或者研究型论文当中,你可能做的队列一个是健康人,再加一个某种疾病的患者,那么这两类的样本做出来,统计差异是非常明显的。但是如何在临床样本当中做到非常精准地将这两类人区分,而且不受任何中间因素的干扰,比如说阴性干扰样本的这个影响,这是需要面临的问题。

图解

上面图的左侧,我们自己做了一个结直肠癌的模型。结直肠癌我们现在检测的准确度可以达到非常高了。

但是,最开始做的时候,其实我们做了一下测试,单纯的模型去做预测分析的时候,会有其他中间疾病的大量干扰。尤其是消化道出血的情况下,会对整个菌群状态有非常大的影响。

包括腺瘤的阶段,刚才几位也都提到肠癌,肠癌其实是一个菌群变化要早于癌症发生的过程。但是菌群变化和癌症的阶段是有一些特征性的影响的,那么腺瘤的阶段跟肠癌是有大量的菌群特征是重叠的。

我们前期由于收集来自于各个来源的病例样本,所以可以大量的去寻找哪一些疾病是和我们要检测的目标疾病存在干扰因素的,我们可以挑选出这些疾病作为一个控制集,那么可以大大的减少假阳性和干扰的因素

这也就是另外一个因素,就是我们在构建人群队列的时候,务必不能以一个相对干净的样本集去做。对于研究来说,它可能是很好的一个方式,你可以做前瞻性来寻找这是否可能以及效果。但是实际临床过程当中,你需要纳入大量的,可能影响你这个菌群,或者跟这个疾病有相互干扰和影响的相应的疾病来作为控制集,才能够提高它的可靠性和准确度。

图解

这个图是我们自己有完整的临床病例,我们跟大量的医院和研究所在合作,我们自己构建了大量的人群队列规模,全部都是住院病人,有明确的临床的诊断和所有的病例信息,这个样本规模差不多有4.7万例。

图的左侧是各种疾病的类型,我们也通过各种疾病和菌群的模型构建,分析了七大类系统,包括呼吸系统,泌尿系统,免疫系统,内分泌系统,神经系统和消化系统,还有循环系统,跟肠道菌群能够有相对可靠的临床应用和检测,用于临床疾病的辅助诊断的可能性的。

右边这里是一个疾病的构成,其中有很多病跟菌群的关系目前甚至都没有发表过论文,就是说并不知道肠道菌群跟它有关。我们实际通过大规模的临床样本的实际筛查和模型构建之后,发现有很多病,通过肠道菌群可以做到非常精准。

另外一个问题就是,我们对于一个病的预测也好,或者进行辅助诊断也好,基于肠道菌群

需要多大样本的量才能够做到足够的准确度

来看一个我们自己做的一个模型,是拿实际真实临床样本的数据来做的

图解

这个图实际上是拿二型糖尿病的患者的诊断来做的,可以看到不同的曲线丰度。

我们自己做了从50例、300例、1000例到3000例,这些都是病人的样本量,对照集的样本量一般会在两到三倍的量来进行构建模型。

从我们自己的这个模型数据来看,50例的样本,你可以有效地判断菌群到底能否对这个疾病进行一个相对较好的评估;那么如果是300例,你基本上可以拿到一个相对可用的模型,进行初步评估。

如果是要达到一个相对稳定的有临床应用价值的模型,我们认为差不多要1000例。因为你要纳入各种来自于不同临床疾病状态的样本,因为可能这个患者虽然有这个病,但是他同时还会有其他的疾病,包括不同的年龄和饮食习惯的这些背景因素要做控制,至少要1000例。

如果想要得到稳定可靠的检测结果,而且因为不是所有的病,菌群都是在其中起到绝对性的作用,有些是属于间接的,那么你希望菌群本身的检测,它需要有一个贡献度的上限,也就是说,菌群本身与这个疾病的参与度和关联性的上限。那么要达到这个上限,我们认为差不多要3000例的临床的阳性样本,就是病例患者的样本,可以达到上限的结果。

再下来,就是我们需要构建可靠的模型。

因为菌群是一个相对数据源,你的各种生活方式,疾病状态,营养健康的情况都会影响它。可能这个菌既在肠癌当中属于特征菌,同时也是一个炎症性疾病的特征菌,那么这些状态都会影响同一个菌的结果。

如何将这个菌的结果的变化反馈到去解释它到底是哪一个病的问题呢?

我们通过数据标准化和多维度的提升来构建一个判断的模型。

我们用人工智能和深度学习的方法,通过足够大的样本数据,来提取各种各样的菌群特征,并不直接用菌群自身的信息,而是用高维度自主学习的方式来提取这些菌群特征。

然后纳入各种各样数据,

比如有营养学的数据,有质谱的数据,

也有一些病理的数据,包括一些生理生化的数据,

都纳入之后,我们去解析它。

而且我们并不是用一个模型来做,我们现在是用三个模型来做。

我们第一轮是将所有的可能的干扰性疾病和有影响的疾病,全部作为一个病的类型,来进行模型的分析,筛出所有可能有问题的人

然后第二轮我们需要精准化的去提取,到底哪些病是明确就是单一这种疾病的。

第三个模型,就是我们要对目标疾病与其他干扰的疾病进行区分

通过多个模型之后,我们可以极大地提高菌群检测的稳定性,以及这个疾病当中的特异性程度。



图解

这个图是我们自己在做的一些疾病的检测结果。从目前来看,很多疾病的稳定性和效果都相当不错,这里每一个病至少都有将近500例病人的样本数据,来去做一个验证。每一个疾病的类型,我们差不多都有两到三个中心的检测结果数据去汇总。

通过多维度之后,我们就可以探寻不同的菌群变化背后,它可能真实驱动的因素。

我们还加入了营养的部分,这些营养其实我们是通过营养调查和一些质谱的数据,然后通过机器学习的方式来去把它解析出来。

我们也加入了像血常规,尿常规,生化,免疫组化,代谢组产物指标,肿瘤标志物,还有激素水平。我们将这些数据纳入之后,通过构建模型,可以将菌群的结果转换为这些生理生化相应的指标。也就是说,你如果只给我菌群的数据,我可以将这些生理生化的相应指标也能够给你体现出来。

甚至还有包括艾滋病的特征的,以及另外一些其它疾病,这里没有列出来,但是效果也是相当不错。

但是你可以看到,它的解释并不是指这个菌群直接的特征变化。我们通过菌群解析,像艾滋病,我们有免疫组化的数据解读了之后,我可以明确告诉你,CD4和CD8的比值会有特征性的差异。但它本身的菌群特征上并没有直接体现出这个东西,是通过生理生化指标的转换之后,我就可以告诉你,菌群特征的变化在具体哪些生理生化方面产生一些影响。

这个是我们现在提供给包括临床和健康检测的一些基本的内容。

可以提供菌群的总体状况,以及致病菌的情况,益生菌的情况。因为本身测的就是菌群,所以它直接就能提供这些最基本的一些信息。当然正常范围都是我们基于将近上万人的健康人群来做的正常范围的评估。

这个是除了来自文献之外,我们自己通过算法提取到的相关的菌,每一种菌在这个疾病内的相关性情况,以及它在正常人群的基本的正常范围是多少。然后我们通过检测这个是否异常,在临床当中给医生来做快速判断的一个内容和信息。

再有一个我们现在给一个疾病的辅助诊断,这些部分它可以相对有效的提供整个维度的不只是一个专科的信息,可以给到包括我们前面讲到七个系统的相关疾病的一个提示。

这些提示可以帮助我们来做一些专科性的疾病辅助诊断,能排除一些其他科室可能漏掉的一些疾病症状。另外包括消化道症状的解读,我们也会有一个菌群异常的评估提示。

包括营养的部分,我们也单独加入营养摄入水平,维生素摄入水平,氨基酸摄入水平

这个值目前来说我们是基于人群分布数据,就是说我们通过菌群来预测模型构建之后,评估出人群基础的水平,然后再基于人群的营养调查的水平,我们做拟合。现在来看,准确度还是相当的高。

那另外也包括微量元素,现在重金属的部分我们已经完成了,也很快会加入包括饮食特点、盐摄入、精制糖摄入对应的信息,还有短链脂肪酸的这些指标。

另外这里还有包括有心脑血管、神经系统的疾病的风险评估,包括过敏的一些问题。

过敏的话现在我们也在开展一个比较大的多中心的项目。关于过敏Broad Institute(博德研究所)去年还是今年有一篇文章,他们做的是一个大的欧洲的队列。

也就是通过菌群的数据,从刚出生开始持续采集,差不多到六岁,然后再去评估过敏以及过敏原。目前他那个数据我们做过测试,完全基于菌群的数据,对于过敏包括过敏体质的评估,我们差不多现在能到0.78左右。那如果你是做特异性的过敏原的检测的话,我们甚至也能够进行过敏源的评估,完全基于菌群数据。

所以我们自己的大量的数据检测完了之后,会发现,通过菌群数据本身,不止是能够告诉你菌群的结果,甚至能够反映非常非常多原来你意想不到的,需要用其他手段来进行检测的结果。

另外,我们现在的检测全部是基于16S,16S大家知道它本身的精细度可能还是有缺陷,就是它并不能到菌株;另外它只测细菌的部分,你的病毒和真菌是没有的。

但是我们这里可以看到有一项检测是病毒性腹泻,就是说我测的是肠道菌群,但是我们能够发现,这个病毒的感染,也会对整个肠道菌群产生一个巨大的影响。

所以我们通过整个菌群结构的特征变化,能够只检测细菌,也仍然能够发现病毒性的这种变化。

最后我说一下挑战。

第一个挑战,到目前为止我们做了这么多的数据和这么多样本量之后,竟然发现要真正去完整的解析整个菌群的特征,我们需要更大规模和全面多维度的数据集。不只是菌群检测本身的或者疾病的信息,我们需要纳入比如代谢组,以及其他的一些数据的情况,来构建更完整的数据集。

第二,我们发现不同的疾病,它的诊疗需求和特点是不一样的。虽然信息很多,但如何去跟临床辅助诊疗特定的疾病去做对接和结合是很重要的一点。

第三,我们现在的肠道菌群干预的手段其实也蛮多的,但是这些干预手段呢,现在缺乏量化,就是如何去评估每个人的干预手段,包括饮食的习惯,益生菌的菌株的水平的评估,益生元的效应,甚至粪菌移植的配体。这些量化的方面需要有大量的工作去做。

以上是我们这么多年做的实际临床大量样本的菌群检测的一些经验,跟大家分享一下,谢谢。

精准健康检测报告及解读

谷禾精准健康检测报告包含三个主要部分:肠道菌群、疾病风险、营养饮食

下面我们来详细解释报告是如何生成以及背后的技术和原理,以及如何解读报告。

参考数据集

我们首先使用24317例核心人群的肠道菌群基因测序数据构建了核心参考数据集,包括:

  • 标准化75000 OTU菌数据集
  • 203种人体及环境致病菌
  • 基因和代谢途径以及深度预测模型构建9000高维度特征

并对这些菌的特征序列进行详细物种注释。

这为我们对肠道菌群的构成和致病菌的检测奠定了基础,相较于目前的Greengene和SILVA132数据库的85%水平,我们的肠道菌群数据库涵盖了超过98%的人体肠道菌群。

基于这一标准化菌群特征参考数据集,我们进一步收集样本,并构建了如下样本人群队列

  • 5.4万例实测样本人群,共计19.6万样本人群数据库
  • 涵盖0~109岁人群,全世界5大洲70多个国家和地区
  • 超过100种疾病队列人群(100例以上/病)

模型构建及预测

谷禾对全部样本和来自临床的病例进行了数据清洗和整理,并通过深度特征工程结合已有的基因组、药物、代谢等信息提取和构建深度菌群特征。

对每种疾病、营养指标都采用包括深度学习和基于决策树的人工智能模型进行预测和分析。

为了获得稳定可靠的预测效果,我们在模型构建和样本选择上经过多次迭代更新,针对肠道菌群数据开发了一系列优化方法,最终达到极高的准确度。

健康总分

精准健康检测报告中首先给出了健康总分,总分100分,越高越好。

分值综合评估了菌群状况、疾病风险以及营养饮食的情况。存在疾病风险、有致病菌检出或饮食营养不合理都会降低健康评分。

健康总分的评价范围为:

健康人群的平均分为75分,目前人群最高分94分,低于60分表明至少存在一项疾病风险

>95:最健康

90~95:健康典范

80~90:很健康,针对性改善就好

70~80:健康但请注意生活方式和饮食

60~70:亚健康及营养饮食不合理

50~60:疾病高风险

40~50:疾病急需医疗关注

<40:多项疾病高风险,菌群严重破坏

肠道菌群构成

基因测序是直接对肠道菌群的16s进行测序,因而获得了极为准确和详尽的菌群构成特征。

通过对这些菌群数据的进一步分析,我们对肠道菌群部分给出如下结果:

  • 肠道菌群平衡状况
  • 菌群多样性
  • 有益菌
  • 有害菌
  • 菌群构成比例
  • 与疾病相关的菌异常状况检测

下图给出了主要的菌群状况评估:

说明:报告中的分值包括两种数值类型,一类是0~100的分值,另一类是0~1的分值。

其中0~100表示的是在人群中的分布水平,比如70表示位于人群70%的水平。

肠道菌群平衡是根据有害菌和有益菌的比例分布确定的。

其中有益菌主要为乳杆菌和双歧杆菌。

有害菌的定义如下:

目前的有害菌包括致病菌和条件致病菌,以及属内主要菌种为致病菌的属。为便于统计,我们在计算的时候统一按照属层级进行计算比例。下表是我们归属于有害菌的属。

另外报告中还会给出详细的主要菌属的丰度和人群分布情况。更加详细的数据表可以点击

下载完整菌群构成表

此外报告专门将常见益生菌和有益菌列出:

根据我们大量人群样本数据的统计和分析,我们从菌的层面提取了和不同疾病相关的菌,并监测其是否超标,超标标准为超出99%的人群或低于1%人群。

疾病风险评估

然后对每一种疾病分为病人和健康人两组队列,使用机器学习方法提取相关特征,使用深度神经网络进行模型训练,并在新样本人群中进行准确度的检验。

目前我们疾病风险检测部分包括16类主要疾病,根据疾病检测准确度和稳定性,我们将检测疾病的水平分为三个等级:诊断级、预防级和提示级。

最终报告中,疾病风险以0~1的分值出现,并根据分值分为不同的提示级别,见下图:

根据每种病的分值,0~0.3归为低风险,0.3~0.5评估为注意,0.5~0.7为中等风险,超过0.7为高风险。

目前报告中提供的疾病均经过大量病例样本检验并且准确率超过90%,虽然不作为疾病的诊断依据,但是其分值的高低仍然具有很强的指示作用。

如果您某种疾病的风险值低于0.3以下表明菌群状态提示疾病风险较低,不同身体条件和生活方式下会有0.05的波动。

如果您某种疾病的风险值位于0.3~0.5之间我们认为属于病前期阶段,通过饮食调理和相应的注意就可以降低风险。

如果您某种疾病的风险值位于0.5~0.7之间表明您可能患有该疾病或处于疾病风险阶段,我们建议您最好前往医院相关科室进行一下检查,如果不便前往医院也可根据建议先进行饮食调理和相应的注意,一般一个月后再进行一次检测查看疾病风险是否下降到正常范围,如果仍然较高甚至升高建议您最好前往医院复查。

如果您某种疾病的风险值超过0.7表明您有很大可能已患有该疾病,且分值越高表明风险越高。因此我们强烈建议您去医院进行相应检查并听从医生建议。

注意:本检测目前尚不属于医疗诊断,疾病分值作为提示,低分值不代表完全没有疾病,只表示风险较低,也可能存在一定的未检出。高分值只表示存在很大疾病风险,疾病的确诊和精确诊断需要通过进一步的医疗检查确认。

营养饮食及个性化食物推荐

根据谷禾大规模人群饮食和营养元素调查的数据,通过机器学习模型构建基于肠道菌群的营养饮食和微量营养物质的水平评估模型。

报告中量化了包括主要饮食成分、主要氨基酸以及维生素和微量元素的水平。

其中的分值为在人群中的分布水平,代表的是您的单项营养水平位于人群中的位置,一般最佳的营养分值为70左右,过高或过低都可能不均衡。

最佳的营养状况是各项营养水平相对一致,均衡是评判健康的主要标准。

上述营养指标根据我们对人群长达6个月的追踪发现,营养饮食的指标相对稳定,反应的是最近2周左右的一段时间平均的饮食摄入水平。

由于营养物质和微量元素随当日饮食会迅速变化,包括血液指标也会迅速改变,而肠道菌群反应的营养饮食状况受取样前一天的饮食的影响在15~30%左右,所以建议取样前一天尽量保持近期正常的饮食。

而营养指标的根本性改变通常需要改变饮食2周以上会有明显的变动,而维持该水准需要保持2个月以上的饮食习惯。

个性化饮食推荐表

基于上述检测的营养饮食指标和疾病风险状况,我们结合不同食物的营养成分构成使用机器学习和统计方法计算了每种食物的推荐指数,从-100到+100。

注:低于2岁以下婴儿,本食物推荐表仅做参考,也可作为母乳喂养妈妈的饮食参考。

以上报告版本为2018年3月v0.0.5版,疾病检测模型一般3个月左右会快速更新迭代一次以使用更大样本量来提升检测准确度和检出率。

菌群16s测序

谷禾菌群测序是通过对细菌的16s v4可变区域进行扩增测序,来对肠道菌群的种属和丰度进行检测。

肠道菌群DNA样本使用德国eppendorf公司的自动化移液工作站完全全自动提取和PCR分液后进行PCR扩增。

再经过凝胶电泳和荧光定量PCR双重质检,最终进入上机基因测序。

严格的质量和扩增管控:

  • NEB Phusion High-Fidelity 高保真酶
  • 扩增循环数控制在24循环
  • 严格空白对照与阳性对照试验
  • 独立barcode控制数据切分

我们的测序平台使用美国Illumina公司的Hiseq测序平台,也是目前世界上最主要的新一代高通量基因测序平台。

 

下面的视频是美国人类肠道菌群计划使用美国Illumina公司的测序平台进行测序分析的视频,其背后的技术和原理与谷禾相同。

以下是谷禾测序检测的数据参数:

检测技术及方法:

自主粪便肠道菌群取样和提取方法

Illumina Hiseq高通量测序

Q30质量大于93%

平均10万reads,最低5万reads

细菌16sDNA,V4区,引物:F515-R806

70%到种,致病菌95%特异性

最低质检标准1万reads

谷禾肠道菌群取样储存盒

肠道菌群是由活菌构成的生态群体,如果储存和运输不当菌群结构就会发生变化,进而导致菌群测序不准确。

因此便捷可靠的取样和存储是肠道菌群检测的第一步。

谷禾经过多年肠道菌群检测实践和研发,开发出适用于肠道菌群取样和常温储存的取样管,可以采集并稳定DNA,用于定量肠道菌群组成分析。

下图是取样装置:

整个取样盒包括:无菌棉签、取样管(内含裂解液和稳定液)、回寄袋

每个取样管上均有唯一条码。

主要特征

  1. 在家中轻松自行采样高质量样品
  2. 起始样品需要量低至0.01g,快速且稳定
  3. 常温下运输和储存稳定的DNA 60天 – 不需要冷链
  4. 标准样品适合手动或高通量自动处理
  5. 获得适用于16S ,qPCR的高质量DNA
  6. 条形码化全样本可追溯性

谷禾取样管的独特特点使得取样变的异常简便,下面是取样演示:

GIF

仅需使用棉签从厕纸上沾取粪便,然后洗脱到取样管的保存液中即可,使保存液可见粪便颜色即表示取样量足够。

取样储存管性能

  1. 适用于-20°C至65°C下保持DNA完整性
  2. 室温下有效存储长达60天
  3. 与新鲜样本一致的菌群构成特征
  4. 低成本

下面来看一下取样管在不同条件下的保存效果,我们使用凝胶电泳来检测不同保存处理条件下提取菌群DNA的状态:

可以看到,使用谷禾保存管的DNA样品即便在存储至60天仍然没有出现明显的DNA降解情况。

独有专利肠道菌群DNA提取方法

配合谷禾肠道菌群取样保存管,适用于提取极低当量菌群DNA。

具备以下特点:

  • 磁珠法-适用于自动化高通量提取
  • 起始量限制低
  • 与MoBio试剂盒一致性高
  • 现有样本处理量450例/天

下图可以看到我们使用谷禾提取方法与MoBio试剂盒比较以及重复提取的菌群相关性。另外同时比较了使用谷禾取样管保存不同天数后的提取菌群结果。

1