Tag Archive 宏基因组

MetaGEM:直接从宏基因组重建基因组规模的代谢模型

谷禾健康

基因组规模代谢网络模型(Genome-scale metabolic model,GEM),是一种包含了某种特定生物或者是细胞基因组范围代谢反应,及其酶及基因关联的数学模型

这里,我们基于文章的描述,介绍一款新软件——MetaGEM。

研究者认为,目前代谢建模的工作流程仍然是倾向于依赖参考基因组作为重建和模拟GEMs的起点,这忽略了微生物群落中存在的物种内和物种之间的多样性。也限制了对已知参考基因组空间中的代谢网络的分析和解释。

可能导致假阳性(即在参考基因组中存在但在群落中的变量中缺失的通路)或假阴性(即在参考基因组中缺失但在群落变量中存在的通路)结果,最终导致对个别物种代谢通路以及交互营养共生(cross-feeding)相互作用的不准确预测。

也就是说当前的代谢建模方法很可能无法捕捉特定物种在不同环境中的特定代谢特征,例如具有不同疾病状况的个体的微生物群。为了克服这一局限,研究者们开发了MetaGEM。

 MetaGEM流程 

MetaGEM可以不依赖参考基因组,直接从短读的宏基因组数据中重建样本特定的代谢模型。

下图是该软件的流程图,图中蓝底白字的部分是该流程中所使用到的软件,都是已经由他人开发完成的。

研究者们自己开发的部分有两个:

一是end-to-end的框架,能够进行群落水平的代谢交互模拟

二是一个来自宏基因组生物群落的14,000多个MAGs,包括3750份高质量的MAGs,以及来自人类肠道微生物组研究和全球微生物组项目的相应的随时可用的GEMs。

整个流程使用Snakemake实现,从原始的宏基因组的fastq文件开始,质控、组装、估计contig覆盖率、binning、Bin的改进和重组、MAG丰度定量和物种分类、CarveMe进行基因组规模代谢模型重建及质量报告,Smetana模拟重建的基因组规模代谢模型的肠道微生物群落。

(这里只简单介绍了处理步骤,文章中的“Methods”部分有给出使用的参数)

除了以上的必备选项,该流程还有一些附加功能可供用户选择。可以使用GRID估计中和高覆盖率的MAGs的增长率。

Prokka可以对MAGs做功能注释,并且其结果可以提供给Roary,获得一组MAGs的核心MAG和泛基因组的可视化结果

EukRep可以用于寻找真核生物的MAGs

EukCC可以对真核生物的bins做后续的分析

  流 程 特 点  

MetaGEM流程具有两个特点:

一是直接从宏基因组获得高质量的代谢重建;

二是可以为个性化的人类肠道群落建模,研究者通过两个实验进行了描述:

MetaGEM模型与EMBL、AGORA、KBase和Bigg模型相比较

用MetaGEM基于宏基因组短读序列构建MAGs,分为HQ(高质量的),MQ(中等质量的),并以此进行代谢重建,总共获得14087个GEMs,然后将它们与高度精选的基于参考基因组的BIGG模型、AGORA、EMBL和KBase模型进行了比较。

利用基于定位的方法(方法)生成的丰度估计值与基于标记基因的丰度估计值完全相关

MetaGEM和其他模型都具有类似数量的反应和代谢物,但基因数量相比较少;

通过计算模型之间成对的代谢之间的距离,发现MetaGEM具有相似的酶多样性分布

可以捕捉到种水平物种间的显著的代谢差异。高达60%的代谢多样性存在于物种泛基因组中,metaGEM模型捕获的物种内代谢变异程度显著

与基于参考基因组的肠道物种代谢模型AGORA比较,发现基于参考的模型引入的代谢反应不一定存在于每个宏基因组环境中,而MetaGEM模型是完全基于实际的宏基因组在特定环境下重建的代谢模型

AGORA和MetaGEM模型的EC数的交集在48.9%到69%之间,其中53.9%的情况下MetaGEM模型比相应的AGORA模型包含更多的EC数。

研究健康和代谢受损的2型糖尿病患者肠道微生物群落中潜在的微生物代谢相互作用。

使用metaGEMs通过137个宏基因组数据重建了4127个个性化的GEMs。

根据疾病状况分类,即正常糖耐量(NGT,n=42)、糖耐量受损(IGT,n=42)、 2型糖尿病(T2D,n=53),然后应用Smetana软件模拟微生物群落中的物种间依赖关系,Smetana为每个群落输出一个分数表,对应于在给定条件下为支持群落成员的成长而应发生的交叉喂养相互作用强度的度量,即物种A生长的可能性取决于物种B的代谢物X。

不同的2型糖尿病疾病组(NGT、IGT、T2D)相对应的肠道代谢基因组产生具有不同代谢结构的群落。

结 语  

MetaGEM具有完善的流程,搭载的工具也是生物信息分析中常用的处理工具,下载很方便,用conda就能完成。无需参考基因组,这也意味着不需要下载动辄几十Gb的文件。使用Snakemake做流程的自动化管理运行命令简单,也可以分步骤运行

总体而言,MetaGEM可以直接从宏基因组数据中研究复杂微生物群落中特定样本(sample-specific)的新陈代谢

【附录】

关于文中MetaGEM流程搭建所应用到的宏基因组分析软件,这其中也有我们常用的软件,比如fastp、MEGAHIT、bwa、SAMtools、metaWRAP,它们在处理数据时非常的方便也易于上手。

参考文献:

Zorrilla F, Patil K R, Zelezniak A. metaGEM: reconstruction of genome scale metabolic models directly from metagenomes[J]. bioRxiv, 2021: 2020.12. 31.424982.

相关阅读:

生物系统和疾病的多组学数据整合考虑和研究设计

微生物多样性测序结果如何看?

宏基因组的一些坑和解决方案

以呼吸道微生物组研究为例:探索一步或两步PCR方案在16S rRNA V3V4与V4基因区域的偏差

链读测序技术在宏基因组组装研究中的应用

谷禾健康

链读测序(Linked-read sequencing)通过将相同的barcode与长DNA片段(10-100kb)的序列连接在一起,能够消除其中的一些错读,从而改进宏基因组组装。但目前还不清楚在使用链读测序时参数的选择对组装的质量的影响如何。

近日,香港浸会大学研究人员发表文章 “通过链读测序对宏基因组组装全面研究”。

模拟数据和模拟菌群中的分析结果表明,模拟数据(simulated data)中读取深度(C)与组装序列的长度呈正相关,但对组装序列的质量影响不大,模拟菌群的研究中读取深度(C) 对组装序列的质量以及被注释为基因组草图的bin的比例有轻微影响。

另一方面,宏基因组组装质量受CR(每个短读长片段的平均深度)和CF(由长DNA片段计算的基因组的平均物理深度)的影响。对于相同的读取深度,较深的CR 会产生更多的基因组草图,而较深的CF 提高基因组草图的质量

还发现μFL(未加权的DNA片段的平均长度)对组装有边际效应,而NF/P(每个分区的片段数)对局部组装涉及到的偏离目标读数(off-target reads)有影响,即较低的NF/P值会通过减少off-target序列的错读而有更好的组装效果。

总体而言,与Illumina的短读长相比,使用链读改善了组装中重叠群的N50,但与PacBio CCS的长读长相比则没有改善。

  背 景  

人体微生物群是一个复杂的系统,在生理活动和疾病中起着重要的作用。对微生物群中的微生物基因组进行测序可以帮助我们研究其功能。

然而,微生物基因组序列很难获得,微生物群中的绝大多数微生物不能被分离出来进行单个测序。目前的宏基因组项目中使用短读长测序对混合的微生物基因组进行测序。

这些结果在基因组组装过程中是有错读的,导致微生物基因组的完整性和重叠群的连续性结果不理想。长读长测序已经被用来尝试减轻这些问题,如Nicholls等人和Sevim等人的研究。特别是Moss等人的研究,其成果优化了纳米孔测序的长读长文库制备方案,并获得了更完整的细菌基因组。

但实际应用中,长读长测序是昂贵的。虽然链读序列(linked-reads)的基因组组装的质量无法与PacBio CCS的长读长相提并论,但其低成本和高碱基质量的优点是值得去使用的。

  方 法  

01   三组链读序列数据集的来源及构成:

模拟数据(simulated data):

从MBARC-26数据集中下载了23个细菌和3个古细菌菌株,按丰度分类,L-sim,低丰度微生物,摩尔浓度<10-15;M-sim,中等丰度微生物,10-15 < 摩尔浓度 < 10-14;H-sim,高丰度微生物,摩尔浓度 > 10-14

模拟菌群(mock community):

(ATCC MSA-1003)是一个由20个菌株组成的池,同样按丰度分类,L-mock,低丰度微生物;M-mock,中等丰度微生物;H-mock,高丰度微生物;UH-mock,超高丰度微生物。

人类肠道菌群:

一份来自健康的中国人粪便样本

02  DNA提取、文库制备和测序:

对于模拟菌群,从ATCC 20菌株交错的混合基因组材料中提取DNA,不进行大小选择。

对于人类肠道菌群,用Qiagen QiAaMP粪便迷你试剂盒提取DNA,去掉5kb以下的DNA片段。

脉冲场凝胶电泳后,按照厂商的说明制备10x Chromium文库。使用Illumina XTen双端2x150bp测序。人类肠道微生物组的DNA也被用于标准的Illumina XTen短序列测序。

03  DNA长片段重建和链读序列二次抽样:

Long Ranger v2.2.1用于纠正barcode碱基错误,计算PCR重复率,并完成barcode感知的链读序列比对。

使用BWA-MEM v0.7.17比对短序列和没有barcode的链读序列。根据映射得到的具有共同的barcode的短序列的坐标重建DNA长片段。

链接序列首先按barcode排序,然后按它们的映射坐标排序。如果最近的barcode序列大于50kb,则终止延伸长DNA片段。每个片段必须包括至少两个具有共同barcode的成对序列,并且最小长度为2kb。

04   宏基因组组装:

对于链读序列的组装,没有 barcode 的链读序列首先由 metaSPAdes v3.11.1使用默认参数组装为“seed”重叠群,并通过BWA-MEM v0.7.17与重叠群比对。

最后使用 Athena-meta v1.3 通过汇集在 scaffold 中的两个“seed”重叠群里共享相同 barcode 的序列进行局部组装。

05   组装效果评估:

MaxBin v2.2.4将长于1kb的重叠群分组到bins中,并通过CheckM v1.0.12评估其完整性和污染率。

Quast v5.0.0统计了基础信息,如重叠群的N50、NG50、NGA50、总比对长度(total aligned length)和基因组覆盖率(genomic coverage)。

Kraken v0.10.6基于内置数据库MiniKrakenDB为bins做物种注释。每个bins都作为一个基因组草图,被分类为高质量的(完整性>90%,污染率<5%),中等质量的(完整性≥50%,污染率<10%),低质量的(完整性<50%,污染率<10%)

主要结果

来自人类肠道菌群和Illumina短序列链读序列二次抽样的组装效果统计

ILLU,Illumina短序列的组装

SC-all,模拟菌群和人类肠道菌群总共的两个测序lane链读序列

在链读测序中,有四个关键参数可能会影响宏基因组组装,如下图。

这些参数中有几个是相互依赖的。例如,输入DNA的量越大,CFNF/P都会增加,CR就会降低;CFCR的绝对值是由总读取深度(C)增加多少来设置的,因为CR×CF=C

L-sim,模拟数据中的低丰度微生物,青色

M-sim,模拟数据中的中等丰度微生物,蓝色

H-sim,模拟数据中的高丰度微生物,红色

L-mock,模拟菌群中的低丰度微生物

M-mock,模拟菌群中的中等丰度微生物

H-mock,模拟菌群中的高丰度微生物

UH-mock,模拟菌群中的超高丰度微生物

“-”表示测序lane的倒数,例如MSCR4/MSCF4表示四分之一测序lane的序列被二次采样

MSCR-,模拟菌群中的短序列

MSCF-,模拟菌群中的长DNA片段

MSC-1,模拟菌群和人类肠道菌群总共的一个测序lane链读序列

SC-all,模拟菌群和人类肠道菌群总共的两个测序lane链读序列

相关阅读:

宏基因组的一些坑和解决方案

参考文献:

Zhang L, Fang X, Liao H, Zhang Z, Zhou X, Han L, Chen Y, Qiu Q, Li SC. A comprehensive investigation of metagenome assembly by linked-read sequencing. Microbiome. 2020 Nov 11;8(1):156. doi: 10.1186/s40168-020-00929-3. PMID: 33176883; PMCID: PMC7659138.

He S, Chandler M, Varani AM, Hickman AB, Dekker JP, Dyda F: Mechanisms of evolution in high-consequence drug resistance plasmids. MBio 2016;7(6): e01987–16.

Peng Y, Leung HC, Yiu SM, Chin FY. IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth.Bioinformatics. 2012;28(11):1420–8.

Li D, Liu CM, Luo R, Sadakane K, Lam TW. MEGAHIT: an ultra-fast singlenode solution for large and complex metagenomics assembly via succinct de Bruijn graph. Bioinformatics. 2015;31(10):1674–6.

Nurk S, Meleshko D, Korobeynikov A. Pevzner PA: metaSPAdes: a new versatile metagenomic assembler. Genome Res. 2017;27(5):824–34.

Nicholls SM, Quick JC, Tang S, Loman NJ. Ultra-deep, long-read nanopore sequencing of mock microbial community standards. Gigascience. 2019;8(5): 1–9.

Sevim V, Lee J, Egan R, Clum A, Hundley H, Lee J, Everroad RC, Detweiler AM, Bebout BM, Pett-Ridge J, et al. Shotgun metagenome data of a defined mock community using Oxford Nanopore, PacBio and Illumina technologies. Sci Data. 2019;6(1):285.

12
客服