Tag Archive 宏基因组

二代测序技术中生物信息学的应用

谷禾健康

随着科学技术的巨大进步,产生了大量的“组学”数据。理解生物系统各个层次产生的大量序列和结构数据是关键,由此产生了“生物信息学”。

“生物信息学”是一个跨学科领域,主要是用计算算法来组装、评估、理解、可视化和归档与生物分子相关的数据。

从基因组测序、基因及其功能预测到蛋白质分析,如蛋白质结构和功能预测、系统发育研究、药物和疫苗设计、生物体鉴定,以及支持和推进生物技术领域的研究,都需要用到生物信息学。

今天给大家推荐一本书《Advances in Bioinformatics》,帮助广大科研工作者更容易进行研究,从而对生物学有新的见解。

该书共23个章节。涵盖了蛋白质组学、代谢组学、DNA测序和NGS技术、基因组分析、生物计算、神经网络分析、大数据分析、软计算、人工智能到进化生物学、疫苗和药物设计、生物合成学和癌症生物学应用等,从这些领域出发,综述了生物信息学在其中的应用、发展、帮助和已经获得的成果,并探讨了未来的发展方向。

目录及简介

1. 生物信息学简介及其应用

生物信息学在DNA测序与分析、基因组测序及其注释分析、进化生物学的计算、比较基因组学、基因和蛋白表达分析、蛋白质和DNA、RNA的结构分析、免疫信息和药物设计的技术应用。

2. 生物信息学工具和软件

重点介绍了Banqit、Spin、WEBIN、Sequin、Sakura等序列提交软件;ADIT、PDB_Extract等分子结构提交软件;SRS、Entrez、Getentry等序列检索工具。此外,还详细讨论了BLAST、CLUSTALW/X等序列比对工具,以及Swiss-Model、Modeller、JPred、3D-Jigsaw和ModBase等结构预测工具。

3. 生物信息学在生物科学中起到的作用

重点介绍了生物信息学在基因组学、转录组学、蛋白质组学和代谢组学等主要“组学”领域的作用,以及在其它领域,营养基因组学、化学信息学、分子系统发生学、系统学和合成生物学的应用。还讨论了生物信息学在这些领域的多样化发展。

4. 蛋白质分析:从序列到结构

介绍与蛋白质序列和结构分析相关的各种数据库和方法。这类研究的主要应用之一是在药物发现和开发方面。

5. 进化生物学

进化是一个物种或种群经历遗传特征变化的动态过程。对进化的研究被称为进化生物学。进化生物学研究的关键是序列变异,这是通过比较DNA或蛋白质序列来检测的。迄今以及开发了不同的计算工具来比对所获得的序列和识别序列变异。进化基因组学的应用正在从研究人类进化到研究各种病毒的进化。许多病毒对人类健康具有严重威胁。本章介绍了PAML、PhyML、MrBayes、RAxML、MSA、MUSCLE 、MAFFT 等用于系统发育分析的计算工具。并详细讨论了进化的计算原理。

6. 基于web页面的调控序列分析的生物信息学方法

本章主要概述了在线分析哺乳动物基因组中调控序列方法,以及用于调控序列分析的在线生物信息学工具。

7. 用于SNP分析的生物信息学资源综述

基因变异是导致生物物种内多样性的关键。单核苷酸多态性(SNPs)是遗传变异的主要形式。单核苷酸多态性在理解生物表型差异的进化过程中至关重要,而且还被用于各种疾病的诊断和治疗。本章详细介绍了用于人类和其他非人类基因组的SNP分析。此外,还讨论了在生物信息学领域需要解决的挑战和差距,以便在未来有效地研究SNPs。

8. 疫苗设计与免疫信息学

随着多肽疫苗概念的发展,免疫信息学方法已经被证明是针对未知抗原蛋白、复杂的传染病生命周期、免疫系统应答的可变性和长期保护的有效方法。本章概述了用于构建基于表位的疫苗设计的综合数据库分析方法,该方法已被证明是一种非常稳健的方法,用于表征疫苗系统模型的疫苗靶标。

9. 计算机辅助药物设计

一种新的用于新药发现和开发的先进方法,称为计算机辅助药物设计(CADD)。随着计算工具和方法的进步,CADD加速了整个传统的耗时的新药实体开发过程。本章主要是说明一些关键的CADD技术,通常指在药物发现的不同领域中的硅方法,并聚焦于一些现代的进步。

10. 化学信息学和QSAR

QSAR,定量构效关系分析。该技术被广泛应用于通过参考生物活性来预测药物动力学性质,是药物化学中一种可靠的技术。本章讨论了基于QSAR模型的计算方法的基本原理、分子描述符和统计现象。同时,还重点介绍了描述铅分子分子结构的QSAR模型的重要组成部分和类型,并讨论了其局限性和前景,以指导QSAR领域在未来的研究。

11. 基因组学

本章介绍DNA序列是如何解码的,如何通过比对来比较序列,组装基因组的主要方法是什么,以及如何通过基因预测技术来评估它们的质量,最后,通过这里给出的步骤处理后,如何从基因组数据中实现相互作用网络。

12. 使用生物信息学方法进行RNAseq数据分析的指南

RNAseq可以探索全基因组水平的基因表达谱,并量化生物样本中存在的RNA含量。此外,RNAseq还提供选择性剪接变体、新基因鉴定、差异表达基因等信息。RNAseq数据分析的工作流程要求对数据进行质量检查、映射到参考基因组/转录组、读取量化、差异表达分析和功能注释。为了提供对数据的生物学理解并满足分析人员的需求,已经开发了具有不同算法的各种工具和软件。本章概述了可用于分析不同研究数据的工具和软件。此外,还简要介绍了其他RNAseq技术,如单细胞RNAseq和small RNA测序,作为对较新形式的RNA测序的介绍。

13. 代谢组学

代谢组学是从任何生物系统中称为代谢组的一整套小分子中,对不同代谢物的水平、相互作用和动力学进行全面、系统的测定。基于核磁共振(NMR)的方法、质谱(MS)和能够处理大数据集的计算机软件和硬件的快速发展导致了高通量代谢组学方法的发展。本章节讨论了代谢组学数据处理的工作流程。

14. 二代测序(NGS)技术

介绍了NGS技术,以及NGS的不同类型和应用的要点。随着NGS数据分析的进步,为疾病诊断创造了新的疗法,最后补充了一些关于机器学习算法在NGS技术应用的讨论。

15. 个性化医学与生物信息学

定制化用药可以消除目前与标准化用药相关的大量可怕的药物副作用,减少或消除过敏反应,减少医疗费用,减轻患者的痛苦。然而要真正做到定制化用药,首先要把每个患者的基因组转化成可处理的信息,然后进行处理、保存和恢复。因此,基因组学、生物信息学和定制药物三者的结合至关重要。本章介绍了生物信息学在定制化药物和疫苗中的应用、个性化医疗设计中涉及的前沿方法,以及个性化医疗的优缺点。

16. 在合成生物学和癌症生物学中用于微生物的基因和基因组注释分析的生物信息学工具

本章节重点介绍了基因组注释和微生物分析在合成生物学和癌症生物学研究中的应用。以及简要介绍了原核生物基因组结构和最近发展起来的生物信息学工具,这些工具对研究、鉴定和注释原核生物基因组的各种特征非常有用。最后,展望了微生物基因组注释和微生物基因组分析的前景和可能的发展方向,文章表示未来我们应该把重点放在改进癌症治疗和在癌症精确医学中的应用。

17. 人类微生物组与生物信息学

本章系统地讨论了16S rRNA、宏基因组学和宏转录组学的方法、工作流程和推荐的工具。此外,还讨论了最新的下游分析技术和可视化工具。目的是为了帮助研究人员思考与人类微生物组有关的生物学问题,并进行计算分析。

18. 神经网络分析

本章讨论和总结了神经网络在生物信息学中的应用,特别是在蛋白质和核酸生物信息学中的应用。最后,总结了神经网络在多个生命科学领域的基本见解,如基因预测、蛋白质结构预测、表位预测、表达、共表达、蛋白质相互作用等许多领域。

19. microRNA分析与生物信息学

本章重点介绍了不同的miRNA数据库和mircoRNA预测工具,如psRNATarget、RNAhybrid、miRcan、Miranda、TargetScan、PicTar和Diana-MicroT,它们正在被用于miRNA的机制分析。

20. 图像处理与生物信息学

这一新兴的生物信息学领域被称为“生物图像计算”。本章从不同的角度讨论了这一领域的发展,包括实现、主要方法、工具和可用的资源。文中还概述了在与新冠肺炎的战斗中使用到的关键图像处理技术,如识别生物图像特征、可视化、挖掘、注册、图像数据管理和注释,以及可访问的分析资源、生物图像数据库和其他设施的简要说明。

21. 人工智能与生物信息学

生物信息学是生物学与信息系统(智能系统)的结合。人工智能可以在短时间内对生物数据进行检测、处理和分类。各种人工智能算法已被开发并用于生物信息学分析。本章总结了人工智能在生物信息学中的应用。

22. 大数据分析与生物信息学

本章重点介绍了大数据工具和技术在生物信息学中的应用。

23. 生物信息学中的软计算

本章探讨了基于软计算的生物信息学技术。综述了软计算技术及其兼容性对解决广泛的生物信息学相关问题的必要性、软计算技术的基础知识,并阐述了它们在解决许多基于生物信息学的问题中的相关性。

以下内容来自书中第16章节和第17章节。主要介绍生物信息学技术在人类微生物群研究中的应用,以16S rRNA和宏基因组为例,最后补充关于肠道微生物群在癌症治疗中的应用的一些内容。

下一代测序的不同应用

01. 基于高通量测序的人类微生物组研究可以大致被分为三种不同的测序方法

图中的Metataxonomics指16S rRNA,Metagenomics指宏基因组,Metatranscriptomics指宏转录组。箭头下方分别列举了用于物种分类、进化枝图展示、功能分析的主流软件。

微生物组数据分析的主要困难是在保持标准的同时,从一些列计算工具中选择合适的工具实验方法的设计、环境因素和分析流程都会影响最终结果。

02. 测序数据的预处理

预处理的步骤主要是为了对原始序列进行质检、识别和去除低质量碱基和reads、低复杂性reads、引物、接头或barcodes等人工制品,以及去除宿主污染。

FastQC是目前最流行的提供质检报告的预处理工具,MultiQC用于将多个样品的质检报告合并成一个报告,便于比较。去除低质量数据的工具,如Trimomatic,Trim Galore和Cutadapt被广泛用于DNA或RNA 数据。

还有一些如FASTX-Toolkit、BBTools,整合了以上这些预处理步骤。宏基因组数据中有很大一部分宿主核苷酸污染,通常使用KneadData进行去除宿主污染。预处理是关键的一步,需要在序列质量和极大地保留微生物信息量之间进行权衡。

03. 16S rRNA

16S rRNA是基于保守标记基因的扩增子测序。16S rRNA基因在细菌和古菌中高度保守,有9个高变区(V1-V9),可在属水平上进行区分,因此易于靶向扩增,可用于鉴定任何微生物组样品的细菌组成。而18S rRNA基因和rRNA基因非转录区ITS 可用于鉴定微生物组样品中的真菌组成。

16S rRNA数据在经过预处理后,通过将扩增子序列变体(ASV)去噪或将读数聚类成可操作分类单元(OTU)来挑选代表性序列,最后对ASV/OTU进行物种分类。通常使用VSEARCH或USEARCH去除嵌合体,再使用QIIME或QIIME2获得OTU或ASV的特征表以及每个样本中特征的量化值。比较新的算法还有Deblur和DADA2。

04. 宏基因组

宏基因组主要是对微生物样本的所有DNA进行全基因组鸟枪式测序。它并不局限于单个基因,它提供了所有基因的信息,这些基因有助于识别种水平或株水平的微生物,以及了解该样本中核心微生物途径和代谢物。这种方法涵盖了所有的微生物,包括细菌、古菌、真菌和病毒,虽然丰度很低。它还能识别新的和未培养的物种。

宏基因组比16S rRNA测序成本更高。根据测序平台的不同,鸟枪测序大致分为两种方法;Illumina测序仪生产的短读序列使用参考基因组进行组装和进一步分析,另一个由Oxford Nanopore MinION或Pacific Biosciences生产的长读序列可用于从头组装,以识别新的基因组。

05. 微生物物种分类数据库

微生物组数据分析的核心是为读数分配正确的物种。16S rRNA测序和鸟枪法宏基因组测序都利用公共数据库获得微生物物种组成的信息。例如,16S rRNA常使用SILVA, RDP, Greengenes和UNITE等数据库,宏基因组通常使用NCBI中的nr数据库,或者使用MetaPhlAn2工具包,这是一款正在被普遍使用的工具,它拥有自己的从细菌、古菌、病毒和真核生物中鉴定的分枝特异性标记基因数据库。

06. 微生物物种分析

物种注释后的下游分析必须包括的就是α和β多样性,并在样本组之间进行比较,找出具有差异丰度的物种,以及物种与元数据之间的相关性

α多样性是使用Shannon多样性指数和Shannon均匀度指数来衡量的,Shannon均匀度指数定义了样本中的物种丰富度、多样性和均匀度。用方差分析、Mann-Whitney U检验和Kruskal-Wallis检验对组内或组间α多样性的比较进行统计学分析,然后用盒图、维恩图和稀疏曲线可视化。

β多样性利用Bray-Curtis、Jaccard距离和加权、未加权UniFrac发现样本之间物种组成的差异。它与PCoA、NMDS和约束PCoA(CPCoA)相结合输出分析结果,使用散点图和树状图在样本或组间进行比较并可视化。

可用于计算α和β多样性的软件有QIIME、Phyloseq、VEGAN和USEARCH。利用相关系数曲线、线性拟合曲线和热图分析了个分类水平物种与元数据之间的相关性。

系统发育树和分支图被用来了解系统发育和物种分类水平层次。

GraPhlAn是一款提供美化后的可供发表的系统发育树图制作的软件。与其类似的还有Krona。

07. 微生物功能分析

16S rRNA分析虽然只能观察到物种组成,但是有PICRUST和Tax4Fun这样的工具,可以通过将16S rRNA读数映射到注释的基因组来获得功能代谢途径。如果需要更详细和准确的功能图谱,建议使用宏基因组和宏转录组测序。

用于预测基因功能、途径或功能结构域的数据库有PFAM、COG、SEED、EGNOG、KEGG和TIGRFAM。一些工具可以将注释的功能基因信息可视化,并在样本组之间进行比较,如HUMANN2、LEfSe和Short BRED。

08. 人类微生物组研究在人类疾病中的应用

对人类微生物组的研究表明,健康个体的微生物与非健康个体或患病个体的微生物有很大的不同。因此,根据微生物群的不同特征对其进行表征可以作为一种潜在的工具,用于识别疾病风险、预后、表型和治疗反应。比如肠道菌群失调与多种病理疾病有关,益生菌补充剂通过产生一定的代谢物,恢复了微生物群落的平衡,提高了机体的免疫能力。

近年来,肠道微生物群也开始应用于癌症治疗。比如药物代谢,因为肠道菌群能影响药物的作用方式、疗效和抗体治疗。这在一些研究肠道菌群对癌症治疗(如化疗、放疗和免疫治疗)的影响文章中被证实。另一个例子则是开发用于癌症治疗的益生菌。因此,将微生物群信息应用于癌症精准医学是一条潜在的路径。

Kumar A , Singh V . Advances in Bioinformatics[M]. 2021

DOI:10.1007/978-981-33-6191-1

测序组学助力新的酶发现

谷禾健康

2020年,深度学习算法AlphaFold2在从原始序列预测蛋白质三维结构方面取得了里程碑式的成果。

宏基因组学产生的大量测序数据,让人们得已窥见未经培养的微生物的生物合成潜力。与初级代谢途径相比,参与次级代谢的酶往往催化不同底物的特殊反应,这些途径为发现新的酶学提供了丰富的资源。

到目前为止,从环境DNA(eDNA)研究中发现新的酶或功能大多数是通过PCR筛选或基于活性位点的筛选方法获得的。作为另一种选择,鸟枪法宏基因组学也具有从eDNA中直接发现新酶的能力,还可以避免由于PCR或活性导向的功能宏基因组学工作流程引入的共同偏差。

最近发表的一篇长综述,为宏基因组学在酶学领域构建了一张宏伟蓝图。文章中比较了发现酶的方法,包括系统发育学、序列相似性网络、机器学习技术等。也讨论了各种实验策略来测试计算预测,包括异源表达和筛选。

除了这些广泛使用的方法,还补充了一些新兴技术如宏组学、单细胞基因组学、无细胞表达系统等方法及建议。这里,我们沿着作者给出的路线,为大家做个导读。

首先作者在文章中明确指出两点,文章中主要关注天然产生的酶,而不包括通过工程或定向进化策略获取的非自然酶。其次是生物合成基因簇(bgc)中编码的细菌酶,因为这些酶是天然产物中研究最广泛的。

另一点宏基因组DNA序列与从微生物分离物中获得的基因组DNA没有本质上的区别。两者都是来自生物系统的核苷酸序列。从结构上讲,宏基因组样本中的BGCs与分离物参考基因组中的BGCs基本上没有区别,除了有时由于组装过程中引入的相邻边界和错误而更碎片化。一些宏基因组BGCs甚至在可培养生物的基因组中具有同源簇。

发现新酶的定义

如下图,使用三层金字塔说明,越往下说明这个类别在宏基因组酶研究中数量更多。

Robinson S Let al., Nat. Prod. Rep., 2021

第一层

即金字塔尖端,指的是识别出全新类型的生物催化剂,也就是说这类酶必须属于没有任何功能特征成员的蛋白质折叠或家族。到目前为止,大多数新发现的酶的例子都来自可培养的细菌和真菌,而不是eDNA和未培养的微生物。也因此,在宏基因组中识别出的蛋白质家族中还存在极大的探索空间。

第二层

指的是基于参考发现的酶,是在已发现的蛋白质家族中对新的反应类型的表征。

第三层

代表了宏基因组酶研究中占比最大的一部分,指发现了具有不同底物种类的酶,或具有不同反应条件的酶,包括温度、pH、盐度或溶剂偏好。

宏基因组学研究的实验设计

在发现酶的方法中,将鸟枪法宏基因组学测序与功能宏基因组学(活性导向分离和基于PCR方法)之间进行比较。

Robinson S Let al., Nat. Prod. Rep., 2021

活性导向分离方法筛选功能宏基因组文库是宏基因组领域最早发展起来的方法之一,方法核心是鉴定出所需表型的克隆,例如从fosmid、cosmid或人工染色体文库克隆。由于该工作流程不依靠序列同源性,因此对从头发现新酶特别有效。

基于PCR方法的筛选核心是简并引物以扩增编码感兴趣的蛋白质结构域的eDNA基因。基于扩增的常见的生物合成标记物的分析已经被广泛地应用于检测新的BGCs和天然产物。例如,一类全新的钙依赖性抗生素,苹果酸,是通过基于PCR的土壤亚基因组腺苷酸结构域筛选检测到的。

鸟枪法宏基因组学是指直接的、非靶向的eDNA测序。由于不需要PCR扩增和大肠杆菌等文库宿主,所以在鸟枪法测序过程中引入的偏差较少。产生测序数据的速度比构建宏基因组fosmid或cosmid文库快得多。其最大的挑战是从复杂环境样本中足够数量和质量的eDNA和足够的测序深度来检测和纠正个别读数中的错误。关于检测稀有生物的BGCs,可以使用Samplix技术。

这一小节重点介绍了发现酶的三种方法,虽然各有参差,但是殊途同归,依靠这些技术新的酶不断被发现。不容忽视的是应用于鸟枪法宏基因组测序数据的生物信息算法和技术的进步为酶的发现提供了新的途径。但是参与天然产物生物合成的酶是如何帮助从宏基因组数据集中获得要点,以提高我们对未培养微生物的次级代谢功能的认识呢?作者提出一个问题,“是否存在发现酶的温床?”

酶功能预测的计算方法

鸟枪法宏基因组测序完成后,就需要执行下游生物信息分析,使数据可公开存取使用,例如JGI IMG/M、iMicrobe或MGnify这些站点,整合了大量的基因组数据,可以分析可以存储。

这里作者特别介绍了MGnify,MGnify的制作作者强调它是为了“搜索微生物暗物质”而开发的。MGnify的一个好处是能够使用HMMs查询宏基因组,而不是使用基本的基于序列比对的搜索方法,如BLAST或DIAMOND。

虽然这两种方法都是有效且快速的方法,但HMMs对于鉴定更遥远的同源基因特别有用。

(MGnify:https://www.ebi.ac.uk/metagenomics/)

预测蛋白质家族中新的酶功能的计算方法之间的比较

Robinson S Let al., Nat. Prod. Rep., 2021

基于以上的计算方法,整理了作者在文章中列举的一些常用工具:

Robinson S Let al., Nat. Prod. Rep., 2021

实验策略:表征新的酶

无论是用鸟枪法还是功能筛选的宏基因组学发现酶,最后都需要对酶进行表征。

质量控制

当选择蛋白质在实验室中进行鉴定时,重要的第一步是质量控制,以去除可能存在测序错误或不能编码全功能蛋白质的嵌合体和截断序列(truncated sequences)。可以根据相似性对蛋白质进行聚类,并自动选择有代表性的序列,比如CD-HIT和UCLUST工具。

根据数据集的大小,可能需要进一步的过滤步骤。

最明显的策略之一是选择在可培养生物体中也存在的宏基因组序列,因为这可以在原生宿主中进行功能表征。其次是从嗜热生物体中选择蛋白质,这些蛋白质往往编码热稳定性更高的酶。还有选择更稳定和表达更好的蛋白质,包括过滤不具有高GC含量、跨膜区或无序区的蛋白质。

作者建议使用多种标准来对需要实验鉴定的蛋白质序列进行排序,通过这种方式,预测工具中的个体偏差可能会被基于集成的方法部分抵消,以确定最有希望的能够表征发现的酶的蛋白质。

蛋白异源表达

一旦识别了感兴趣的酶或BGCs,必须设计异源表达的构建。不幸的是,大多数用于功能宏基因组学方法的宏基因组文库准备的载体通常不适用于异源表达。由于Fosmid/Cosmid载体的最大插入大小为45 kb,许多完整的BGCs也没能完全被捕获到宏基因组文库中。

除了经典的限制性内切酶克隆和Gibson组装方法外,人们还开发了新的方法来提高将大型BGCs克隆到异源宿主的效率和方便性。

一种流行的方法是转化偶联重组技术(TAR),它利用酵母中的同源重组系统将土壤和海绵宏基因组中重叠的eDNA cosmid/fosmid克隆拼接在一起。

酶活性的筛选

当感兴趣的酶被表达出来后,就要对它们进行体内或体外的活性分析。酶筛选方法通常在通量(throughput)和通用性(generalizability)之间进行权衡,如下图:FACS(流式细胞荧光分选技术)、NIMS(纳米结构启动质谱技术)、SAMDI-MS[ 结合无细胞蛋白质合成和自组装单层解吸电离(SAMDI)质谱技术]、Microfluidics(微流控技术)、mRNA display(通过体外核糖体翻译,有效地将肽链到自己编码的RNA)。

Robinson S Let al., Nat. Prod. Rep., 2021

展望:发现酶的新领域

对该领域的未来提供一个展望,着重于新兴技术与宏基因组学工作流程相结合,以加速酶的发现。

1  宏组学

各种宏组学技术(包括宏转录组学、宏蛋白质组学和代谢组学)整合到酶发现工作流程中,可以成为一个强大的框架,将基因型与表型联系起来,以产生假说。例如用RNA-Seq分析了一种未知的钼依赖酶DADH在人体肠道中参与多巴胺分解代谢的过程;一项堆肥微生物群落的宏转录组分析结果发现了糖苷水解酶家族中的一个异常酶,这个酶带有exo-1,4-b-xylanase活性等。不同的多组学数据集的整合为酶的发现提供了新途径。

2  单细胞基因组学

单细胞基因组学依赖于微生物细胞的分选,通常采用微流控技术流式细胞仪(FACS)的方法,然后用高保真聚合酶裂解和全基因组多重置换扩增(MDA)。单细胞基因组学并不依靠于相似细胞的种群是无性繁殖的假设。

因此,单细胞基因组学研究揭示了从海洋浮游植物到癌细胞的各种系统中显著的种群内基因组变异和进化。这一新兴的研究领域需要进一步应用单细胞和空间转录组方法,以更好地了解微生物群落结构和微环境如何影响生物合成基因的表达。

3  微流控

基于微流控的分选方法已被广泛应用于定向进化蛋白质工程研究,但很少用于挖掘基因组引导酶的发现。最近的一项研究使用光学镊子和微流控技术,根据单个细胞的拉曼光谱对复杂的微生物群落进行分类,这在下游单细胞测序或培养工作中有许多应用。通过对分选的细胞进行下游单细胞测序,活的单个细胞的化学表型可以直接与它们的基因型联系在一起。只是,微流控技术在从宏基因组中发现新的生物合成酶方面的应用目前还没有广泛使用。

4  无细胞系统

无细胞系统为所需DNA序列的快速转录和翻译创造条件,而不受维持细胞生长的限制。与体内表达系统不同,无细胞平台还允许产生有毒的代谢物,这些代谢物通常会杀死异种宿主。为了进一步提高产量,包括mRNA display、MALDI-MS和液滴微流控等筛选方法已经与无细胞平台相结合。对于一些生物合成途径,DNA模板在短短几个小时内就能产生高产量。

5  与序列无关的方法

文中描述的绝大多数技术都依靠基于序列或基于结构的同源性来推断蛋白质功能。然而,当预测“未知的未知因素”时,这些方法往往达不到预期,即重新发现与一个或多个特征蛋白家族没有序列或结构相似性的酶。与序列或结构无关的方法在天然产物研究中也很少使用,因为大多数识别BGCs的计算方法都依靠与常见生物合成结构域的同源性。

decRiPPter是一种基因组挖掘工具,用于检测新的RiPPs和BGCs。decRiPPter算法的核心过滤步骤是使用泛基因组比较来检测分布在分类群内的操纵子,这些操纵子可能参与了次级代谢功能,而不是初级代谢功能。Krousterman等人用DecRiPter分析了1295个链霉菌基因组,鉴定了一个新的RIPP成熟酶家族,催化一种新的肽类天然产物的脱水和环化反应。

基于过往的研究分析的建议

新的发现往往发生在蛋白质家族的近邻

虽然这不是一个普遍规律,但与已知功能的参考蛋白相比,序列同源性低的蛋白质比序列同源性高的酶更容易适应不同的底物,并催化出新的反应类型。

跳出比色测定法的框框,进入未知的蛋白质空间

对2014年1月至2017年3月发现的宏基因组酶进行的荟萃分析发现,>84%属于脂肪酶/酯酶或纤维素酶/半纤维素酶类别。同样,>82%是通过基于活性的筛选发现的。显然,目前的宏基因组筛选方法偏向于工业相关的酶类,这些酶类也可以用标准比色法检测出来。

不再局限于大肠杆菌,寻找新的宿主

一项对照研究发现,一般环境细菌中只有30-40%的基因可以在大肠杆菌中表达,只有7%的高GC含量的DNA可以在大肠杆菌中表达。在功能宏基因组学方面,假单胞菌、链霉菌、红球菌、芽孢杆菌甚至古生菌已经被用作文库宿主和具有穿梭载体的多宿主表达系统(multi-host expression systems)。同样,非传统的异源表达宿主(如亚硝型分枝杆菌)已经被开发用于从宏基因组BGCs发现新的酶。

相关阅读:

生物系统和疾病的多组学数据整合考虑和研究设计

MetaGEM:直接从宏基因组重建基因组规模的代谢模型

ResistoXplorer——基于Web的耐药基因组数据可视化,统计和探索新分析工具

参考文献:

Robinson S L, Piel J, Sunagawa S. A roadmap for metagenomic enzyme discovery[J]. Natural Product Reports, 2021.

E. J. Culp, N. Waglechner, W. Wang, A. A. Fiebig-Comyn,Y.-P. Hsu, K. Koteva, D. Sychantha, B. K. Coombes,M. S. Van Nieuwenhze, Y. V. Brun and G. D. Wright,Nature, 2020, 578, 582–587

N. S´elem-Mojica, C. Aguilar, K. Guti´errez-Garc´ıa,C. E. Mart´ınez-Guerrero and F. Barona-G´omez, Microb.Genomics, 2019, 5, 445270

M. G. Chevrette, K. Guti´errez-Garc´ıa, N. Selem-Mojica,C. Aguilar-Mart´ınez, A. Yanez-Olvera, H. E. Ramos- ˜Aboites, P. A. Hoskisson and F. Barona-G´omez, Nat. Prod.Rep., 2020, 37, 566–599.

Science|180种野生动物肠道菌群测序结果有哪些信息值得我们关注

谷禾健康

导语

微生物在在地球上无处不在,适应了几乎所有可用的生态栖息。 微生物在不同物种和个体之间差异性很大,存在着广泛的微生物多样性

野生动物之所以能够耐受病原菌的感染和有毒食物的威胁以及抵御多种疾病,可能与其体内或体表生存的微生物密切关联。然而,与已被广泛研究的人类微生物群相比,野生动物的微生物群受到的关注较少

当宿主有着共同的饮食或共同祖先,尤其是哺乳动物,通常肠道菌群构成也更为相似,不过这种相关性在鱼类、两栖类、鸟类和非脊椎动物中较弱。在许多情况下,肠道微生物都参与宿主的关键生理过程,包括代谢特殊的饮食化合物。

近日,以色列魏茨曼科学研究院Eran Segal团队采用一致的方法从全球四大洲采集了406份动物粪便样品,包括121份养殖样品和285份野生样品。共涉及184个动物物种,包括哺乳类、禽类、两栖类、硬骨鱼类等的物种。这些物种在分类单元、觅食/取食行为、地理分布、性状等方面具有较高的多样性

使用宏基因组学来分析这180多个物种的肠道菌群,使用从头基因组组装,构建并在功能上注释了5000多个基因组的数据库,其中包括1209种细菌,但是其中75%未知

在这项研究中组装的1209个基因组的最大似然比的系统发育树。

内有色环和外有色环分别表示细菌门和宿主类别。先前未描述的基因组进化枝为深红色。

该研究的贡献:

一,坚持野外采样。野外采样,尤其对于动物采样存在很多挑战,但是证据表明圈养动物会改变微生物组,而且,过往大量有关哺乳动物的研究大部分来来自于是圈养动物,包括大小鼠。这次大规模全球野外采样,可以扩大和了解动物宿主栖息微生物的机会。

二,要获得广泛的野生动物代表性,需要在全球不同的生态环境采样,并从具有不同特征和喂养方式的多种动物中取样。此外,该研究为每个物种手工制定了特质,包括饮食适应性,活动时间和社会结构,使我们能够系统地研究微生物群组成与宿主表型之间的关系。

三,为未知物种的大规模注释细菌基因组数据库,并确定了与这些动物的性状和分类相关的多种微生物模式,并强调了其潜力作为发现新的工业酶和治疗剂的主要未开发资源。

微生物的组成,多样性和功能含量与动物分类,饮食,活动,社会结构和寿命相关。动物微生物群系是生物功能的丰富来源,可能会对生物技术产生影响,包括抗生素,工业酶和免疫调节剂。

此外,野外动物表现出适应性,例如安全食用腐烂,感染病原体的肉类和有毒植物,可以产生强效毒素、生物发光以及各种疾病和微生物病原体具有特异性免疫力、再生能力并且在某些物种中具有极长的寿命。这些适应性中的某些,例如毒素产生和生物发光至少部分是由生活在动物体内/上的微生物共生体赋予的。该研究构建和功能注释从自然栖息地的野生动物中提取的微生物群的综合数据库可以对动物性状与其微生物群之间联系的进行全面了解。

例如,为了证明在动物微生物群中可以发现新的细菌功能,作者在实验中验证了细菌毒素——食用腐肉的欧亚兀鹫(Gyps fulvus)的MAG中发现的代谢蛋白酶。这些蛋白酶可用作抗菌化合物,具有抗菌活性潜在的应用包括对抗人类食物中毒

欧亚兀鹫(学名:Gyps fulvus):体长95-105厘米,尾长24-29 厘米,翼展240-280厘米,体重6-11千克。是一种大型的褐色鹫。栖息在海拔高达2,500米的范围内。主要以山羊、鹿和瞪羚等野生动物,以及人类养殖的绵羊、山羊、牛和马为食。靠灵敏的嗅觉来找寻腐烂的动物尸体,并常常为抢一块肉而争个不停。而且习惯把头伸进动物尸体的腹腔内,啄食内脏和肌肉。分布范围非常广泛,遍布欧洲、中东和北非,也分布于印度、喜马拉雅山脉。在地中海沿岸国家最常见。

这项研究的最大贡献是其丰富的、系统生成的数据集。很容易想象,微生物保护和新出现的抗生素耐药性等不同领域的突破是由这些亚基因组的发现推动的。在欧亚兀鹫微生物群中发现的蛋白酶证明了从野生动物微生物群中进行生物勘探的原理,尽管尚不清楚该案例研究是否应被视为例外或预期的发现。

新发现的食腐肉的欧亚兀鹫(Gyps fulvus)的肠道细菌中的毒素代谢蛋白酶可能在抵抗食物中毒方面有应用。

这项研究仅仅触及了可以用这个数据集检验的假设的表面。未来方向包括:

01  微生物群如何帮助动物降解有毒的植物化学物质。

02  抵御食物中的病原体。

03  从多种食物来源中提取营养的问题。

四,丰富了许多未知物种的细菌门,并发现某些细菌进化枝相对于同一门中的其他细菌具有独特的功能特性。动物种类和已发现的动物种类(共存细菌的特定簇)之间的细菌状况有所不同。动物中这种未被探索的微生物多样性与被充分研究的人类微生物组形成了对比,而人类微生物组在参考数据库中表现得更好。未描述的物种中的富集度最高的是疣状菌属(Verrucomicrobia),这是一个存在于水、土壤和人类肠道中的门,但培养物种相对较少。

确定了多种途径和直系同源物,这些途径和直系同源物在特定的动物性状中显着丰富,并表明功能性景观与这些性状相关。这些功能中的一些功能提示了野生生物微生物群的新角色和特性。绘制野生动物的微生物群落图也可能有助于野生微生物的保护工作。

五,重述了首次通过扩增子测序发现的结果,包括食草动物微生物组比食肉动物微生物更加多样化。这是一个比较重要的发现,是否说明植物性饮食可以提高微生物多样性?此外,不同动物群体的微生物组编码的遗传途径因宿主饮食、体型和其他特征而不同。

六,野生动物的微生物区系也是动物和人类病原体的天然库,如当前的COVID-19大流行一样,通过对野生生物微生物景观的广泛的基因组集合可以阐明其传播到人群中的时间和途径。

该研究值得注意的问题:

一,使用MAGs(宏基因组组装的基因组)限制了研究其中一些目标的拓展,即保护医学和生态上重要的细菌菌株。有些微生物物种将需要分析未组装的读取、培养或富集技术,而不是本研究中使用的全基因组测序。

二,即使是那些基因组被MAG组装捕获的细菌,这些组装体也倾向于排除“辅助”基因组,即在不同菌株间存在的基因。然而,这些基因往往在适应特定的宿主和环境中发挥作用。例如,抗菌素抗性、致病性和能量收集是经常由移动元件或其他辅助基因编码的性状。

三,Levin等人检测到的大多数非特征微生物在宿主体内的活动,以及它们是稳定地定殖在动物体内还是短暂地通过它们的胃肠道的问题仍然存在。在这个庞大的数据集上测试每个假设需要大量的计算、解释和实验验证

参考文献:

Levin D, Raab N, Pinto Y, et al. Diversity and functional landscapes in the microbiota of animals in the wild[J]. Science, 2021, 372(6539).

Coleman M. Diagnosing nutritional stress in the oceans[J]. Science, 2021, 372(6539): 239-240.

L.-X. Chen, K. Anantharaman, A. Shaiber, A. M. Eren, J. F. Banfield, Genome Res. 30, 315 (2020)

E. C. Lindsay, N. B. Metcalfe, M. S. Llewellyn, J. Anim. Ecol. 89, 2415 (2020)

ResistoXplorer——基于Web的耐药基因组数据可视化,统计和探索新分析工具

谷禾健康

ResistoXplorer基于Web的耐药基因组数据可视化,统计和探索性新分析工具。

对宏基因组测序后的数据进行抗生素耐药性基因组的注释与分析,逐渐成为一条必经之路。过去,人们需要自己下载相关数据库再用比对工具进行比对,然后去冗余,再进行下游分析。这通常需要学习编程并熟练应用,对于一些临床医生或科研人员是一个很大的挑战。

最近有一款新的工具,用于对耐药基因组数据的成分分析,功能分析和比较分析。

ResistoXplorer,一款Web程序,地址:http://www.resistoxplorer.no

ResistoXplorer的主要功能包括:

1.支持多种常用和先进的方法,用于成分分析、可视化和探索性数据分析

2.全面支持各种数据归一化方法,包括标准的和最新的统计和机器学习算法

3.支持对配对数据集进行垂直数据综合分析的多种方法

4. ARG功能注释及其微生物和表型关联,基于10多个参考数据库的对比结果

5.功能强大且齐全的网络可视化,直观展现ARG于微生物的关联

打开网址后的界面:

由三个主要分析模块组成(上图红色箭头所指框内):

“ARG List”:探索给定的ARG信息的功能和微生物宿主的关联,可视化网络。

“ARG Table”:对从宏基因组组学研究中获得的耐药基因组丰度文件进行功能分析,α多样性分析,排序分析,差异丰度分析等。

“Intergration”:综合分析,进一步探索潜在的联系,并结合新的生物学见解和假说,相似性分析,成对微生物-ARG相关分析等

上图绿色箭头所指框内:

“DataFormat”和“About”: 提供了关于注释表的格式、结构和数据库统计信息的详细描述

“FAQs”:提供了一些问题的答疑

“Resources”:分为“Manuals”和“Downloads”两个模块

Manuals是使用手册,对用户进行操作指导,建议仔细阅读。

Downloads,提供了示例上传文件和单个数据库的下载

 分析流程 

ResistoXplorer接受抗性基因列表和ARG/taxa丰度表作为输入数据。然后是数据处理、数据分析和结果输出三个步骤。数据处理包括数据过滤和标准化,数据分析包括成分分析,比较分析和综合分析。结果输出以可视化图形,表格或html格式输出。

ResistoXplorer的功能注释使用的参考数据库来自9个通用的AMR数据库,CARD、ResFinder、MEGARes、AMRFinder、SARG、DeepARG-DB、ARGminer、ARDB和ARG-ANNOT。

此外,研究人员还从BacMet数据库和抗菌肽(AMP)耐药基因数据集中手动构建了功能注释信息,使用户能够对抗菌药物/金属和AMP抗性基因进行功能分析和下游分析。

数据处理、分析及结果

数据过滤和标准化

默认情况下,低质量的特征会根据样本流行度及其丰度水平进行过滤。默认值是其他工具所使用的值,大多数在文献中可以找到。用户可以根据分位数间范围、标准差或变异系数排除这些低变异特征。

除alpha多样性和稀疏性分析外,过滤后的数据大多数用于下游分析。在综合分析的情况下,用户还可以对分类注释和耐药基因组丰度数据选择不同的数据筛选标准。

过滤后的数据还需要normalization(归一化)。ResistoXplorer提供了三种数据归一化方法,rarefying, scaling和transformation(稀疏、缩放和转换)。此外还支持其他归一化方法,如中心对数(CLR)和加性对数比(ALR)变换,以便于成分数据分析。方法的选择取决于要执行的分析类型。归一化后的数据用于探索性数据分析,包括排序、聚类和综合分析。用户可以自行探索适合的参数。

成分分析

A) 显示各样本在不同分类水平下的ARG丰度。

B) Shannon多样性指数

C) 桑基图。显示了各组内的包括类别,机制和分组的ARG丰度分布。

D) 稀疏曲线。评估样本中估计的多样性的可靠性,在稀疏曲线中,识别的唯一特征(ARG)的数量与序列样本大小相对应。

E) 排序分析。左边是基于时间点的带有样本颜色的3D PCA图。右边是根据不同的治疗组和时间点绘制3D PCoA图。目前,支持三种通用的排序方法, PCoA、NMDS和 PCA。结果表示为2D和3D样本图。

比较分析

差异丰度分析

使用DESeq2、Edger、metagenomeSeq、Lefse,以及单变量分析方法,比如ALDEx2和ANCOM。DESeq2和Edger说明计数数据的特征,相比之下metagenomeSeq使用推荐的CSS规范化,在更大的分组规模下具有更高的性能。

Lefse使用标准的非参数检验统计显著性,结合线性判别分析来评估差异丰富特征的效应大小。

ALDEx2对来自数据的模型化概率分布的对数比值执行参数或非参数统计测试,并返回统计测试的期望值以及效应大小估计。

ANCOM使用非参数统计检验来检验所有特征对的对数比丰度,以找出均值差异。结果以表格样式展现。

基于机器学习的分类

提供了两种功能强大的监督分类方法–随机森林和支持向量机(SVM),以识别潜在的生物标志物。

C)随机森林

D)展示了SVM在特征(变量)数量减少的情况下的分类性能

其他的一些可视化分析

用户可以根据样本的丰度和流行程度,执行核心抗性分析来检测样本或样本组中存在的核心特征集,以热图的形式展现;以及关联分析和层次聚类,使用热图或者树状图可视化。

综合分析

使用各种综合数据分析方法来探索和揭示微生物群和抗性群之间潜在的潜在关联,这种分析大多用于探索不同环境中细菌和ARGs之间的联系。目前,为数据集成和相关分析提供了几种领先的、常用的单变量和多变量统计方法。所有这些分析都是在过滤和归一化数据集上执行的。

全局相似性分析

用两种基于多变量相关性的方法来确定微生物组和AMR数据集之间的总体相似性,分别为普鲁克分析(PA)和协惯量分析(CIA),在各种功能和分类级别上执行分析。相似系数和P值用于评估两个数据集之间的关联的强度和显著性,相似性系数在0到1之间,0表示两个数据集之间的完全相似,而1表示两个数据集之间的完全不相似。可视化结果用2D和3D排序图表示,如下图

A) 来自普鲁克分析的3D NMDS图,包含与数据集相关的样本、形状和颜色。

B) 来自协惯量分析的3D PCoA图,其中连接两点的线的长度表示两个数据集之间的样本的相似性。

组学数据集成方法

基于多变量投影的探索性方法,如正则化典型相关分析(RCCA)和稀疏偏最小二乘法(SPLS),用于微生物组和AMR数据的集成。这些方法旨在突出高维“组学”数据集之间的相关性。

A 门水平微生物群落与ARGs(组水平)之间的聚类图像热图

B 显示存在于两个数据集中的特征(分类群/参数)的相关结构的相关圆图

成对微生物-ARG相关分析

使用单变量相关分析来确定单个菌群和ARGs(耐药基因组)之间是否存在强相关。使用Spearman、Pearson、CCLasso和最大信息系数(Maximal Information Coefficient)四种方法。用户可以使用绝对相关系数和调整p值的组合来选择强且显著的成对相关性。结果如下图,每个节点表示一个菌或ARG。用户可以双击一个节点,以突出显示网络中相应的相关节点。边缘的宽度和颜色表示两个节点之间相关性的强度和方向。

探索ARGs-微生物宿主网络

基于网络的可视化分析系统,提供了解ARGs和微生物宿主之间复杂的“多对多”关系的可能性。例如,通过查找在多个微生物中发现的ARGs或通过识别同时包含多个感兴趣的ARGs的微生物,可以直接从网络的角度找到承上启下的关键点。

从ResistoXplorer程序中涵盖的数据库中搜集ARGs-微生物宿主信息,构建的关联表用于网络可视化和功能分析。如下图,它由三个主要组件组成:中央网络可视化区、左侧的网络定制和功能分析面板,包含节点表的右侧面板。

用户可以使用带滚轮的鼠标直观地查看和操作中心区域的网络。例如,可以滚动滚轮来放大和缩小网络,将鼠标悬停在任何节点上以查看其名称,单击节点以在右下角显示其详细信息,或双击节点以将其选中。

顶部的水平工具栏显示了操纵网络的基本功能。第一个是颜色选择器,能够为下一次选择选择高亮颜色。还可以使用工具栏中的虚线方形图标选择并拖动多个节点。对当前网络中存在的ARGs进行功能富集分析,使用超几何测试方法,这种方法与网络可视化系统相结合,在解释AMR耐药机制和提供ARGs的可能传播路径信息可能会有更好的效果。

文章中为了展示该工具的可用性,在已发表的一些研究中,选择了1个研究进行抗性分析,“利用商业饲养牛检验图拉霉素(抗菌药物)对肠道微生物组和耐药性的影响”,分析的内容就如同上面展示的那样,这里就不多加赘述。

与其他工具的比较,文章中也列举了一个表格,分别与AMR++Shiny、resistomeAnalusis、WHAM!在分析模块上进行了比较。实际上大同小异,主要的分析模块以及使用的数据库都是相似的,只是谁的数据库更强大,搭载的分析模块更多的区别。

哪款软件的算法和统计分析匹配你的实验数据,或者它能为你提供更多的数据信息,就是适合你的。

这款在线分析抗生素耐药性基因组的程序值得探索一下,统计分析方法和数据库内容都挺强大的,交互式的使用也免去了对编程语言的探索,并且开发人员也表示会持续更新和精选数据库以达到更准确的下游分析。

参考文献

Dhariwal A, Junges R, Chen T, Petersen FC. ResistoXplorer: a web-based tool for visual, statistical and exploratory data analysis of resistome data. NAR Genom Bioinform. 2021 Mar 24;3(1): lqab018. 

Interagency Coordination Group on Antimicrobial Resistance No time to wait–securing the future from drug-resistant infections. Rep. Secret. Gen. Nations. 2019.

Simonsen G.S., Tapsall J.W., Allegranzi B., Talbot E.A., Lazzari S. The antimicrobial resistance containment and surveillance approach-a public health tool. Bull. World Health Organ. 2004; 82:928–934.

Cecchini M., Langer J., Slawomirski L. Antimicrobial Resistance in G7 Countries and Beyond: Economic Issues, Policies and Options for Action. Paris: Organization for Economic Co-operation and Development. 2015; 1–75.

Xia Y., Zhu Y., Li Q., Lu J. Human gut resistome can be country-specific. PeerJ. 2019; 7:e6389.

Forslund K., Sunagawa S., Kultima J.R., Mende D.R., Arumugam M., Typas A., Bork P. Country-specific antibiotic use practices impact the human gut resistome. Genome Res. 2013; 23:1163–1169.

MetaGEM:直接从宏基因组重建基因组规模的代谢模型

谷禾健康

基因组规模代谢网络模型(Genome-scale metabolic model,GEM),是一种包含了某种特定生物或者是细胞基因组范围代谢反应,及其酶及基因关联的数学模型

这里,我们基于文章的描述,介绍一款新软件——MetaGEM。

研究者认为,目前代谢建模的工作流程仍然是倾向于依赖参考基因组作为重建和模拟GEMs的起点,这忽略了微生物群落中存在的物种内和物种之间的多样性。也限制了对已知参考基因组空间中的代谢网络的分析和解释。

可能导致假阳性(即在参考基因组中存在但在群落中的变量中缺失的通路)或假阴性(即在参考基因组中缺失但在群落变量中存在的通路)结果,最终导致对个别物种代谢通路以及交互营养共生(cross-feeding)相互作用的不准确预测。

也就是说当前的代谢建模方法很可能无法捕捉特定物种在不同环境中的特定代谢特征,例如具有不同疾病状况的个体的微生物群。为了克服这一局限,研究者们开发了MetaGEM。

 MetaGEM流程 

MetaGEM可以不依赖参考基因组,直接从短读的宏基因组数据中重建样本特定的代谢模型。

下图是该软件的流程图,图中蓝底白字的部分是该流程中所使用到的软件,都是已经由他人开发完成的。

研究者们自己开发的部分有两个:

一是end-to-end的框架,能够进行群落水平的代谢交互模拟

二是一个来自宏基因组生物群落的14,000多个MAGs,包括3750份高质量的MAGs,以及来自人类肠道微生物组研究和全球微生物组项目的相应的随时可用的GEMs。

整个流程使用Snakemake实现,从原始的宏基因组的fastq文件开始,质控、组装、估计contig覆盖率、binning、Bin的改进和重组、MAG丰度定量和物种分类、CarveMe进行基因组规模代谢模型重建及质量报告,Smetana模拟重建的基因组规模代谢模型的肠道微生物群落。

(这里只简单介绍了处理步骤,文章中的“Methods”部分有给出使用的参数)

除了以上的必备选项,该流程还有一些附加功能可供用户选择。可以使用GRID估计中和高覆盖率的MAGs的增长率。

Prokka可以对MAGs做功能注释,并且其结果可以提供给Roary,获得一组MAGs的核心MAG和泛基因组的可视化结果

EukRep可以用于寻找真核生物的MAGs

EukCC可以对真核生物的bins做后续的分析

  流 程 特 点  

MetaGEM流程具有两个特点:

一是直接从宏基因组获得高质量的代谢重建;

二是可以为个性化的人类肠道群落建模,研究者通过两个实验进行了描述:

MetaGEM模型与EMBL、AGORA、KBase和Bigg模型相比较

用MetaGEM基于宏基因组短读序列构建MAGs,分为HQ(高质量的),MQ(中等质量的),并以此进行代谢重建,总共获得14087个GEMs,然后将它们与高度精选的基于参考基因组的BIGG模型、AGORA、EMBL和KBase模型进行了比较。

利用基于定位的方法(方法)生成的丰度估计值与基于标记基因的丰度估计值完全相关

MetaGEM和其他模型都具有类似数量的反应和代谢物,但基因数量相比较少;

通过计算模型之间成对的代谢之间的距离,发现MetaGEM具有相似的酶多样性分布

可以捕捉到种水平物种间的显著的代谢差异。高达60%的代谢多样性存在于物种泛基因组中,metaGEM模型捕获的物种内代谢变异程度显著

与基于参考基因组的肠道物种代谢模型AGORA比较,发现基于参考的模型引入的代谢反应不一定存在于每个宏基因组环境中,而MetaGEM模型是完全基于实际的宏基因组在特定环境下重建的代谢模型

AGORA和MetaGEM模型的EC数的交集在48.9%到69%之间,其中53.9%的情况下MetaGEM模型比相应的AGORA模型包含更多的EC数。

研究健康和代谢受损的2型糖尿病患者肠道微生物群落中潜在的微生物代谢相互作用。

使用metaGEMs通过137个宏基因组数据重建了4127个个性化的GEMs。

根据疾病状况分类,即正常糖耐量(NGT,n=42)、糖耐量受损(IGT,n=42)、 2型糖尿病(T2D,n=53),然后应用Smetana软件模拟微生物群落中的物种间依赖关系,Smetana为每个群落输出一个分数表,对应于在给定条件下为支持群落成员的成长而应发生的交叉喂养相互作用强度的度量,即物种A生长的可能性取决于物种B的代谢物X。

不同的2型糖尿病疾病组(NGT、IGT、T2D)相对应的肠道代谢基因组产生具有不同代谢结构的群落。

结 语  

MetaGEM具有完善的流程,搭载的工具也是生物信息分析中常用的处理工具,下载很方便,用conda就能完成。无需参考基因组,这也意味着不需要下载动辄几十Gb的文件。使用Snakemake做流程的自动化管理运行命令简单,也可以分步骤运行

总体而言,MetaGEM可以直接从宏基因组数据中研究复杂微生物群落中特定样本(sample-specific)的新陈代谢

【附录】

关于文中MetaGEM流程搭建所应用到的宏基因组分析软件,这其中也有我们常用的软件,比如fastp、MEGAHIT、bwa、SAMtools、metaWRAP,它们在处理数据时非常的方便也易于上手。

参考文献:

Zorrilla F, Patil K R, Zelezniak A. metaGEM: reconstruction of genome scale metabolic models directly from metagenomes[J]. bioRxiv, 2021: 2020.12. 31.424982.

相关阅读:

生物系统和疾病的多组学数据整合考虑和研究设计

微生物多样性测序结果如何看?

宏基因组的一些坑和解决方案

以呼吸道微生物组研究为例:探索一步或两步PCR方案在16S rRNA V3V4与V4基因区域的偏差

链读测序技术在宏基因组组装研究中的应用

谷禾健康

链读测序(Linked-read sequencing)通过将相同的barcode与长DNA片段(10-100kb)的序列连接在一起,能够消除其中的一些错读,从而改进宏基因组组装。但目前还不清楚在使用链读测序时参数的选择对组装的质量的影响如何。

近日,香港浸会大学研究人员发表文章 “通过链读测序对宏基因组组装全面研究”。

模拟数据和模拟菌群中的分析结果表明,模拟数据(simulated data)中读取深度(C)与组装序列的长度呈正相关,但对组装序列的质量影响不大,模拟菌群的研究中读取深度(C) 对组装序列的质量以及被注释为基因组草图的bin的比例有轻微影响。

另一方面,宏基因组组装质量受CR(每个短读长片段的平均深度)和CF(由长DNA片段计算的基因组的平均物理深度)的影响。对于相同的读取深度,较深的CR 会产生更多的基因组草图,而较深的CF 提高基因组草图的质量

还发现μFL(未加权的DNA片段的平均长度)对组装有边际效应,而NF/P(每个分区的片段数)对局部组装涉及到的偏离目标读数(off-target reads)有影响,即较低的NF/P值会通过减少off-target序列的错读而有更好的组装效果。

总体而言,与Illumina的短读长相比,使用链读改善了组装中重叠群的N50,但与PacBio CCS的长读长相比则没有改善。

  背 景  

人体微生物群是一个复杂的系统,在生理活动和疾病中起着重要的作用。对微生物群中的微生物基因组进行测序可以帮助我们研究其功能。

然而,微生物基因组序列很难获得,微生物群中的绝大多数微生物不能被分离出来进行单个测序。目前的宏基因组项目中使用短读长测序对混合的微生物基因组进行测序。

这些结果在基因组组装过程中是有错读的,导致微生物基因组的完整性和重叠群的连续性结果不理想。长读长测序已经被用来尝试减轻这些问题,如Nicholls等人和Sevim等人的研究。特别是Moss等人的研究,其成果优化了纳米孔测序的长读长文库制备方案,并获得了更完整的细菌基因组。

但实际应用中,长读长测序是昂贵的。虽然链读序列(linked-reads)的基因组组装的质量无法与PacBio CCS的长读长相提并论,但其低成本和高碱基质量的优点是值得去使用的。

  方 法  

01   三组链读序列数据集的来源及构成:

模拟数据(simulated data):

从MBARC-26数据集中下载了23个细菌和3个古细菌菌株,按丰度分类,L-sim,低丰度微生物,摩尔浓度<10-15;M-sim,中等丰度微生物,10-15 < 摩尔浓度 < 10-14;H-sim,高丰度微生物,摩尔浓度 > 10-14

模拟菌群(mock community):

(ATCC MSA-1003)是一个由20个菌株组成的池,同样按丰度分类,L-mock,低丰度微生物;M-mock,中等丰度微生物;H-mock,高丰度微生物;UH-mock,超高丰度微生物。

人类肠道菌群:

一份来自健康的中国人粪便样本

02  DNA提取、文库制备和测序:

对于模拟菌群,从ATCC 20菌株交错的混合基因组材料中提取DNA,不进行大小选择。

对于人类肠道菌群,用Qiagen QiAaMP粪便迷你试剂盒提取DNA,去掉5kb以下的DNA片段。

脉冲场凝胶电泳后,按照厂商的说明制备10x Chromium文库。使用Illumina XTen双端2x150bp测序。人类肠道微生物组的DNA也被用于标准的Illumina XTen短序列测序。

03  DNA长片段重建和链读序列二次抽样:

Long Ranger v2.2.1用于纠正barcode碱基错误,计算PCR重复率,并完成barcode感知的链读序列比对。

使用BWA-MEM v0.7.17比对短序列和没有barcode的链读序列。根据映射得到的具有共同的barcode的短序列的坐标重建DNA长片段。

链接序列首先按barcode排序,然后按它们的映射坐标排序。如果最近的barcode序列大于50kb,则终止延伸长DNA片段。每个片段必须包括至少两个具有共同barcode的成对序列,并且最小长度为2kb。

04   宏基因组组装:

对于链读序列的组装,没有 barcode 的链读序列首先由 metaSPAdes v3.11.1使用默认参数组装为“seed”重叠群,并通过BWA-MEM v0.7.17与重叠群比对。

最后使用 Athena-meta v1.3 通过汇集在 scaffold 中的两个“seed”重叠群里共享相同 barcode 的序列进行局部组装。

05   组装效果评估:

MaxBin v2.2.4将长于1kb的重叠群分组到bins中,并通过CheckM v1.0.12评估其完整性和污染率。

Quast v5.0.0统计了基础信息,如重叠群的N50、NG50、NGA50、总比对长度(total aligned length)和基因组覆盖率(genomic coverage)。

Kraken v0.10.6基于内置数据库MiniKrakenDB为bins做物种注释。每个bins都作为一个基因组草图,被分类为高质量的(完整性>90%,污染率<5%),中等质量的(完整性≥50%,污染率<10%),低质量的(完整性<50%,污染率<10%)

主要结果

来自人类肠道菌群和Illumina短序列链读序列二次抽样的组装效果统计

ILLU,Illumina短序列的组装

SC-all,模拟菌群和人类肠道菌群总共的两个测序lane链读序列

在链读测序中,有四个关键参数可能会影响宏基因组组装,如下图。

这些参数中有几个是相互依赖的。例如,输入DNA的量越大,CFNF/P都会增加,CR就会降低;CFCR的绝对值是由总读取深度(C)增加多少来设置的,因为CR×CF=C

L-sim,模拟数据中的低丰度微生物,青色

M-sim,模拟数据中的中等丰度微生物,蓝色

H-sim,模拟数据中的高丰度微生物,红色

L-mock,模拟菌群中的低丰度微生物

M-mock,模拟菌群中的中等丰度微生物

H-mock,模拟菌群中的高丰度微生物

UH-mock,模拟菌群中的超高丰度微生物

“-”表示测序lane的倒数,例如MSCR4/MSCF4表示四分之一测序lane的序列被二次采样

MSCR-,模拟菌群中的短序列

MSCF-,模拟菌群中的长DNA片段

MSC-1,模拟菌群和人类肠道菌群总共的一个测序lane链读序列

SC-all,模拟菌群和人类肠道菌群总共的两个测序lane链读序列

相关阅读:

宏基因组的一些坑和解决方案

参考文献:

Zhang L, Fang X, Liao H, Zhang Z, Zhou X, Han L, Chen Y, Qiu Q, Li SC. A comprehensive investigation of metagenome assembly by linked-read sequencing. Microbiome. 2020 Nov 11;8(1):156. doi: 10.1186/s40168-020-00929-3. PMID: 33176883; PMCID: PMC7659138.

He S, Chandler M, Varani AM, Hickman AB, Dekker JP, Dyda F: Mechanisms of evolution in high-consequence drug resistance plasmids. MBio 2016;7(6): e01987–16.

Peng Y, Leung HC, Yiu SM, Chin FY. IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth.Bioinformatics. 2012;28(11):1420–8.

Li D, Liu CM, Luo R, Sadakane K, Lam TW. MEGAHIT: an ultra-fast singlenode solution for large and complex metagenomics assembly via succinct de Bruijn graph. Bioinformatics. 2015;31(10):1674–6.

Nurk S, Meleshko D, Korobeynikov A. Pevzner PA: metaSPAdes: a new versatile metagenomic assembler. Genome Res. 2017;27(5):824–34.

Nicholls SM, Quick JC, Tang S, Loman NJ. Ultra-deep, long-read nanopore sequencing of mock microbial community standards. Gigascience. 2019;8(5): 1–9.

Sevim V, Lee J, Egan R, Clum A, Hundley H, Lee J, Everroad RC, Detweiler AM, Bebout BM, Pett-Ridge J, et al. Shotgun metagenome data of a defined mock community using Oxford Nanopore, PacBio and Illumina technologies. Sci Data. 2019;6(1):285.

1