Tag Archive 数据库管理

一套用于建立和管理微生物相互作用数据库的体系

谷禾健康

在过去的几十年里,生物技术和计算技术的巨大进步彻底改变了我们对微生物群落的理解。特别是,基于16S rRNA宏基因组测序的研究进一步验证了一个事实,即微生物群不是静态的实体,而是动态的生态系统,身在其中的组成成员之间,以及成员与环境之间,都在以各种方式进行相互作用

在这些研究过程中产生了大量的关于微生物相互作用的机制和环境依赖性的数据,也出现了许多专门储存单一类型或进行了部分分类整合的数据库。但由于是以不同的标准去整理的数据,所以很难共享。

//

本文研究人员提出了一套体系,用于微生物组数据管理,简称FAIR (findable, accessible, interoperable, and reusable),即可查询、可访问、可交互和可重复使用。这些原则于2016年首次正式提出。

FAIR体系之findable和accessible

首先基于可查询可访问的原则,需要数据库,它能存储现有数据也能继续转化新的数据。这个平台可以是自己从零开始设计,可以是使用现成的数据库构建工具作为辅助(比如mako软件),也可以是直接使用已有的数据库,比如GloBI

关于数据获取,文中列出了一些资源,都是目前广泛使用或者比较独特的,如下表:

FAIR体系之interoperable和reusable

其次基于交互性可重复使用的原则,需要将大数据拆分为一个个子集,每一个子集都应该是能满足大量用户的第一需求或者说是第一想了解的信息点。基于此,研究人员提出了四类元数据作为起点:

  • 微生物实体 (microbial entities)
  • 相互作用的推理方法 (interaction inference methods)
  • 相互作用的上下文语境 (interaction context)
  • 属性 (attributes)

1. 微生物实体

应提供参与相互作用的每种微生物的物种(和菌株,如果相关)名称

示例:

2. 相互作用的推理方法

使用不同的方法来指示高度相关的元数据。

示例:

3. 相互作用的上下文语境

一些环境背景,如生物群落(例如,宿主相关的、合成的)。

示例:

4. 属性,用于定义互作关系的类型

如合作、对抗、关联、成对或高阶等。

示例:

利用FAIR体系进行研究的思路

最后,文章中给出了依照FAIR体系研究微生物互作关系的可拓展性

如下图,通过研究微生物相互作用和相关性(A部分)而产生的多种类型的元数据(B部分),这些元数据(DT),例如真菌细菌或噬菌体细菌的培养实验数据(DT1),扩增子序列或OTU计数的相关性(DT2),两个或两个以上物种基因组尺度代谢网络的通量平衡模型(DT3),直接比对到特定数据库(DT4)。

遵循FAIR里的四个原则解析微生物互作内容(C部分),解析结果如D部分,得到一个可能的相互作用网络关系图谱。

同时,C部分的内容可以横跨不同领域,为不同领域的专家提供信息,例如E部分,建模者可以更容易确定具体的互作以便真实的模拟生态动力学,而实验人员可以评估是否有新的互作在其他宿主或上下文中被报告。

总结及展望

以上内容,是研究人员基于自身经验归纳总结的,研究人员也指出在此概述的实践、标准和示例并不是详尽无遗的,文章旨在促进进一步讨论如何改进微生物相互作用及其属性数据的访问和可用性。希望能进一步的激励各位科学家,共同创建一个共享开放的,拥有统一标准的微生物相互作用资源站。

参考文献:

Pacheco AR, Pauvert C, Kishore D, Segrè D. Toward FAIR Representations of Microbial Interactions. mSystems. 2022 Aug 25:e0065922. doi: 10.1128/msystems.00659-22. Epub ahead of print. PMID: 36005399.

RESCRIPt:序列分类参考数据库管理工具

谷禾健康

分类分析的研究,依赖于高质量的序列分类参考数据库,然而,目前已有记录公共序列数据库中出现错误,这些错误可能导致下游结果出错。不同的参考数据库对生物数据的分类结果差别很大,但缺乏客观评价单个数据库质量的标准

有人选择自行构建特定于环境的数据库,但生成这样的数据库在技术上具有挑战性,导致了研究人员难以获取适当参考材料,或者对专有资源和服务有很大的依赖性

为了满足可重复的生物信息学工作流程,以简化数据库生成和管理,来自阿肯色大学的Michael等人开发了一款新的工具——RESCRIPt. 该文章最近发表在《PLOS COMPUTATIONAL BIOLOGY》上。

RESCRIPt是一个独立的python3软件包,也是QIIME 2插件。用于参考序列分类数据库的可重复构建和管理,主要功能是格式化主流的公共数据库内序列用以自建分类数据库,由于处理步骤是透明化的,所以用户可以为不同的研究应用创建参考材料。

次要功能有评估、比较和交互探索参考数据库的定性和定量特征的功能。RESCRIPt使用QIIME 2文件格式,对每个处理步骤都生成专一的文件存储,使用户可以随时追溯任一计算步骤

文章中,作者使用RESCRIPt对几个常用的16S rRNA基因、ITS和COI序列的参考数据库利用RESCRIPt进行了评估,并探讨了RESCRIPt目前存在的问题和未来的目标。

RESCRIPt工作流程

RESCRIPt处理和管理参考数据库的工作流程

实线箭头表示建议的流程。虚线的箭头和边框表示自定义工作流程时的可选步骤。

RESCRIPt可以有效和透明的构建任何存在源数据的扩增子的参考数据库,以及来自NCBI的全基因组。

“Get Data”:获取源数据,可以直接从SILVA和NCBI GenBank数据库中自动下载序列和分类

“Format Data”:格式化数据,包括基本的序列操作、逆转录和解析分类。

“Filter Data”:过滤数据,根据序列的质量或长度过滤以及根据分类和分类单元所在的序列长度过滤。

“Modify Data”:修改数据,去重复、合并分类或聚类。

“Evaluate Data”:评估, 对序列的一般质检,以及对分类准确率的评估。

详细的操作命令,见:
bokulich-lab/RESCRIPt: REference Sequence annotation and CuRatIon Pipeline (github.com)

RESCRIPt比较评估目前常用的四种16S rRNA基因数据库,分别为SILVA、Greengenes、GTDB和NCBI-RefSeq

从结果上看,在这些数据库中,SILVA数据库展示了最多的唯一序列和物种数,但是SILVA缺乏种水平的分类管理,其在种水平的分类准确率为0.73,远远于其他16S rRNA基因数据库。相比之下,SILVA在属水平上的分类准确率得多。

NCBI-RefSeq的参考序列质量最高,分类准确率为0.94。

GTDB表现出略低的分类准确率0.92。

Greengenes13_8含有大量独特的序列和与SILVA相似的序列信息熵,但在属(54%)和种(90%)水平上有许多没被注释的序列。这表明该数据库中的大量序列在遗传上相似(≥98%),但在分类上是不同的,产生了不明确的标签

各数据库的序列信息

图A. 序列长度分布(去除异常值后);

图B. 每个数据库中唯一序列的数量;

图C. 每个数据库中全长序列和不同kmer长度的熵。

各数据库的分类信息和模拟分类的准确率比较

图A.唯一分类标签的数量。 图B.分类熵。

图C.在每一层级上未分类物种的比例。 图D.分类准确率。

横轴表示分类水平域门纲目科属种。

各数据库的分类覆盖率比较

每张子图表示该数据库与其他数据库在每个分类水平上共享的分类群比例。图例指出了要相互比较的数据库。

RESCRIPt比较评估不同过滤步骤对16S rRNA基因SILVA数据库的影响

RESCRIPt使用get-silva-data命令获取SILVA序列和分类文件。“get-silva-data”命令允许选择下载哪个版本的数据库,是否下载LSU、SSU序列或SSU NR99序列,以及使用哪个分类水平和分类解析的选项等其它选项。

对16S rRNA基因SILVA数据库中每个连续序列使用不同RESCRIPt的质量过滤步骤后的序列信息比较

图A.序列长度分布。图B.唯一序列的数量。

图C.全长序列和不同kmer长度的熵。

图例中Base指完整的NR99 SILVA数据库;Culled指在序列中去掉8个或更多的均聚物(homopolymers)和/或5个具有歧义的碱基(ambiguous bases);

LengFiltByTax指基于分类学对数据进行序列长度过滤,即去除长度小于900 bp和小于1200 bp的古菌和细菌序列

DereplicateUniq指使用“uniq”模式对分类和序列去重,即任何具有不同分类的相同序列不会被合并

NoAmbigLabels指任何与具有歧义的标签(通常在较低的分类级别) 相关的序列都从数据集中删除

结果表示Culled和LengFiltByTax步骤对序列的影响是有益的,而NoAmbigLabels方法会过多丢失序列信息。

各过滤步骤下序列分类信息和模拟分类准确率的比较

图A. 唯一分类标签的数量。图B.分类熵。

图C. 无需交叉验证的最佳分类准确率(当真实标签已知,但分类准确率可能被数据库中其他类似的命中混淆时,模拟可能的最佳分类准确率)。

图D. 使用交叉验证的分类准确率(在不知道正确标签的情况下模拟真实的分类任务)。

横轴表示分类水平域门纲目科属种。除了NoAmbigLabels的分类注释外,质量过滤对分类准确率的影响微乎其微。

RESCRIPt评估在多个OTU%相似性阈值下聚类的Greengenes数据库(13_8版本)的多个数据库质量特征

结果表示相似性阈值的降低导致了信息丢失,在属和种水平上,唯一分类标签的数量迅速减少。相反,相似性阈值的增加使得分类准确率上升

这表明,即使选择了认为合适的相似度阈值也可能对数据库的信息内容和分类准确率产生负面影响。但作者还是建议不要在任何标记基因序列数据库中使用相似度<99%的OTU聚类

图A. 唯一分类标签的数量。 图B.分类熵。

图C. 在每一层级里分类单元的数目。

图D. 无需交叉验证的最佳分类准确率(当真实标签已知,但分类准确率可能被数据库中其他类似的命中混淆时,模拟可能的最佳分类准确率)。

图E. 使用交叉验证的分类准确率(在不知道正确标签的情况下模拟真实的分类任务)。

横轴表示分类水平域门纲目科属种。图例指示不同的OTU%相似性阈值。

RESCRIPt评估不同处理步骤下的UNIT ITS真菌序列数据库

结果表示OTU聚类方法里,97%比99%比动态聚类,对结果的影响最小含所有真核生物的数据库所包含的序列是仅含真菌序列数据库的两倍多,但其分类准确率是最低的。

只含目水平或更低级别分类水平的真菌序列数据库在分类准确率上提升最大

对UNIT ITS数据库的三种类型UNIT_97,UNIT_99,UNIT_dynamic数据库分别进行划分

Euks表示含所有真核生物序列,Fungi表示只含真菌序列,Fungi Order表示只含目水平或更低级别分类水平的真菌序列。

图A. 唯一分类标签的数量。 图B. 分类熵。

图C. 在每一层级里分类单元的数目。

图D. 无需交叉验证的最佳分类准确率(当真实标签已知,但分类准确率可能被数据库中其他类似的命中混淆时,模拟可能的最佳分类准确率)。

图E. 使用交叉验证的分类准确率(在不知道正确标签的情况下模拟真实的分类任务)。横轴表示分类水平域门纲目科属种。

RESCRIPt评估用于后生动物分类鉴定的COL基因数据库

首先比较评估了不同序列处理步骤下的BOLD COL基因数据库(BOLD全称Barcode of Life Data Systems)。

结果表示聚类序列大大减少了未修剪和引物修剪的BOLD COI数据集中唯一序列的数量,经引物修剪也会降低唯一序列的数量。且在种水平上表现最明显。聚类和引物修剪也降低了分类准确性。数据表明OTU聚类不利于COI基因分类。

图例中Full表示未修剪的全长序列,ANML表示经引物修剪后的序列,后边接的数字表示相似性聚类阈值。Arthropod指节肢动物,chordate指脊索动物。图A.唯一分类标签的数量。图B.不同kmer长度的分类熵。横轴表示不同数据库。

图A.唯一分类标签的数量。图B.分类熵。

图C.在每一层级里分类单元的数目。

图D. 无需交叉验证的最佳分类准确率(当真实标签已知,但分类准确率可能被数据库中其他类似的命中混淆时,模拟可能的最佳分类准确率)。

图E. 使用交叉验证的分类准确率(在不知道正确标签的情况下模拟真实的分类任务)。横轴表示分类水平域门纲目科属种。

其次评估比较了从BOLD或NCBI GenBank获得的去重复和引物修剪的COL基因数据库

数据表明,整体看NCBI的唯一序列,但局部看,NCBI在属水平种水平上有更多唯一序列。从分类准确率看,NCBI相对于BOLD,从科到种水平都有提高

数据集分别为boldANML(BOLD COL基因数据库)、ncbiAll(ncbiNB与ncbiOB的集合)、ncbiNB(不含BOLD COL基因序列的NCBI GenBank COL基因数据库)、ncbiOB(含BOLD COL基因序列的NCBI GenBank COL基因数据库)。图A.唯一分类标签的数量。图B.不同kmer长度的分类熵。横轴表示不同数据库。

图A. 唯一分类标签的数量。 图B. 分类熵。

图C. 在每一层级里分类单元的数目。

图D. 无需交叉验证的最佳分类准确率(当真实标签已知,但分类准确率可能被数据库中其他类似的命中混淆时,模拟可能的最佳分类准确率)。

图E. 使用交叉验证的分类准确率(在不知道正确标签的情况下模拟真实的分类任务)。横轴表示分类水平域门纲目科属种。

RESCRIPt的局限性

RESCRIPt旨在为研究人员提供可重现的核苷酸序列和分类学数据库生成、整理和评估的工具。它不是一个数据源,也不是分类学、系统学或数据质量方面的权威,并且RESCRIPt生成的评估结果也不是质量或准确性的可靠指标。

与任何生物信息学方法一样,RESCRIPt输出的质量取决于其输入的质量和用户作出的处理决策。一般来说,用户应该使用多个指标来指导他们对RESCRIPt结果的解释,但在对数据库质量作出结论之前,还需要了解输入数据的组成

RESCRIPt的未来目标

RESCRIPt目前的版本已经兼容宏基因组数据库。未来将计划提供更多的基因组和宏基因组功能。例如用于(元)基因组距离估算的ANI和MASH方法,以及用于(元)基因组数据库分类精度估算的方法。会增加学界里常用的公共在线数据库获取序列和分类的方法

结语

RESCRIPt作为一个Python3软件包和QIIME 2插件,可以用conda安装也可以docker运行,或者在已有的qimme2环境中安装。

通过RESCRIPt工具可以独立完成序列的获取、修剪、过滤、去重、聚类整合为数据库,并且可以对多个数据库进行评估比较。每个处理步骤会有独立的日志文件生成和中间文件生成,便于溯源和重现该流程。只是庞大的数据库和庞大的功能在计算资源消耗这方面肯定不容小觑,虽然文章中没有提及这方面的内容,但作为使用者不能忽视。

关于安装和测试使用还是要仔细阅读官方手册,地址:

参考文献:

Robeson MS 2nd, O’Rourke DR, Kaehler BD, Ziemski M, Dillon MR, Foster JT, Bokulich NA. RESCRIPt: Reproducible sequence taxonomy reference database management. PLoS Comput Biol. 2021 Nov 8;17(11):e1009581. doi: 10.1371/journal.pcbi.1009581. PMID: 34748542; PMCID: PMC8601625.

1
客服