Tag Archive 标注化注释

新方法工具 | 标准化注释细菌基因组

谷禾健康

在细菌全基因组测序数据分析中,区域(regional)和功能注释已经成为常规操作。一个完整的基因组注释是下游分析的基础,而注释的准确性和全面性往往影响研究结果。


最近来自德国一个生物信息学团队们开发了Bakta,一款新的命令行工具,用于自动化和标准化的细菌基因组注释。该文章最近在《MICROBIAL GENOMICS》公开发表。

作者认为现有的各种注释软件工具都在以下问题留下了改进的空间:

1. 尽管早在20年前就发现了以前被忽视的保守的短ORF(sORF),但它们既不能预测也不能检测到短于29个氨基酸的小蛋白的编码序列(CDS),因为在基因预测工具中实施了基因长度截断,以减少错误的从头预测的数量。

2. 它们不识别存储在公共数据库(如RefSeq和UniRef100)中的已知蛋白质序列,因此不能分配数据库交叉引用(dbxref),即稳定的公共数据库标识符,方便与更详细的数据库互连。

3. 对于跨越人工序列边的CDS结构注释,没有考虑附加的序列信息,即完整性和拓扑结构。

为了解决这些问题,团队们开发了Bakta。它为编码和非编码基因提供了全面的注释工作流程,并加之CRISPR阵列、gaps、oriC和oriT特征的预测。与其他轻量级注释管道不同,Bakta能够通过自定义的sORF提取和过滤步骤来检测和注释小分子蛋白。而CDS注释流程通过一种基于哈希的、无需比对的蛋白质序列识别方法。

注:CRISPR,clustered regularly interspaced short palindromic repeats

此外,这种新的方法便于通过稳定的标识符交叉引用公共数据库来标注CDS。

方 法

软件工作流程如下图。

输入文件为fasta格式的基因组组装序列。

选择输入序列元数据文件或Prodigal软件提供的training文件。非编码基因,比如tRNA使用tRNAscan-SE预测和注释。

gaps、oriC和oriT等特征的预测用BLAST+工具。利用Prodigal预测CDS,使用BioPython提取短于30个氨基酸的小蛋白的sORF。

HMMER和AntiFam分别过滤假阳性序列和重复的sORF。为了加快对CDS和sORF的注释,使用无比对序列鉴定(AFSI),即通过全长蛋白序列MD5哈希算法相关蛋白质序列长度检查进行鉴定的组合过程。使用Diamond和UniRef90比对识别剩余的未识别蛋白质序列。

Bakta有自建的SQLite数据库,用于识别查找UniRef100, UniRef90、UniRef50、RefSeq、COG、EC 、GO、耐药基因、VFDB等。对于还是没有明确注释的CDS标记为假设蛋白(Hypotheticals),通过HMMER使用Pfam HMM图谱筛选蛋白质结构域。

性能评估

通过与其它软件工具进行基准测试,评估Bakta的性能。

首先是注释得到的特征结果之间的比较。作者选择E. coli O26 : H11 strain 11368菌株的基因组,分别使用Prokka、DFAST、PGAP与Bakta比较,如下表。对于CDS,PGAP和Bakta预测到更多的基因。在CDS序列的功能注释方面,PGAP和Bakta表现最好,且Bakta是唯一一个分配到GO术语的工具。

其次是功能注释的性能基准测试。选择来自RefSeq的35个不同分类的细菌基因组进行注释。统计其假设蛋白占总CDS的比例,如小提琴图。

同时统计了在没有用AFSI(Bakta w/o AFSI,只是用Diamond比对序列)和使用AFSI的假设蛋白占总CDS的比例,两者之间的差异只有0.9%。

由此得出,AFSI对RefSeq中检测到的小蛋白的功能注释贡献很。表格中展示了Bakta检测到的小蛋白参与的一系列与致病性高度相关的重要过程,以及更一般的细胞内务管理过程。

最后比较了Bakta的运行时间、内存消耗存储需求。在具有4个Intel Xeon E5-4627CPU和总共40个核的服务器机器上,使用不同数量的CPU连续三次测量注释E.coli O26:H11 strain11368的PROKKA、DFAST、Bakta和不使用AFSI的Bakta的运行时间。

结果如下图和表格。Bakta虽然运行时间时最慢的,但它所包含的数据库内容是最多的,其分析深度也有很大提高。对比没有使用AFSI的Bakta,在同等条件下,使用AFSI大大提高了序列注释的速度

其它优势

Bakta可以对宏基因组的MAG进行注释,在与DFAST和Prokka的比较中,Bakta依旧是假设蛋白占总CDS比例最低的;注释结果格式符合INSDC标准;在线版Bakta应用程序,提供交互式GUI向导,可输入数据与命令行工具一样,适合不太熟悉命令行操作的研究员,地址:bakta-web-ui (computational.bio)

结 语

通过以上的工作流程介绍和性能评估,该软件有如下优势:

1 Bakta在已知和未知物种的分类范围内对CDS序列的功能注释方面优于现有工具

2 Bakta能够检测和注释当代预测工具无法预测的小蛋白,比如在使用Prodigal和MetaGeneAnnotator工具预测时

3 Bakta能够精确识别已知的蛋白质序列,并分配RefSeq和UniProt数据库标识符

4 新的AFSI方法加速了Bakta的功能注释工作流程

5 Bakta利用序列元数据改进了CDS的结构预测

6 Bakta以功能类别(COG、EC和GO)为CDS提供了同等或更全面的注释

目前看来,较为明显的缺点就是运行时间长,虽然提供了Web版本,但如果样本数量较大,还是需要在linux上运行。

参考文献:

Schwengers O, Jelonek L, Dieckmann MA, Beyvers S, Blom J, Goesmann A. Bakta: rapid and standardized annotation of bacterial genomes via alignment-free sequence identification. Microb Genom. 2021 Nov;7(11). doi: 10.1099/mgen.0.000685. PMID: 34739369.

1
客服