用于CAZyme研究领域的数据库——dbCAN-seq数据库更新

用于CAZyme研究领域的数据库——dbCAN-seq数据库更新

谷禾健康

什么是CAZymes?

CAZymes(碳水化合物活性EnZymes)是一种,主要以糖苷键为目标,降解、合成或修饰地球上的所有碳水化合物。CAZymes在植物和植物相关微生物中非常丰富。

例如,人体肠道是富含碳水化合物的环境,碳水化合物降解细菌的多样性非常高。肠道微生物组的CAZyme组合组成了数以万计的附加基因。

CAZymes对人类健康营养肠道微生物组、生物能源、植物疾病和全球碳循环的研究极为重要。

在过去的5年里,大量的微生物组测序,来自各种生态环境的数十万个宏基因组组装基因组 (MAGs) 现在可以在公共数据库中获得。

例如欧洲生物信息学研究所的MGnify数据库和 IMG/M联合基因组研究所数据库。目前,没有数据库从微生物组MAG中收集CAZymesCAZyme基因簇(CGC)并在网络上提供它们。

✦CAZyme研究对人体健康非常重要

与此同时,CAZyme生物信息学领域继续发展。现在可以推断CAZymes和CGCs的碳水化合物底物,这对应用微生物组非常有兴趣。例如,基于微生物组的个性化营养旨在使用个性化饮食干预策略来调节人体肠道微生物组,以改善人体健康

预测患者肠道微生物组可能对哪些益生元聚糖做出反应的能力将对营养师和营养学家提出个性化饮食建议非常有用。

✦最新更新了dbCAN-seq数据库

最近在内布拉斯加大学的团队在Nucleic Acids Research发表的题为:“dbCAN-seq update: CAZyme gene clusters and substrates in microbiomes”的文章,更新了dbCAN-seq数据库 ( https://bcb.unl.edu/dbCAN_seq)

包括以下新数据和特征:

(i)来自四种生态(人类肠道、人类口腔、牛瘤胃和海洋)环境的9421个MAG~498000个CAZyme和~169000个CAZyme基因簇(CGC);

(ii) 通过两种新方法(dbCAN-PUL 同源搜索和 eCAMI 亚家族多数表决)推断的41447(24.54%) 个CGC的聚糖底物(这两种方法就4183个CGC的底物分配达成一致);

(iii) 重新设计的CGC页面,包括CGC基因组成的图形显示、查询 CGC 和 dbCAN-PUL 的主题PUL(多糖利用位点)的比对,以及支持预测底物的 eCAMI 亚家族表;

(iv) 一个统计页面,用于根据底物和分类门组织所有数据,以便于CGC访问;

(v) 批量下载页面

总之,这个更新的dbCAN-seq数据库突出显示了预测来自微生物组的CGC的聚糖底物

文章简介

dbCAN-seq数据库于2018年发布,提供了5349株细菌分离株基因组的CAZyme和CGC (CAZyme基因簇)序列及注释数据。

CGC是研究人员定义的一个术语,用于描述微生物基因组中含有CAZyme的基因簇

PUL指多糖利用位点,是一个更流行的术语,描述利用复杂碳水化合物底物的基因簇,例如XUL(木聚糖利用位点),ChiUL(几丁质利用位点)和XyGUL(木聚糖利用位点)。随着CAZyme在生物信息学领域的发展,dbCAN-seq也紧跟步伐,推出了新的版本。

在dbCAN-seq数据库的更新中,主要取得了两个重要的进展:

(i) dbCAN-seq现在提供了四个生态环境(人类肠道,人类口腔,牛瘤胃,海洋)的微生物组的全面的CAZyme和CGC目录。

(ii) dbCAN-seq使用了两种新的方法来预测微生物组CGCs的底物,并提供了底物查阅功能,允许搜索针对不同微生物组中预测的特定底物的CGCs

更新内容

1
新增人类肠道、人类口腔、牛瘤胃和海洋生物组的CAZyme及CGCs

对EBI MGnify数据库中的4个MAG数据集,选取其中质量最好的代表性基因组,如下表,一共9421个基因组,使用dbCAN2的run_dbcan程序进行注释,可见有近50万个蛋白质被注释为CAZymes。

人类肠道MAG中CGCs的CAZymes比例最高(55.87%),而牛瘤胃中CGCs的CAZymes比例最低(45.45%)。

2
预测CGCs的碳水化合物底物

在预测出CGCs之后,研究人员开发了两种计算方法来推断它们的糖基底物,如下图。

第一种方法

使用BLAST比对CGCs的蛋白质序列(图A)与dbCAN-PUL的612个PULs的蛋白质序列(图B),选择BLAST总评分最高的最佳命中且至少有一个CAZyme与至少一个来自其它特征基因类别,如TC、TF等相匹配(例如图C),然后通过表S1,PUL→底物的映射文件,获知对应的底物;

第二种方法

使用eCAMI工具对CAZyme亚家族进行注释(图D),确定了CAZyme蛋白的eCAMI亚家族和EC数量后,根据eCAMI亚家族和EC编号建立的CAZyme亚家族→EC→底物的映射文件(表S2),使用简单的多数投票规则来推断CGC中的底物分配。

通过以上两种方法,目前dbCAN-seq数据库中新增的预测底物的CGC计数如下图:

图A为用dbCAN-PUL方法和eCAMI亚族方法注释CGCs的韦恩图。

图B各数据集中丰度top20的底物。

3
网页设计

dbCAN-seq的官网为:

如下图,网站也新增了版块:

图A可选五个数据集。

图B可按目录浏览。

图C和D分别为支持通过eCAMI或dbCAN-PUL预测的底物查询对应的CGCs

dbCAN-seq数据库未来的发展

研究人员计划每年更新dbCAN-seq数据库,以包含更多生态环境的MAG数据集,例如来自小鼠、猪、山羊的肠道MAG,以及来自土壤和地球微生物组项目的MAG。

也会继续探索用于底物预测的方法,比如无监督机器学习方法,以预测自然界中未知的底物的新型CGCs。

Leave a Reply

客服