TaxiBGC ——分类学指导下的生物合成基因簇鉴定流程

TaxiBGC ——分类学指导下的生物合成基因簇鉴定流程

谷禾健康

当前合成基因簇预测限制较大

微生物基因组中的生物合成基因簇 (BGC) 编码具有生物活性的次级代谢物 (SM),它可以在微生物-微生物宿主-微生物相互作用中发挥重要作用。

鉴于次级代谢物的生物学意义和当前对微生物组代谢功能的深刻兴趣,从高通量宏基因组数据中无偏见地鉴定生物合成基因簇可以为微生物群的复杂化学生态提供新的见解。

目前可用于从鸟枪法宏基因组预测生物合成基因簇的工具有几个局限性,包括需要计算要求高的读取组装、预测范围窄,以及不提供次级代谢物产品。

为了克服这些限制,最近发在mSystems的一篇技术文章:

《TaxiBGC: a Taxonomy-Guided Approach for Profiling Experimentally Characterized Microbial Biosynthetic Gene Clusters and Secondary Metabolite Production Potential in Metagenomes》

介绍了他们的研发成果,他们开发了生物合成基因簇(TaxiBGC)的分类指导识别,这是一种命令行工具,用于通过首先精确定位可能存在合成基因簇的微生物物种来预测宏基因组中实验特征化的合成基因簇(并推断其已知的次级代谢物)。

并在各种模拟宏基因组上对TaxiBGC进行了基准测试,表明与通过将测序读数映射到BGC基因上来直接识别BGC(平均F1得分,0.49;平均PPV得分,0.41)相比,该分类法指导的方法可以预测BGC,其性能大大提高(平均F1分数,0.56;平均PPV得分,0.80)。

接下来,通过将TaxiBGC应用于人类微生物组项目的2650个宏基因组和各种病例对照肠道微生物组研究,我们能够将BGC(及其SM)与不同的人体部位多种疾病(包括克罗恩病和肝硬化)相关联

总之,TaxiBGC提供了一个计算机平台来预测实验表征的生物合成基因簇及其在宏基因组数据中的次级代谢物生产潜力,同时展示了优于现有技术的重要优势。

文章简介

TaxiBGC (Taxonomy-guided Identification of biosynthesis Gene Clusters),用于从鸟枪法宏基因组测序数据中预测实验表征的生物合成基因簇(BGCs)及其已知的次生代谢物(SMs)(也称为天然产物)。

SMs是一组低分子量、结构多样、具有生物活性的化合物,这些化合物包括细菌真菌细胞间的信号分子、色素、细菌素和铁载体,已知它们主要介导了微生物生态系统中的关键相互作用

此外,微生物次生代谢物是抗生素、抗真菌药、抗癌药、免疫抑制剂和其他药物的重要来源。例如,生物碱被发现对人类癌细胞系具有细胞毒性活性,并抑制耐甲氧西林金黄色葡萄球菌(MRSA)和耐万古霉素肠球菌(VRE)的生物膜形成。而微生物中主要负责合成、修饰和输出次生代谢物的基因通常存在于生物合成基因簇中。

TaxiBGC的计算流程

TaxiBGC计算流程主要有三个步骤,如下图。

第一步使用Metaphan3对宏基因组进行物种注释

第二步通过查询TaxiBGC参考数据库中的这些物种(第一步中得到的)来进行BGCs的初步预测

第三步使用BBMap基于序列比对来对初步预测的结果进一步确认

TaxiBGC参考数据库内容

TaxiBGC参考数据库提供了实验表征的生物合成基因簇、相应的次级代谢物以及来源物种(种水平或菌株)三者的映射关系

如下图,数据库内包含390个独特的携带BGCs的微生物物种,953个独特的实验表征的BGCs,以及总共1169个SMs。一个物种可携带的BGCs数量差异很大,在所有物种中,有217种(55.6%)只携带一个BGC(图B)。

BGC中的基因数量也有很大差异,953个BGCs中的大多数只有不到25个生物合成基因(图C),但大多数BGCs只产生1种SM(图E)。

TaxiBGC预测BGCs的性能

在TaxiBGC中,确定宏基因组中是否存在BGCs主要取决于以下两条标准:

  • BGC基因存在阈值,即被宏基因组读长覆盖的BGC基因的最小百分比长度;
  • BGC覆盖阈值,即在宏基因组中发现的BGC基因总数的比例。

为了确定这两个阈值,研究人员在125个模拟宏基因组上测试了400对BGC基因存在的阈值(以5%的增量,5%~100%区间)和BGC覆盖率(以5%的增量,5%~100%区间)。将预测的BGCs与实际BGCs进行比较,计算出F1分值。

如图A,当BGC基因存在阈值为5%且BGC覆盖阈值为10%时,TaxiBGC在所有模拟宏基因组中预测BGC的性能最佳(mean F1 score=0.56)。

图BCD分别为在最佳阈值下,不同数量的宏基因组样本、文库大小、携带BGC的物种的相对丰度状态下对TaxiBGC预测准确性的影响,结果推荐在至少1000万读长的宏基因组上使用TaxiBGC。

TaxiBGC的优势与不足

★ 优势

1. 可以直接用于宏基因组,无需基因组装;

2. 预测模拟宏基因组中BGCs的能力优于直接检测BGCs的方法;

3. TaxiBGC已经应用于以下9项已发表的病例对照研究中的1433个肠道微生物组(即粪便宏基因组)样本:

  • 3项克罗恩病(CD)研究
  • 4项结直肠癌(CRC)研究
  • 针对类风湿关节炎(RA)和肝硬化的各一项研究

在这些研究中都发现了与疾病相关的BGCs。

✦不足

1.当metaphan3无法识别所有携带BGCs的物种时,TaxiBGC将无法准确地预测整个BGCs的范围;

2.关于BGCs物种来源的预测需要谨慎解读,原因是在宏基因组的“mixed bag of genes”背景下,一个特定BGC的基因元件可能来自其它BGCs和多个物种;

3.虽然极力减少了假阳率,但可能出现假阴性

4.TaxiBGC只提供少数SM产物的化学家族,而不提供特定的分子结构,如糖肽脂和胞外多糖;

5.TaxiBGC目前只用于预测已知的BGCs,其预测不能扩展未经验证的BGCs。

参考文献

Approach for Profiling Experimentally Characterized Microbial Biosynthetic Gene Clusters and Secondary Metabolite Production Potential in Metagenomes. mSystems. 2022 Nov 15:e0092522. doi: 10.1128/msystems.00925-22. Epub ahead of print. PMID: 36378489.

Leave a Reply

客服