谷禾健康
当前微生物组研究面临的主要挑战包括数据的成分特性、高维度、分类单元间的系统发育关系以及潜在的多种效应模式——即少数几个具有中等强度效应的微生物和大量具有微弱累积效应的微生物可能共同影响宿主健康。
为了应对这些挑战,近日,来自美国大通福克斯肿瘤中心和肯尼索州立大学等研究人员提出了一个新型模型——贝叶斯成分广义线性混合模型(Bayesian Compositional Generalized Linear Mixed Model, BCGLMM),其研究结果发表在《BMC Bioinformatics》上。
BCGLMM旨在提高利用微生物组数据进行疾病预测的准确性和解释性,它采用对数转换和对回归系数施加软性零和约束来处理成分数据;利用结合系统发育信息的结构化正则马蹄形先验来识别具有中等效应的关键分类单元;并通过引入基于样本间微生物组相似性的随机效应项来捕捉众多微小分类单元的累积影响。
模型在模拟数据和真实数据(炎症性肠病)的测试结果表明,BCGLMM在预测性能和识别相关微生物特征方面均优于现有的一些方法,证明了其在微生物组相关疾病预测领域的有效性和潜力。
BCGLMM模型构建在广义线性混合模型(GLMM)的框架之上,专门针对微生物组数据的特性进行了调整。
数据预处理
1. 对OTU计数使用中心对数比(CLR)变换,回归系数施加软性零和约束。
2. 通过16S rRNA基因序列构建系统发育树,计算Bray-Curtis距离矩阵。
BCGLMM模型结构
BCGLMM模型主要由三个关键部分组成:
将线性预测器的输出通过sigmoid函数转为概率pi,然后根据预设的阈值转为二分类输出(如患病/健康)。
线性预测器(eta):
编辑
固定效应部分
随机效应部分
固定效应(如显著分类群)可能无法完全解释疾病风险,而大量微弱效应的分类群可能通过生态网络的整体扰动共同影响结果。随机效应用于建模这些样本层面的变异。两者结合后,模型既能抓住主要驱动因素,又能解释微生物生态系统的整体影响(如原文中IBD预测性能提升)。
后验分布输出
使用 R 包 brms(后端调用 rstan),通过 Hamiltonian Monte Carlo(HMC) 及其自适应变体 No-U-Turn Sampler (NUTS) 实现后验分布采样。
1
模拟数据测试模型
固定样本数量为400,分类单元数目分别选择100、300、500。
组合不同样本数量、中等效应数量和小效应数量,分别生成连续和二元数据,共得到了27种场景,每个场景下,测试三种模型,分别为:
下表是研究人员提供的当中等效应数量为6时,每个模型在不同数据集和小效应比例下的性能评估结果:
表1
结果显示,大部分场景下,模型性能从优到劣排序为:BCGLMM > BCGLM > BGLM
BCGLMM显示为R2最高、MSE和MAE最低。
这些都说明BCGLMM中的随机效应能够捕获所有标记的综合小效应。
另外,研究人员给出的相同场景下的二分类结果,显示BCGLMM准确性更好(更高的AUC值),如下表:
表2
对于其它中等效应数量的组合场景,结果如下图:
图1
图2
图一对应表一(基于连续性结果的模型性能评估)
图二对应表二(基于二元结果的模型性能评估)
结果显示,在m介于300~500时,对比中等效应数量6,中等效应数量12场景下的BCGLMM模型性能更优。
2
真实数据测试模型
数据来自美国肠道项目(American Gut Project,AGP)的公开数据,旨在区分IBD患者和健康对照。含4684 个粪便样本和 1002 个物种数据。
基于“方法”对数据进行预处理后,分别应用BCGLMM(考虑了样本相关的随机效应和预测变量相关性)、BCGLM(仅关注预测变量相关性)、BGLM(不考虑随机效应和预测变量相关性)模型,比较三种模型的准确性。
根据AUC值判断,BCGLMM 、 BCGLM 和 BGLM 的交叉验证 AUC 值分别为 0.702 、 0.687 和 0.672,可以认为BCGLMM在真实数据集上的表现最优(AUC=0.702)。
基于模拟数据和真实数据的测试结果,可以得出结论,同时考虑样本相关的随机效应和预测变量相关性的BCGLMM模型能够识别出与疾病相关的潜在微生物特征,二分类任务下,提升疾病预测的准确性。
BCGLMM模型的局限性在于计算成本较高,在大规模研究中可能面临内存和CPU时间挑战。综合看,推荐使用场景为:高维微生物组数据(特征数≥300),预期存在大量小效应的疾病预测任务,需要考虑系统发育关系的研究,对预测精度要求较高且能承受计算成本的项目。
该研究中的BCGLMM模型,突破传统稀疏模型的限制,首次系统性地解决了微生物组数据分析中的核心挑战,通过混合模型框架,能够识别中等效应并累积大量小效应,显著提升了疾病预测的准确性。
BCGLMM模型具有很大的转化潜力。
总体而言,BCGLMM为微生物组驱动的精准医学提供了方法论基础,其兼顾统计学严谨性与生物学机制的框架有望成为探索微生物生态与疾病关联的核心技术之一。
主要参考文献
Zhang, L., Zhang, X., Leach, J.M. et al. Bayesian compositional generalized linear mixed models for disease prediction using microbiome data. BMC Bioinformatics 26, 98 (2025).