谷禾健康
帕金森病(PD)是全球第二常见的神经退行性疾病,预计到2050年,全球患者可能达到约1200万。传统诊断依赖运动症状评估,往往在疾病晚期才发现,因此急需可用于早期识别的生物标志物。
近年来,研究发现PD患者常有肠道症状(如便秘、肠道炎症),这些症状可能早于运动问题出现,甚至与肠道微生物组变化相关。
既往研究中,关于PD肠道微生物组的研究和小规模整合分析虽提示产短链脂肪酸菌减少等共性,但研究间差异大、缺乏在跨队列层面验证可复现的“微生物特征”并评估其诊断价值,尤其尚未系统评估机器学习模型跨研究、跨人群的可迁移性与疾病特异性。
针对上述研究空白,近日,一个由德国欧洲分子生物学实验室(EMBL)等国际顶尖机构组成的研究团队,通过对帕金森病(PD)微生物组数据进行大规模跨队列分析,建立了一套旨在提高模型稳健性、泛化能力和可复现性的最佳实践框架。其相关研究的成果发表于《Nature Communications》上,为未来的相关研究提供了清晰的路线图。
原文研究通过大规模荟萃分析和机器学习评估,回答两类关键问题:
作者的研究思路可以归纳为两个部分:
这项覆盖11国4大洲22项病例对照研究,共计4489份样本,结合机器学习的荟萃分析,得到的主要结论是:
接下来,我们深入了解该研究的方法学细节和主要结论验证过程。详细解析该研究在数据准备、特征工程、模型训练和多维度评估等关键环节上采取的具体策略和宝贵经验。
下图展示了研究中使用的22项病例对照研究概述:
16S数据集:
宏基因组数据集(SMG):
每项病例对照研究都必须≥30个样本,且元数据足够。除此之外,还纳入了多发性硬化(MS)与阿尔茨海默病(AD)的16S数据用于交叉疾病验证。
初步研究,聚焦于β多样性和批次效应评估。基于Bray-Curtis距离的冗余分析(db-RDA)与PERMANOVA(置换多元方差分析),分别在16S与SMG上评估研究来源(Study)、疾病状态(Disease)因素解释的变异性。
分析结果显示,去除批次效应后,样本未根据疾病状态明显聚类,PD与对照组仅呈现弱分离(下图c,d,灰色是对照)。研究来源解释了较大方差(下图a,b,颜色区分不同研究,形状区分疾病状态,16S:R2= 19.9%;SMG: R2=7.7%;p-value<0.001),这表明批次效应是主要变异来源。
物种分类和功能注释
统计检验应用
机器学习应用
在R包SIAMCAT的帮助下,研究人员应用了线性模型(Ridge、LASSO、Elastic Net)和非线性模型(Random Forest)。
训练前对特征数据做标准化处理,log.std或clr,筛选出至少在5%样本中检出的特征,GBM和GMM不做过滤。
训练时的特征筛选主要使用嵌套监督式特征选择,基于 Wilcoxon–Mann–Whitney 检验识别差异特征,在训练集内选择效应量最大的特征数量(如 KO 层面 ,保留范围500–4000个特征,步长500,训练多个模型,选择中位数 AUC 最优的那个模型,最终保留2500个特征用来构建最终模型)。
统一以 AUC 评估,并在 CV、CSV、LOSO 三层验证策略中对比模型的准确率与泛化性能。
PD相关的微生物组组成变化
在初步研究中发现不同研究间群落构成差异显著,疾病状态仅解释≤1%的变异,标识批次效应影响大于疾病。继续分析菌群发现,与对照组相比:
PD组中显著减少的菌群有:
PD组中显著富集的菌群有:
虽然大部分菌群在合并所有研究数据的分析基础上有显著变化(上图a),但是仍有不少菌群仅在个别单项研究中呈显著变化(上图b)。
控制协变量进行分析,发现在PD组中可能受性别、年龄或用药混杂的分类群为少数(<23%),且具有显著差异的分类群总体不受这些协变量影响,单变量方向与Ridge模型系数方向总体一致(上图c)。
PD相关的微生物功能变化(基于SMG)
与对照组相比,重点在于以下四大类的变化:
碳水化合物与复杂多糖相关功能
氨基酸与神经递质相关通路
与宿主互作和致病相关功能
外源性物质代谢相关功能
外源性物质(Xenobiotics)代谢相关功能的多条通路在PD组中富集,例如:
机器学习疾病分类性能与泛化性
比较模型AUC指标发现,单个研究内验证(CV)模型准确性高,但模型泛化性能差,跨研究(CSV)验证,普遍AUC下降。LOSO相较CSV显著提升。
研究可能影响 LOSO AUC 的因素,发现LOSO AUC在不同测试集之间存在显著差异,测试集本身解释了相当比例的方差(ICC=0.19)。LOSO AUC与训练集样本数呈正相关(p<0.01,解释约15%方差)。
寻找帕金森的通用微生物特征:分类学特征优于功能特征
在特征探索方面,研究人员发现存在一个相对“通用而精简”的肠道微生物特征子集,模型的判别能力(PD vs CTR)近似使用全部特征进行训练的模型。
在SMG数据集中使用LOSO策略,遍历训练集,筛选出绝对效应量最高且FDR校正p值<0.05的20个特征,构建模型,结果如下图a,其总体平均LOSO AUC几乎与全特征模型一致,分别为72.3%和72.4%。图b热图中的白色方块表示相应模型中未包含的物种。
同时,在SMG数据集基础上,比较了基于分类学特征(taxonomic)和功能特征(KO、KEGG module、KEGG pathway、GMM、GBM)训练的机器学习模型性能。分析结果显示基于功能特征的模型总体上表现略逊于基于分类特征构建的模型。
跨疾病验证:LOSO模型显著降低对其他神经退行性疾病的误判率
最后,研究人员又进行了外部验证,检验这些模型在多大程度上会错误地将患有其他神经退行性疾病的患者预测为PD,以阿尔茨海默病(AD)和 多发性硬化症(MS)为例。
由于其他神经退行性疾病的SMG数据稀缺,仅使用16S数据进行此项验证。使用假阳性率(FPR)评估,将AD和MS样本的FPR与PD内部对照组的10% FPR进行比较。
分析结果显示单个PD研究构建的ML模型(Single-study models)在其他神经退行性疾病上的交叉预测率差异极大,FPR从0%到近100%不等,平均FPR为35.1%,远高于预期的10% FPR水平。
使用LOSO模型时,跨疾病预测表现显著改善,平均FPR从35.1%大幅降至18.7%,18.7%的FPR仅略高于PD内部对照组的预期10% FPR,表现出较好的疾病特异性。
小 结
事实上,PD疾病与肠道菌群的相关研究不少,对比同类研究,该篇研究的优势在于:
为什么初步研究得出结论“批次效应差异大于疾病状态”,但是“多研究合并训练 + LOSO”却能提升模型泛化性能与疾病特异性?
关键在于数据层面的差异分析与机器学习分类任务的本质区别,原文中批次/研究效应在“整体群落差异”(方差、β多样性)上确实大于疾病效应,但这不等于模型“无法分类”。
微生物组分类依赖的是特定分类群的丰度模式,而非整体群落结构的相似性。
没有完美的模型,只有相对完美
原文中,单研究训练的跨研究验证(CSV)平均 AUC 约 61%,合并训练的 LOSO 提升到约 68%,但仍低于研究内 AUC(约 72%)。这说明,合并训练确实提高了泛化,但并未消除强烈的研究/批次差异,只是更好的对冲了其负面影响。
在机器学习中,泛化能力与拟合精度之间存在固有张力。合并训练实际上是在研究内高精度(可能包含过拟合)与跨研究稳定性之间找到最优平衡点。这不是缺陷,而是在真实世界复杂性面前的理性选择。
虽然也可以通过其它策略来补足缺陷,例如集成学习策略(如漏斗型、投票型模型),但是这也有损失,就是会累加错误。但在临床转化上,这种相对完美是具有实际价值的,因为临床诊断工具必须适用于不同人群,所以模型泛化性能也就很重要。
基于原文经验,利用肠道微生物组数据训练疾病预测模型的技术路线
一、 数据准备与质量控制
模型训练通常要准备数据集,建立包含训练集、验证集和独立测试集的完整数据架构。对于小样本数据集,可采用交叉验证替代独立验证集,但必须保留独立测试集用于最终性能评估。
基于原文经验,先做一些统计检验,对一些影响因子评估效应,例如批次、年龄、性别、用药、地理位置等,这种系统性的统计检验与效应量评估为后续的特征筛选和模型训练奠定了坚实的数据质量基础,确保识别的疾病关联特征具有真实的生物学意义而非技术或混淆因子的产物。
数据标准化推荐使用log变换(log.std)或中心化对数比值变换(clr),这两种方法在原文验证中均表现良好。
二、 关键特征筛选
数据集确定好后,要开始特征筛选,通常都会先基于存在与否做初步筛选,原文中的经验是保留在至少5%样本中检出的分类群,优先选择在多个研究中表现一致的特征,这是实现良好泛化性能的关键。
特征维度方面,对于高维特征空间(如KOs),建议通过嵌套监督特征选择将特征数控制在2500个左右,这在原文中获得了最佳的中位AUC(75.3%)。
三、 算法选择与训练策略
特征筛选完成后,要开始选择算法和制定训练策略,基于原文大规模比较,SMG数据优选Ridge回归或LASSO,16S数据可选择Random Forest,但为保证可比性,建议统一使用Ridge回归。
训练策略推荐单研究内训练+多研究合并训练,前者适用于初步模型构建,可获得较高的内部准确性(平均AUC 71.9%),后者显著提升泛化能力(LOSO平均AUC 68%)。可能有同学会疑惑为什么会用回归模型,原文使用的是SIAMCAT包的LibLinear,这是一个专门用于大规模线性分类的库,Ridge和LASSO在其中是作为线性分类器实现的,不是传统的回归模型,它们通过线性决策边界进行二分类预测。
四、 多层次性能评估
最后是选择评估模型性能的方法和指标。原文采用多层次性能评估:
五、 研究规模适配策略
应根据研究的具体规模调整策略重点:
主要参考文献
Romano, S., Wirbel, J., Ansorge, R. et al. Machine learning-based meta-analysis reveals gut microbiome alterations associated with Parkinson’s disease. Nat Commun 16, 4227 (2025).