肠道微生物组预测帕金森病的新思路——跨队列机器学习

谷禾健康

帕金森病（PD）是全球第二常见的神经退行性疾病，预计到2050年，全球患者可能达到约1200万。传统诊断依赖运动症状评估，往往在疾病晚期才发现，因此急需可用于早期识别的生物标志物。

近年来，研究发现PD患者常有肠道症状（如便秘、肠道炎症），这些症状可能早于运动问题出现，甚至与肠道微生物组变化相关。

既往研究中，关于PD肠道微生物组的研究和小规模整合分析虽提示产短链脂肪酸菌减少等共性，但研究间差异大、缺乏在跨队列层面验证可复现的“微生物特征”并评估其诊断价值，尤其尚未系统评估机器学习模型跨研究、跨人群的可迁移性与疾病特异性。

针对上述研究空白，近日，一个由德国欧洲分子生物学实验室（EMBL）等国际顶尖机构组成的研究团队，通过对帕金森病（PD）微生物组数据进行大规模跨队列分析，建立了一套旨在提高模型稳健性、泛化能力和可复现性的最佳实践框架。其相关研究的成果发表于《Nature Communications》上，为未来的相关研究提供了清晰的路线图。

原文研究通过大规模荟萃分析和机器学习评估，回答两类关键问题：

微生物组能否稳定辅助PD诊断？
哪些稳定的物种与功能通路与PD相关并可能参与发病机制？

作者的研究思路可以归纳为两个部分：

一是以16S与宏基因组数据分别构建分类模型，并在“研究内”、“跨研究”和“留一法（LOSO）研究”三种框架下检验模型的泛化性、准确性与疾病特异性（如与阿尔茨海默病、多发性硬化症区分）。
二是对宏基因组功能通路做随机效应元分析与富集分析，识别PD相关的细菌分类群和代谢通路，并尽可能评估年龄、性别、用药等混杂因素影响。

这项覆盖11国4大洲22项病例对照研究，共计4489份样本，结合机器学习的荟萃分析，得到的主要结论是：

单研究内模型平均AUC约71.9%，但跨研究下降至约61%；多队列合并训练后，泛化性能提升，改善至68%，且对其他神经退行性疾病的误报率显著降低，疾病特异性更好。
菌群上，产短链脂肪酸菌显著减少（如Lachnospiraceae中Roseburia、Blautia，Faecalibacterium等），提示肠道屏障与黏膜免疫稳态受损可能是PD的普遍特征。
功能上，与复杂多糖降解相关的通路减少；与细菌致病性相关的分泌系统（II/III/IV/VI型）与抗阳离子抗菌肽系统富集；与色氨酸、酪氨酸、谷氨酸/GABA代谢相关的基因集显著改变；“溶剂/农药等外源性化学物质降解”通路（Xenobiotics biodegradation and metabolism）在PD中显著富集。

接下来，我们深入了解该研究的方法学细节和主要结论验证过程。详细解析该研究在数据准备、特征工程、模型训练和多维度评估等关键环节上采取的具体策略和宝贵经验。

研究中使用了哪些队列

下图展示了研究中使用的22项病例对照研究概述：

16S数据集：

1367个对照（CTR）和1798个PD患者

宏基因组数据集（SMG）：

554个对照和770个PD患者

每项病例对照研究都必须≥30个样本，且元数据足够。除此之外，还纳入了多发性硬化（MS）与阿尔茨海默病（AD）的16S数据用于交叉疾病验证。

初步研究，聚焦于β多样性和批次效应评估。基于Bray-Curtis距离的冗余分析（db-RDA）与PERMANOVA（置换多元方差分析），分别在16S与SMG上评估研究来源(Study)、疾病状态(Disease)因素解释的变异性。

分析结果显示，去除批次效应后，样本未根据疾病状态明显聚类，PD与对照组仅呈现弱分离(下图c,d，灰色是对照)。研究来源解释了较大方差（下图a,b，颜色区分不同研究，形状区分疾病状态，16S:R2= 19.9%；SMG: R2=7.7%；p-value<0.001），这表明批次效应是主要变异来源。

数据分析方法

物种分类和功能注释

统计检验应用

机器学习应用

在R包SIAMCAT的帮助下，研究人员应用了线性模型（Ridge、LASSO、Elastic Net）和非线性模型（Random Forest）。

训练前对特征数据做标准化处理，log.std或clr，筛选出至少在5%样本中检出的特征，GBM和GMM不做过滤。

训练时的特征筛选主要使用嵌套监督式特征选择，基于 Wilcoxon–Mann–Whitney 检验识别差异特征，在训练集内选择效应量最大的特征数量（如 KO 层面，保留范围500–4000个特征，步长500，训练多个模型，选择中位数 AUC 最优的那个模型，最终保留2500个特征用来构建最终模型）。

统一以 AUC 评估，并在 CV、CSV、LOSO 三层验证策略中对比模型的准确率与泛化性能。

CV：10×10 重复交叉验证，评估单研究内的模型性能。
CSV：跨研究验证，单研究训练后分别在所有其它研究上测试，衡量模型泛化性能。
LOSO：留一法，合并除1个研究外的所有数据训练，在留出的独立研究上评估模型性能。

PD相关的微生物组组成变化

在初步研究中发现不同研究间群落构成差异显著，疾病状态仅解释≤1%的变异，标识批次效应影响大于疾病。继续分析菌群发现，与对照组相比：

PD组中显著减少的菌群有：

Lachnospiraceae科的Roseburia、Blautia、Fusicatenibacter属在16S与SMG（宏基因组数据集）均显著减少；
Agathobacter属在16S中显著减少；Ruminococcacea科的Faecalibacterium属内的多个物种以及Faecalibacterium prausnitzii种内的多个菌株在SMG种显著减少；
Butyricicoccus属为SMG中减少最强的物种之一（16S中未体现出一致性）。

PD组中显著富集的菌群有：

Ruthenibacterium属及其种Ruthenibacterium lactatiformans在16S与SMG中为最显著富集；
其次是Alistipes、Anaerotruncus、Enterococcus、Porphyromonas、Scatomorpha、Limiplasma、Bifidobacterium、Christensenella、Streptococcus属；
在SMG中还检测到潜在致病种Turicibacter sanguinis及多种Clostridiales物种富集，但在16S中没有相应的显著富集。

虽然大部分菌群在合并所有研究数据的分析基础上有显著变化（上图a），但是仍有不少菌群仅在个别单项研究中呈显著变化（上图b）。

控制协变量进行分析，发现在PD组中可能受性别、年龄或用药混杂的分类群为少数（<23%），且具有显著差异的分类群总体不受这些协变量影响，单变量方向与Ridge模型系数方向总体一致（上图c）。

PD相关的微生物功能变化（基于SMG）

与对照组相比，重点在于以下四大类的变化：

碳水化合物与复杂多糖相关功能
氨基酸与神经递质相关通路
与宿主互作与致病相关功能
外源性物质代谢相关功能

碳水化合物与复杂多糖相关功能

多条复杂多糖和糖降解相关模块显著减少；
部分与丙酸/丁酸生成相关的功能在PD组内富集（MF0093、MF0094、MF0089）。

氨基酸与神经递质相关通路

色氨酸代谢中，降解相关基因富集、合成相关基因减少；
酪氨酸代谢中，合成与降解相关基因均增加，如TyrDC（K22330）富集；
谷氨酰胺/谷氨酸/GABA相关功能显示谷氨酸合成相关基因减少、降解相关基因增加，GABA降解相关功能增加。

与宿主互作和致病相关功能

细菌分泌系统的KEGG通路（ko03070）在PD组中富集，其中II/III/IV/VI型分泌系统更明显；
同样富集的还有多个涉及细菌对阳离子抗菌肽耐受（CAMPs）的模块和KO；
Curli纤维相关KO显著富集。

外源性物质代谢相关功能

外源性物质（Xenobiotics）代谢相关功能的多条通路在PD组中富集，例如：

参与卤代烃(halogenated hydrocarbons)降解的K01560；
与三氯乙烯（TCE）转化相关的K03268与K18089富集；
PD 组中 atzB、atzD 和 biuH（K03382、K03383、K19837）基因的丰度更高，这些基因编码的酶可催化阿特拉津（Atrazine）的降解。

机器学习疾病分类性能与泛化性

比较模型AUC指标发现，单个研究内验证（CV）模型准确性高，但模型泛化性能差，跨研究（CSV）验证，普遍AUC下降。LOSO相较CSV显著提升。

研究可能影响 LOSO AUC 的因素，发现LOSO AUC在不同测试集之间存在显著差异，测试集本身解释了相当比例的方差（ICC=0.19）。LOSO AUC与训练集样本数呈正相关（p<0.01，解释约15%方差）。

寻找帕金森的通用微生物特征：分类学特征优于功能特征

在特征探索方面，研究人员发现存在一个相对“通用而精简”的肠道微生物特征子集，模型的判别能力（PD vs CTR）近似使用全部特征进行训练的模型。

在SMG数据集中使用LOSO策略，遍历训练集，筛选出绝对效应量最高且FDR校正p值<0.05的20个特征，构建模型，结果如下图a，其总体平均LOSO AUC几乎与全特征模型一致，分别为72.3%和72.4%。图b热图中的白色方块表示相应模型中未包含的物种。

同时，在SMG数据集基础上，比较了基于分类学特征（taxonomic）和功能特征（KO、KEGG module、KEGG pathway、GMM、GBM）训练的机器学习模型性能。分析结果显示基于功能特征的模型总体上表现略逊于基于分类特征构建的模型。

跨疾病验证：LOSO模型显著降低对其他神经退行性疾病的误判率

最后，研究人员又进行了外部验证，检验这些模型在多大程度上会错误地将患有其他神经退行性疾病的患者预测为PD，以阿尔茨海默病（AD）和 多发性硬化症（MS）为例。

由于其他神经退行性疾病的SMG数据稀缺，仅使用16S数据进行此项验证。使用假阳性率（FPR）评估，将AD和MS样本的FPR与PD内部对照组的10% FPR进行比较。

分析结果显示单个PD研究构建的ML模型(Single-study models)在其他神经退行性疾病上的交叉预测率差异极大，FPR从0%到近100%不等，平均FPR为35.1%，远高于预期的10% FPR水平。

使用LOSO模型时，跨疾病预测表现显著改善，平均FPR从35.1%大幅降至18.7%，18.7%的FPR仅略高于PD内部对照组的预期10% FPR，表现出较好的疾病特异性。

小结

事实上，PD疾病与肠道菌群的相关研究不少，对比同类研究，该篇研究的优势在于：

样本量与队列覆盖度为同类研究中领先，并在“单研究、跨研究、LOSO”多层面框架下全面评估疾病预测模型表现，使得结论稳健且具普适性。
系统证明“多研究合并训练”可显著提升泛化与疾病特异性，为构建临床可用的微生物组诊断工具提供了清晰、可复现的技术路线。
发现外源性物质（Xenobiotics）代谢相关功能的多条通路在PD组中显著富集，这一发现的意义在于首次在微生物组层面证实了环境毒素暴露与PD风险之间的生物学联系。

07
从文中得到的一些启思

为什么初步研究得出结论“批次效应差异大于疾病状态”，但是“多研究合并训练 + LOSO”却能提升模型泛化性能与疾病特异性？

关键在于数据层面的差异分析与机器学习分类任务的本质区别，原文中批次/研究效应在“整体群落差异”（方差、β多样性）上确实大于疾病效应，但这不等于模型“无法分类”。

微生物组分类依赖的是特定分类群的丰度模式，而非整体群落结构的相似性。

在单研究训练中，模型容易捕捉研究内偶然出现、但跨研究不成立的特征（例如与采样方法、地理环境、饮食习惯等相关但与疾病本身无关的特征模式）。
当训练集中包含多个研究时，那些“研究特异”的特征在不同研究间表现不一致，难以成为稳定的最优特征，模型被迫去寻找跨研究一致的疾病关联特征（不变因子）。

没有完美的模型，只有相对完美

原文中，单研究训练的跨研究验证（CSV）平均 AUC 约 61%，合并训练的 LOSO 提升到约 68%，但仍低于研究内 AUC（约 72%）。这说明，合并训练确实提高了泛化，但并未消除强烈的研究/批次差异，只是更好的对冲了其负面影响。

在机器学习中，泛化能力与拟合精度之间存在固有张力。合并训练实际上是在研究内高精度（可能包含过拟合）与跨研究稳定性之间找到最优平衡点。这不是缺陷，而是在真实世界复杂性面前的理性选择。

虽然也可以通过其它策略来补足缺陷，例如集成学习策略（如漏斗型、投票型模型），但是这也有损失，就是会累加错误。但在临床转化上，这种相对完美是具有实际价值的，因为临床诊断工具必须适用于不同人群，所以模型泛化性能也就很重要。

基于原文经验，利用肠道微生物组数据训练疾病预测模型的技术路线

一、数据准备与质量控制

模型训练通常要准备数据集，建立包含训练集、验证集和独立测试集的完整数据架构。对于小样本数据集，可采用交叉验证替代独立验证集，但必须保留独立测试集用于最终性能评估。

基于原文经验，先做一些统计检验，对一些影响因子评估效应，例如批次、年龄、性别、用药、地理位置等，这种系统性的统计检验与效应量评估为后续的特征筛选和模型训练奠定了坚实的数据质量基础，确保识别的疾病关联特征具有真实的生物学意义而非技术或混淆因子的产物。

数据标准化推荐使用log变换（log.std）或中心化对数比值变换（clr），这两种方法在原文验证中均表现良好。

二、关键特征筛选

数据集确定好后，要开始特征筛选，通常都会先基于存在与否做初步筛选，原文中的经验是保留在至少5%样本中检出的分类群，优先选择在多个研究中表现一致的特征，这是实现良好泛化性能的关键。

特征维度方面，对于高维特征空间（如KOs），建议通过嵌套监督特征选择将特征数控制在2500个左右，这在原文中获得了最佳的中位AUC（75.3%）。

三、算法选择与训练策略

特征筛选完成后，要开始选择算法和制定训练策略，基于原文大规模比较，SMG数据优选Ridge回归或LASSO，16S数据可选择Random Forest，但为保证可比性，建议统一使用Ridge回归。

训练策略推荐单研究内训练+多研究合并训练，前者适用于初步模型构建，可获得较高的内部准确性（平均AUC 71.9%），后者显著提升泛化能力（LOSO平均AUC 68%）。可能有同学会疑惑为什么会用回归模型，原文使用的是SIAMCAT包的LibLinear，这是一个专门用于大规模线性分类的库，Ridge和LASSO在其中是作为线性分类器实现的，不是传统的回归模型，它们通过线性决策边界进行二分类预测。

四、多层次性能评估

最后是选择评估模型性能的方法和指标。原文采用多层次性能评估：

内部性能：研究内交叉验证（10×10 CV），评估模型拟合能力
泛化性能：LOSO验证 + 平均AUC
疾病特异性：跨疾病验证计算FPR，以PD内部对照组10% FPR为基线。原文显示多研究训练可将假阳性率从35.1%降至18.7%。

五、研究规模适配策略

应根据研究的具体规模调整策略重点：

小样本研究：重点优化样本质量控制、元数据标准化和批次效应校正。
大样本研究：可以将更多精力投入到特征工程、算法集成和超参数精调。

主要参考文献

Romano, S., Wirbel, J., Ansorge, R. et al. Machine learning-based meta-analysis reveals gut microbiome alterations associated with Parkinson’s disease. Nat Commun 16, 4227 (2025).

Tag Archive 帕金森病（PD）

肠道微生物组预测帕金森病的新思路——跨队列机器学习

研究中使用了哪些队列

数据分析方法

07
从文中得到的一些启思

分类目录

标签

Tag Archive 帕金森病（PD）

肠道微生物组预测帕金森病的新思路——跨队列机器学习

研究中使用了哪些队列

数 据 分 析 方 法

07从文中得到的一些启思

分类目录

标签

数据分析方法

07
从文中得到的一些启思