大语言模型在真实世界中的营养评估应用

大语言模型在真实世界中的营养评估应用

谷禾健康

准确的饮食评估是营养流行病学、临床营养学及公共卫生计划的基石,对于减轻全球饮食相关慢性疾病(如肥胖、三高)至关重要

然而,传统的评估工具(如食物频率问卷、24小时回忆法和称重食物记录)长期面临着参与者负担重数据偏差以及可扩展性有限等问题,这些局限性降低了营养数据的可用性和准确性。

人工智能与大型语言模型的兴起

近年来,人工智能(AI),特别是自然语言处理(NLP)和大型语言模型(LLMs)的飞速发展,为自动化营养评估提供了新的契机。以GPTClaudeGemini为代表的先进模型,具备了处理复杂自由文本、进行高通量食品分类及提供个性化营养建议的潜力

编辑​

然而,目前的验证研究主要集中在英语数据集上,遇到像波兰语这样语法复杂的语言,它们还能不能这么灵光? 此外,现实生活远比实验室复杂。比如在养老院里,饮食数据往往包含复杂的菜单外食品,要让AI准确识别这些带有强烈文化特色、又没写在标准食谱上的东西,对它的语言天赋和应变能力绝对是个巨大的考验

分类框架的整合:NOVA与WHO指南

饮食质量的评估通常依赖于互补的框架:既要看食品是如何加工的NOVA系统),又要看具体的营养成分是否超标(如糖、脂肪和钠),即参照世界卫生组织(WHO)的指南。

编辑​

虽然这两大标准是全球饮食指南的基础,但直接让AI照搬却很困难,因为两者在定义上时有模糊,甚至相互打架。尤其是NOVA系统有时过于简单粗暴(非黑即白),无法完全反映食品的复杂性。因此,我们需要一种能同时考量加工深度营养密度混合系统,从而让AI做出更精准的判断。

为了填补这一空白,来自波兰的华沙医科大学Aia等人的研究团队利用一份包含1992种食品波兰语纵向数据集,对目前市面上三款顶流AI模型——Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.1-chat-latest,设了两场考试:一场是死磕标准的硬核测试(结合NOVA和WHO双重标准),一场是凭直觉的快速测试

编辑​

结果很明确,虽然AI面对复杂的波兰语还不能完全独立行医,但只要有人类专家的把关,AI完全有能力成为临床和公共卫生营养评估中的得力助手,让大规模的健康饮食管理变得既快又好。

本文我们一起来详细了解一下这项研究的主要设计、AI模型的真实表现、专家如何配合AI实现人机协作的最佳效果。无论你是营养师、AI从业者,还是对健康饮食感兴趣的科研工作者,相信都能从中获得新的启发。

研 究 设 计

该研究基于华沙医科大学2017–2021年开展的长期护理机构(LTCF)纵向项目数据,已获伦理批准(AK-BE/212/2017)。

原队列1000名居民,收集人体测量、生物阻抗、体力活动、临床诊断与膳食信息。研究聚焦居民个人橱柜中菜单外食品(由本人购买或家属带入,非机构配餐),共纳入1992条食品记录,数据以波兰语原文处理

选取三种大型语言模型(Claude Opus 4.5、Gemini 3 Pro、GPT-5.1-chat-latest),均通过API调用,统一温度参数为1.0,以提高可比性贴近默认使用场景

设置两种提示策略

① 结构化双步提示

1

NOVA识别超加工食品(UPF),一经判定即归为不健康;

2

仅对第1步判为健康的条目,按WHO阈值评估游离糖(>总能量10%)、饱和脂肪(>10%)或钠(>2 g/日),超标则改判不健康。

模型需输出每个产品的名称、重量(g)、热量与二分类结果,并分别汇总两类总热量。

② 简化单步提示

仅要求对每个产品给出健康/不健康判断及简短理由(两列:evaluation与description)。

人工参照标准由两位专家完成:

  • 专家1独立对全部条目二分类并给出简要理由;
  • 专家2 复核与纠错,形成最终金标准。

统计分析以Pearson卡方检验(α=0.05)进行多组两两比较(模型-专家、模型间、提示策略间及“多模型共识”主导类别)。同时以不健康阳性,基于混淆矩阵计算Accuracy、Precision、Recall、F1与Specificity,评估不同提示与模型的错误模式。

编辑​

文中会出现的一个词:Dominant,指的是多模型共识(consensus response across LLMs),你可以理解为对多个模型的结果采用了投票机制,如果大多数模型对某一项食品都给出了相同的分类,那么这个分类就被认为是“Dominant”分类,即多模型共识的分类结果,有助于减少单个LLM的偏见,同时保持保守的风险评估。

详 细 结 果

1. 结构化双步提示结果

★ 核心结论

三种模型与专家一致性都很高(约90–91%);同时呈现更保守的倾向,也就是说更擅长抓出不健康(Recall很高),但更容易把健康误判为不健康(Specificity下降)。

双步提示下 LLM vs 专家的一致性分布

(占总样本1992的百分比)

编辑​

双步提示下的混淆矩阵指标

(UNHEALTHY为阳性)

编辑​

怎么看这组结果?

双步提示把规则写死(先NOVA判UPF直接不健康,再用WHO阈值复筛),所以模型更倾向于宁可判不健康也不漏掉,表现为 Recall极高(0.963–0.982)。

代价是 Specificity偏低(0.798–0.844),也就是说有一部分其实健康的条目被判成不健康(假阳性更多)。

2. 简化单步提示结果

★ 核心结论

简化提示下,总体一致率更高(约92.5–94.2%),并且 Specificity明显提升,Recall仍保持较强,整体更像专家的整体判断风格。

同时,作者指出:在简化提示下,模型整体会把更多条目判为健康(相比双步提示),显示规则约束变少后,模型不再那么保守

简化提示下 LLM vs 专家的一致性分布

(占总样本1992的百分比)

编辑​

简化提示下的混淆矩阵指标

(UNHEALTHY为阳性)

编辑​

怎么看这组结果?

相比双步提示,简化提示的 Accuracy更高(0.927–0.942),并且 Specificity显著提高(0.897–0.951):更少把健康误判为不健康

Recall略有回落但仍高(0.909–0.964),整体更均衡。

Dominant在简化提示下表现最好/接近最好(Accuracy 0.942,F1 0.949)。

这提示简化单步策略在召回率特异性之间找到了一个更好的平衡点,使得模型的分类结果既能较好地识别不健康食品,也能较好地识别健康食品,减少了误报或漏报的情况。

3. 跨模型、跨提示词的整体差异(卡方检验)

为了评估提示结构对不同LLM及人类专家之间的一致性和差异性,使用Pearson’s Chi-square检验,对所有可能的成对比较(36对)进行统计显著性测试。

关键发现

所有两两比较均显著不同

χ2=1174.5 –1897.1,p < 0.001

编辑​

说明即使总体一致率很高,不同模型/不同提示词仍会导致系统性的分类分布差异(不只是随机波动)。

文中还给了两个极值例子:

  • 差异最大:WHO(双步)下的 Gemini 3 Pro vs WHO Dominant(χ2=1897.1)
  • 差异最小:WHO GPT-5.1 vs 简化 Opus 4.5(χ2=1174.5)

各模型与专家总一致率(双步 vs 简化)

编辑​

  • 所有模型在简化提示下与专家更一致;
  • 双步提示更像严格按NOVA/WHO执行的筛查器,简化提示更像接近人类总体判断的评价。

尽管多模型共识(Dominant)在一些指标上接近或略优于最佳单一模型,但专家的判断仍存在显著差异,提示共识并不能完全替代专家判断,尤其在边缘案例上。这些差异也体现出提示词设计的重要性

应用时的注意点

  1. 提示词结构对于模型输出具有决定性影响。严格规则引导(如结构化双步)下,对于高风险场景(如临床营养评估)可能是有益的。简化提示更倾向模仿人类的判断,但会损害方法论的严谨性。
  2. 语言环境对模型性能也有实质性的影响,建议保持数据的原始语言。在多语言环境下开发AI应用时,应进行语言特异性验证。
  3. 研究观察到所有LLM在结构化提示下都呈现出一种保守的分类偏见,当产品信息不完整或不明确时,模型倾向于将其归类为不健康。这种偏见会导致一些假阳性,但在患者风险管理的角度来看是可取的,因为误将不健康食品标记为健康可能会造成更大的危害。多模型共识是一个稳健的策略,它在一定程度上能够减少单模型的偏见,同时保持风险评估的保守性。
  4. 从实际效率的角度看,AI辅助的工作流能大幅度减少人工负担,但专家的监督和判断仍然不可或缺。研究结果明确指出,虽然LLMs与专家判断的一致性很高,但两者之间仍存在显著差异,尤其是在涉及最小加工食品或轻微超出WHO 阈值的边缘案例上。因此,LLMs可以为普通用户在日常饮食选择中提供有价值的指导,但大规模应用,如流行病学检测、临床试验等,还需要人类专家的评估和复核。

结 语

当前人工智能所展示的膳食分类的能力,虽然接近人类专家的水平,但无法完全替代专家,适合做初筛和前处理,可以用不确定性阈值触发强制人工复核。

未来的优化方向在于提示词设计多语言本地化多模态数据融合(例如包装、配料表的图片等)、混合工作流开发(AI+人类专家)、纵向验证等。

主要参考文献

Ase, A.; Borowicz, J.; Rakocy, K.; Piekarska, B. Large Language Models for Real-World Nutrition Assessment: Structured Prompts, Multi-Model Validation and Expert Oversight. Nutrients 2026, 18, 23. doi.org/10.3390/nu18010023

Leave a Reply

客服