谷禾健康
准确的饮食评估是营养流行病学、临床营养学及公共卫生计划的基石,对于减轻全球饮食相关慢性疾病(如肥胖、三高)至关重要。
然而,传统的评估工具(如食物频率问卷、24小时回忆法和称重食物记录)长期面临着参与者负担重、数据偏差以及可扩展性有限等问题,这些局限性降低了营养数据的可用性和准确性。
人工智能与大型语言模型的兴起
近年来,人工智能(AI),特别是自然语言处理(NLP)和大型语言模型(LLMs)的飞速发展,为自动化营养评估提供了新的契机。以GPT、Claude、Gemini为代表的先进模型,具备了处理复杂自由文本、进行高通量食品分类及提供个性化营养建议的潜力。
编辑
然而,目前的验证研究主要集中在英语数据集上,遇到像波兰语这样语法复杂的语言,它们还能不能这么灵光? 此外,现实生活远比实验室复杂。比如在养老院里,饮食数据往往包含复杂的菜单外食品,要让AI准确识别这些带有强烈文化特色、又没写在标准食谱上的东西,对它的语言天赋和应变能力绝对是个巨大的考验。
分类框架的整合:NOVA与WHO指南
饮食质量的评估通常依赖于互补的框架:既要看食品是如何加工的(NOVA系统),又要看具体的营养成分是否超标(如糖、脂肪和钠),即参照世界卫生组织(WHO)的指南。
编辑
虽然这两大标准是全球饮食指南的基础,但直接让AI照搬却很困难,因为两者在定义上时有模糊,甚至相互打架。尤其是NOVA系统有时过于简单粗暴(非黑即白),无法完全反映食品的复杂性。因此,我们需要一种能同时考量加工深度和营养密度的混合系统,从而让AI做出更精准的判断。
为了填补这一空白,来自波兰的华沙医科大学Aia等人的研究团队利用一份包含1992种食品的波兰语纵向数据集,对目前市面上三款顶流AI模型——Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.1-chat-latest,设了两场考试:一场是死磕标准的硬核测试(结合NOVA和WHO双重标准),一场是凭直觉的快速测试。
编辑
结果很明确,虽然AI面对复杂的波兰语还不能完全独立行医,但只要有人类专家的把关,AI完全有能力成为临床和公共卫生营养评估中的得力助手,让大规模的健康饮食管理变得既快又好。
本文我们一起来详细了解一下这项研究的主要设计、AI模型的真实表现、专家如何配合AI实现人机协作的最佳效果。无论你是营养师、AI从业者,还是对健康饮食感兴趣的科研工作者,相信都能从中获得新的启发。
该研究基于华沙医科大学2017–2021年开展的长期护理机构(LTCF)纵向项目数据,已获伦理批准(AK-BE/212/2017)。
原队列约1000名居民,收集人体测量、生物阻抗、体力活动、临床诊断与膳食信息。研究聚焦居民个人橱柜中菜单外食品(由本人购买或家属带入,非机构配餐),共纳入1992条食品记录,数据以波兰语原文处理。
选取三种大型语言模型(Claude Opus 4.5、Gemini 3 Pro、GPT-5.1-chat-latest),均通过API调用,统一温度参数为1.0,以提高可比性并贴近默认使用场景。
设置两种提示策略
① 结构化双步提示
1
按NOVA识别超加工食品(UPF),一经判定即归为不健康;
2
仅对第1步判为健康的条目,按WHO阈值评估游离糖(>总能量10%)、饱和脂肪(>10%)或钠(>2 g/日),超标则改判不健康。
模型需输出每个产品的名称、重量(g)、热量与二分类结果,并分别汇总两类总热量。
② 简化单步提示
仅要求对每个产品给出健康/不健康判断及简短理由(两列:evaluation与description)。
人工参照标准由两位专家完成:
统计分析以Pearson卡方检验(α=0.05)进行多组两两比较(模型-专家、模型间、提示策略间及“多模型共识”主导类别)。同时以不健康为阳性,基于混淆矩阵计算Accuracy、Precision、Recall、F1与Specificity,评估不同提示与模型的错误模式。
编辑
文中会出现的一个词:Dominant,指的是多模型共识(consensus response across LLMs),你可以理解为对多个模型的结果采用了投票机制,如果大多数模型对某一项食品都给出了相同的分类,那么这个分类就被认为是“Dominant”分类,即多模型共识的分类结果,有助于减少单个LLM的偏见,同时保持保守的风险评估。
1. 结构化双步提示结果
★ 核心结论
三种模型与专家一致性都很高(约90–91%);同时呈现更保守的倾向,也就是说更擅长抓出不健康(Recall很高),但更容易把健康误判为不健康(Specificity下降)。
双步提示下 LLM vs 专家的一致性分布
(占总样本1992的百分比)
编辑
双步提示下的混淆矩阵指标
(UNHEALTHY为阳性)
编辑
怎么看这组结果?
双步提示把规则写死(先NOVA判UPF直接不健康,再用WHO阈值复筛),所以模型更倾向于宁可判不健康也不漏掉,表现为 Recall极高(0.963–0.982)。
代价是 Specificity偏低(0.798–0.844),也就是说有一部分其实健康的条目被判成不健康(假阳性更多)。
2. 简化单步提示结果
★ 核心结论
简化提示下,总体一致率更高(约92.5–94.2%),并且 Specificity明显提升,Recall仍保持较强,整体更像专家的整体判断风格。
同时,作者指出:在简化提示下,模型整体会把更多条目判为健康(相比双步提示),显示规则约束变少后,模型不再那么保守。
简化提示下 LLM vs 专家的一致性分布
(占总样本1992的百分比)
编辑
简化提示下的混淆矩阵指标
(UNHEALTHY为阳性)
编辑
怎么看这组结果?
相比双步提示,简化提示的 Accuracy更高(0.927–0.942),并且 Specificity显著提高(0.897–0.951):更少把健康误判为不健康。
Recall略有回落但仍高(0.909–0.964),整体更均衡。
Dominant在简化提示下表现最好/接近最好(Accuracy 0.942,F1 0.949)。
这提示简化单步策略在召回率和特异性之间找到了一个更好的平衡点,使得模型的分类结果既能较好地识别不健康食品,也能较好地识别健康食品,减少了误报或漏报的情况。
3. 跨模型、跨提示词的整体差异(卡方检验)
为了评估提示结构对不同LLM及人类专家之间的一致性和差异性,使用Pearson’s Chi-square检验,对所有可能的成对比较(36对)进行统计显著性测试。
关键发现
所有两两比较均显著不同:
χ2=1174.5 –1897.1,p < 0.001
编辑
说明即使总体一致率很高,不同模型/不同提示词仍会导致系统性的分类分布差异(不只是随机波动)。
文中还给了两个极值例子:
各模型与专家总一致率(双步 vs 简化)
编辑
尽管多模型共识(Dominant)在一些指标上接近或略优于最佳单一模型,但与专家的判断仍存在显著差异,提示共识并不能完全替代专家判断,尤其在边缘案例上。这些差异也体现出提示词设计的重要性。
当前人工智能所展示的膳食分类的能力,虽然接近人类专家的水平,但无法完全替代专家,适合做初筛和前处理,可以用不确定性阈值触发强制人工复核。
未来的优化方向在于提示词设计、多语言本地化、多模态数据融合(例如包装、配料表的图片等)、混合工作流开发(AI+人类专家)、纵向验证等。
主要参考文献
Ase, A.; Borowicz, J.; Rakocy, K.; Piekarska, B. Large Language Models for Real-World Nutrition Assessment: Structured Prompts, Multi-Model Validation and Expert Oversight. Nutrients 2026, 18, 23. doi.org/10.3390/nu18010023