2025.12.03
浏览量:
在数字化浪潮席卷全球的今天,数据科学已成为推动社会进步和行业发展的关键力量。为了进一步促进教师队伍提升科研与社会服务能力,高质量反哺应用型人才培养,并助力区域、城市的数字化发展,数据科学学院推出“Data Lab”系列专栏。本系列旨在报道分院教师队伍在行业洞察、政策解读、数据分析、案例研究以及人才培养等方面的研究成果和思考。通过“以研促教,以教促学”的策略,展现教师在科学研究、教育教学以及行业应用中的综合素养,为行业雇主的未来发展贡献智慧与力量。

作者简介
朱德军,数据科学学院数据科学与大数据技术专业教师。国家信息化认证软件开发工程师,人力资源和社会保障部认证高级软件开发工程师,工业和信息化部认证大数据技术应用高级工程师。参与多个数据分析项目,主编及参编教材2本,研究方向为分布式存储与计算。
闵卓妍,数据科学学院数据科学与大数据技术专业2021级学生。掌握Python、R、Matlab等工具的数据分析技术,擅长机器学习、文本分析与统计建模,拥有多次竞赛获奖经历及企业实习经验。
还在为“吃什么才健康”而纠结,为新一年的健康管理寻找科学起点吗?2025年,国家卫建委提出“体重管理年”理念,倡导人们摒弃盲目跟风的饮食方式,转向基于科学、个性化、量身定制的健康方案。毕竟,在追求健康的道路上,科学指引才是关键。
是该低碳水、高蛋白,还是全靠蔬菜水果撑起一天营养?健康饮食的秘密,其实就藏在数据里!别担心,今天给大家介绍一个机器学习的神奇工具——聚类分析,它能帮助各位揭开食物的“营养密码”,让各位的饮食更加科学、健康。这里没有复杂的公式,只有看得懂的科学、用得上的建议!从现在做起,用数据驱动健康,让“体重管理年”的每一餐都吃得更加明白、更加健康!
用AI看饮食的背景
1. 传统饮食分析的“痛点”
• 过去研究多聚焦“单一食物”:比如“苹果富含维生素C”、“牛奶补钙”……
• 但真实饮食是多种食物的组合,个体差异大,难以系统分析。
• 慢性病(如肥胖、糖尿病)高发,亟需个性化、数据驱动的饮食指导。
2. 机器学习来“破局”
• 聚类分析(Clustering)是一种无监督学习方法,能自动发现数据中的“隐藏分组”。
• 就像把一堆杂乱的食物,按营养“性格”自动分类,找出“高热量派”、“高纤维派”等。
数据探索与模型构建
步骤1:数据收集与处理
本数据来源于公开的食物营养成分数据库,水果、蔬菜、谷物、肉类、乳制品、加工食品等10大类。数据字段包括热量、脂肪、蛋白质、谷物含量、蔬菜类、饱和脂肪等指标,对数据的缺失值、异常值等进行处理后,如表1所示:

步骤2:探索性数据分析

图1 卡路里分布直方图
图1所示的卡路里分布直方图,就像给食物卡路里办了场“人气投票”!横轴是卡路里区间,纵轴是“投进这个卡区间的食物数量”,0 - 250kcal这个“低卡选手区”,柱子高得像要戳破天花板,说明多数食物都是“轻量级小可爱”,日常吃它们能放心搞健康搭配;可500kcal往上的“高卡神秘区”,虽然食物数量少得可怜(柱子矮到快隐身),但依然倔强存在着——这提醒各位:想吃出健康,得盯紧高卡路里食物的“出场次数”,别让它们偷偷霸占餐盘。

图2 按食品类别分布的卡路里
如果把卡路里比作食物的“能量值”,图2所示的箱型图就像一场“能量选美大赛”!水果和蔬菜是“轻量级选手”,中位数卡路里悄悄躲在100千卡/100g以下,妥妥的“低卡小可爱”,日常想健康吃它们准没错。肉类和乳制品可是“重量级选手”,中位数甚至冲到200~300千卡/100g,而且能量波动大得惊人,有的选手胖得圆滚滚,有的又有点克制,堪称“高卡界的神秘大咖”。
从图中的波动范围看,蔬菜水果的“能量带”窄得像条线,而肉类和乳制品的“能量带”宽得能跑马——这说明不同食物的能量密度差距很大!所以,要是想揪出“高热量饮食模式”,光看单个食物一定不够,得把不同类别的食物组合起来“聚类分析”:各位的饮食是“轻量级战队”还是“重量级天团”,卡路里说了算!

图3 蛋白质与碳水化合物含量的对比
图3是“蛋白质和碳水化合物的约会地图”,就像是给食物做了场“营养成分定位秀”!纵轴是肌肉担当「蛋白质」天团,横轴是能量引擎「碳水化合物」小队,每个蓝点就是一种食物的“营养坐标卡”
图中左边碳水少的区域(横轴快贴0),蛋白质含量从“打酱油小透明”(接近0)到“肌肉大佬”(10g+)都有,说明有的食物碳水藏得严实,蛋白质却能放肆冲高;再看右边碳水多的区域(横轴5、6甚至8),蛋白质含量普遍较低(接近0),仿佛碳水越多,蛋白质越没存在感。
这说明碳水和蛋白质在食物里玩“跷跷板游戏”:碳水越多,蛋白质往往越少;碳水躲起来,蛋白质就能蹦得老高。所以大家搭配饮食时,要是想补蛋白质,得留意碳水别太多;要是吃高碳水食物,得额外搭点高蛋白的,让营养更均衡。

图4 脂肪含量的直方图
图4是食物脂肪含量直方图,最左边那根“高到快冲破天际”的柱子(0 - 35g区间),1400+的食物扎堆在这儿,妥妥的“低脂清流派对”!这些“瘦身小可爱”才是食物界的“扛把子”,数量多到能组个超级天团,但往右边一看,脂肪含量超过100g的食物,数量稀稀拉拉,像极了“油光满面的少数派”,有的甚至孤独到“一根柱子代表一种食物”,堪称“脂肪界的独行侠”。
这说明脂肪含量在食物里玩“金字塔游戏”:越低脂,食物数量越多;越高脂,数量断崖式下跌。所以大家吃东西时,要是想控制脂肪摄入,优先选左边“低脂天团”的成员准没错;要是不小心吃了右边“高脂独行侠”,可得悠着点,别让它们在餐盘里“喧宾夺主”。

图5 卡路里与其他营养成分的关系
图5是卡路里与其他营养成分的“社交圈”合影,横轴是卡路里的“人气值”(标准化后),纵轴是其他营养成分的“活跃度”(同样标准化)。图中不同颜色代表不同营养成分家族:蓝色是饱和脂肪、橙色是谷物、绿色是全谷物、红色是蔬菜。
从图中可以看到,这些“家族成员”与卡路里的互动模式各有不同:有些家族随着卡路里升高,自身营养成分也更丰富(表现为点向上延伸);有些则相对“佛系”,无论卡路里高低,营养成分波动不大(点集中在中间区域);还有些在卡路里较高时,营养成分反而减少(点向下倾斜)。这说明卡路里与不同营养成分的关系并非简单的“一荣俱荣”,而是各有特点。
步骤3:模型构建——三种聚类算法“同台竞技”
表2是常见的聚类算法对比,表现各有特色。

K-means(效率派):干活像闪电,大数据量它也不喊累,但缺点是得先猜好要分几组(预设簇数),猜不准容易踩坑,就像点外卖前得先定“选几家店”,选错了菜就乱套。
层次聚类(强迫症艺术家):非得把数据整成“树状谱系图”才罢休,不用你猜组数,最后结构看得明明白白,但干活慢悠悠,要是遇到“怪胎数据”(异常值),谱系直接乱套,堪称“精致但娇气”。
DBSCAN(灵活应变王):靠“人气密度”找群体,还能把凑热闹的“噪声”挑出来,就算数据分布歪瓜裂枣,它也能找到规律,但参数调不好,聚类结果能“翻车”,得反复试参数,属于“能力强但难伺候”。
选算法就像组队干活:要速度选K-means,要美观选层次聚类,要抗压选DBSCAN——当然,得先搞清楚数据“脾气”再选,别让算法“性格”和需求撞车。
使用数据进行三种聚类算法的聚类结果图如下:

模型结果:食物可归为3大“营养阵营”
1. 高热量高脂肪类 —— “能量炸弹派”

2. 低热量高纤维类 —— “肠道守护派”

3. 高碳水化合物低脂类 —— “能量供应派”

模型结果的价值:不只是分类,更是“健康导航”
1. 揭示饮食模式的“互补性”
三类食物在饮食结构中相互平衡:
• 高碳水提供能量
• 高纤维调节代谢
• 高脂肪适量补充必需脂肪酸
2. 支持个性化营养推荐
可用于:
• 个体饮食评估(如:你是否“高脂摄入超标”?)
• 慢病人群饮食干预(如:糖尿病患者应减少精制碳水)
• 公共卫生政策制定(如:学校食堂膳食结构优化)
给普通人的3条“健康饮食建议”
1.均衡搭配,不偏食
每餐尽量包含:主食(高碳水)+ 蛋白质 + 蔬菜(高纤维)
2.控制“能量炸弹”摄入频率
油炸、加工食品每周不超过1-2次,避免“隐形脂肪”。
3.主食升级,优选全谷物
把白米饭换成糙米、燕麦、藜麦等,稳定血糖,营养更全面。
结语:数据驱动健康,未来已来
健康饮食并非苦行僧般的自我约束,而是一场关于平衡的科学艺术。通过聚类分析,已经为大家揭开了食物的“营养密码”,数据显示:没有绝对的饮食禁忌,只有不合理的搭配。对于大多数普通人而言,不必等待复杂的高科技介入,只需掌握简单的“聚类思维”——在动筷前多思考一下餐盘中“三大营养素”的比例是否均衡,这种微小的认知改变,就是迈向健康生活的关键一步。
当然,随着人工智能技术的飞速发展,个性化健康管理的未来已经触手可及。在数据科学学院智研研究院,师生团队正积极探索“饮食建议智能体”的开发。通过结合聚类分析、深度学习等前沿算法,可以将个体的年龄、体重、基因特点乃至实时健康指标(如血糖、血脂)纳入考量。未来的AI助手不仅能根据各位的身体特质推荐易吸收的营养组合,还能通过智能餐盘实时监测,给出“今日热量偏高,明日需多补蔬菜”的精准反馈,真正实现量身定制的科学饮食。
让科学不再停留于理论,而是融入每个人的日常。从今天起,试着用“数据眼光”审视自己的每一餐。无论是依靠当下的聚类思维,还是拥抱未来的AI智能体,目标始终一致:用数据驱动健康,让“体重管理年”的每一口食物都充满智慧与活力。
参考文献:
[1] Kuang L, Wang Z, Zhang J, et al. Factor analysis and cluster analysis of mineral elements contents in different blueberry cultivars[J]. Journal of Food Composition and Analysis, 2022, 109: 104507.
[2]向海欧.食品营养成分分析现状及优化对策研究[J].食品安全导刊,2024,(33):135-137.
[3]周万珍,阚景森.基于k-means与Apriori算法的食物营养成分分析[J].科学技术与工程,2018,18(17):211-216.
数据科学学院智研研究院,专注于行业研究及数据洞察分析,依托大数据技术与商业场景融合,为企业提供专业研究服务和定制化解决方案,欢迎合作交流。
联系人:史老师
地址:西安欧亚学院数据科学学院