设为首页 | 加入收藏 |
新闻动态

Data Knowledge |一文了解SHAP:透过 “显微镜” 看懂机器学习模型决策

2025.05.05            浏览量:

在数字化时代背景下,数据科学已成为驱动社会进步与行业革新的核心动力。秉承学校“以雇主为导向,以学生为中心”的教育理念,同时响应雇主对高素质数据分析人才的需求,数据科学学院推出“Data Knowledge”专栏,将普及数据模型、数据结构、机器学习等基础数据科学知识,为师生提供持续学习和成长的平台,同时,通过连接教学理论与现实实际,在生动传递专业知识的同时,深化教师队伍的知识储备,助力应用型数据分析人才的培养。



图片

作者简介:王海元, 民进会员,副教授。

研究专长:统计机器学习

主讲课程:《回归分析与实现》,《系统工程》,《计量经济分析》,《商业智能及应用》等。


图片


在数据驱动的决策世界里,机器学习模型常被视为 “黑箱”,输入数据,输出结果,但中间发生了什么,宛如迷雾笼罩。SHAP(SHapley Additive exPlanations)如一盏明灯,照亮模型决策的幽暗角落,让复杂模型的逻辑链条清晰可见,为我们揭开模型预测背后的真相。


1.SHAP 是什么?

SHAP 借鉴博弈论中的 Shapley 值概念,为每个特征对模型预测的贡献精确 “画像”。它横跨多种模型类型,无论是树模型(如 XGBoost、随机森林)还是深度学习模型,都能轻松应对,给出统一的解释框架。


2.SHAP 的超能力

【全局视角】SHAP 值汇总分析,勾勒出数据集中各特征对模型预测的整体影响力,精准定位关键驱动因素,仿佛从万米高空俯瞰整个模型决策地形图,一眼锁定关键山脉与河流。

【局部微观】针对单个预测样本,SHAP 细致入微地剖析每个特征的贡献,就像在微观世界用电子显微镜观察分子结构,清晰呈现每个特征如何推动此次预测结果的形成,让个性化的决策解释触手可及。


3.为什么 SHAP 让人爱不释手?

【模型 debugging “得力助手”】当模型预测出现偏差,SHAP 迅速定位 “捣乱” 的特征,助力我们有的放矢地优化模型,效率提升数倍。

【业务决策 “翻译官”】将模型预测结果 “翻译” 成业务语言,为非技术背景的决策者提供直观依据,让数据智慧在业务落地时畅通无阻。

【模型对比 “裁判” 】不同模型在解释性上的差异,SHAP 能一探究竟,帮我们筛选出不仅预测准,而且逻辑通透的优质模型。


4.搭配 SHAP 的绝妙搭档

可视化工具:与 matplotlib、seaborn 等联袂,绘制出精美的 SHAP 图(如 summary_plot、force_plot、bar_plot),让模型解释以 “眼见为实” 的画面呈现在众人眼前,冲击力十足。


5. 心动不如行动,一起行动来吧

以sklearn自带的diabetes数据库为例,编写并运行Python代码就可以看到“惊艳”的SHAP图了。


图片


summary_plot:展示每个特征对模型预测结果的整体影响情况。横轴是 SHAP 值,表示特征对预测结果的贡献程度;纵轴是各个特征名称。它从图中可以看到哪些特征在模型中起到关键作用,比如某些特征的 SHAP 值分布范围广且绝对值较大,说明它们对模型预测结果的影响更为显著。这个图还能帮助我们观察到特征值大小(用颜色表示)与预测结果之间的关系,比如高值特征是会推动预测结果增大还是减小,为理解模型整体行为提供了直观的视角。


图片

summary_plot


force_plot:针对单个样本的预测解释。左侧是基线预测值,也就是当没有考虑任何特征时模型的初始预测值;右侧是模型对该样本的实际预测值。中间的箭头表示各个特征对预测结果的影响方向和大小,箭头向右意味着特征使预测值增加,向左则表示使预测值减少,箭头的长度反映了特征对预测结果影响的强弱。通过这个图,我们可以清晰地看到在这个特定样本中,每个特征是如何 “发力” 来影响最终预测结果的,就像在显微镜下观察到每个特征的具体作用,有助于深入理解模型对单个样本的决策过程。


图片

force_plot


bar_plot:主要用于展示各个特征对模型预测结果的平均重要性。横轴是特征的平均绝对 SHAP 值,表示该特征在所有样本中对预测结果影响的平均大小;纵轴是特征名称。柱子越长,说明该特征在模型中总体上越重要。这个图能让我们快速了解哪些特征是模型的关键驱动因素,方便我们在特征选择、模型优化或向业务人员解释模型时突出重点。它从全局角度对特征的重要性进行排序和展示,让我们对模型的整体特征利用情况有一个清晰的认识,为后续的模型改进和决策提供依据。


图片

bar_plot


在数据科学的探索之路上,理解模型决策不再是可望而不可及的挑战。SHAP 就是那把开启模型 “黑箱” 的万能钥匙,让模型的每一次预测都有迹可循、有据可依。下次当你面对令人头疼的模型解释难题时,不妨让 SHAP 成为你最坚实的后盾,与它携手,轻松拆解模型决策的神秘面纱。



------- 友情链接 -------

学校地址:陕西省西安市雁塔区东仪路8号    


Copyright 2017 Xi'an Eurasia University , All Rights Reserved , 陕ICP备13005465-1