设为首页 | 加入收藏 |
新闻动态

Data Lab | 基于机器学习的O2O优惠券使用预测研究

2025.04.25            浏览量:

在数字化浪潮席卷全球的今天,数据科学已成为推动社会进步和行业发展的关键力量。为了进一步促进教师队伍提升科研与社会服务能力,高质量反哺应用型人才培养,并助力区域、城市的数字化发展,数据科学学院推出“Data Lab”系列专栏。本系列旨在报道分院教师队伍在行业洞察、政策解读、数据分析、案例研究以及人才培养等方面的研究成果和思考。通过“以研促教,以教促学”的策略,展现教师在科学研究、教育教学以及行业应用中的综合素养,为行业雇主的未来发展贡献智慧与力量。






作者简介




图片


山美娟,女,副教授,西安电子科技大学计算机专业硕士,大数据高级分析师,机器学习高级工程师,微软MOS国际认证大师级讲师。

研究方向:数据挖掘与数据分析。主持和参与省部级各类课题10余项。主编和参编教材2部,公开发表期刊论文10余篇,多篇录入EI等检索。连续三年指导学生参加MathCup数学建模和挑战杯大学生创新创业大赛,荣获多项省级以上奖励。


1

图片

研究背景


随着互联网技术的发展与普及,O2O(Online To Offline,线上到线下)商业模式逐渐成为连接线上消费体验与线下实体服务的重要桥梁。本研究聚焦于 O2O 平台优惠券的使用情况预测,旨在通过深入剖析用户行为数据,构建高效且精准的优惠券使用预测模型,进而提升用户参与度以及营销活动的效率。研究采用某平台线下的真实消费行为和位置信息数据,对用户消费行为和商户投放优惠券信息进行可视化分析,并对数据进行清洗、变换等预处理操作,运用决策树、梯度提升和 XGBoost 这 3 种分类算法预测用户在领取优惠券 15 天内的使用情况。经多种机器学习算法建模比较,实验结果显示,决策树分类模型的预测效果最为突出,不仅能显著提高优惠券领取率及核销率,还能助力企业更合理地分配营销资源,优化个性化推荐策略,实现精准营销的目标。深入开展该领域的研究,不仅有助于解决现有实践中存在的问题,还可能为未来 O2O 商业模式的发展提供新的思路与方向。


2

图片

研究框架


图片

图1 研究框架

3

图片

理论基础


3.1

决策树分类模型

决策树是一种基于树结构进行决策的分类模型,通过一系列规则对数据进行划分,最终实现分类或回归预测。原理是通过递归划分数据集,构建树形结构,使每个子集尽可能属于同一类别。最终,叶子节点表示类别标签。


3.2

梯度提升分类模型

梯度提升分类是一种基于梯度提升框架的集成学习方法,用于解决分类问题。其核心思想是通过迭代地训练一系列弱分类器(通常是决策树),并将这些弱分类器组合成一个强分类器,从而逐步优化分类性能。


3.3

XGBoost分类模型

XGBoost是一种基于梯度提升框架的集成学习算法,专门用于分类和回归任务。其核心思想是通过迭代地训练一系列弱分类器(通常是决策树),并将它们组合成一个强分类器。XGBoost 在传统梯度提升树(GBDT)的基础上进行了优化,引入了二阶泰勒展开、正则化、并行计算等技术,显著提升了模型的性能和效率。


4

图片

实证分析


4.1

数据来源

某平台拥有用户线下的真实消费行为和位置信息等数据,为保护用户隐私和数据安全,数据已经随机采样盒脱敏处理。数据包括训练样本和测试样本。其中,训练样本共有1444037条记录,测试样本为用户领取商户优惠券信息。总的数据属性包含用户ID、商户ID、优惠券ID、优惠券折扣力度、用户与门店的距离、领取优惠日期、消费日期。


4.2

数据探索

(1)分析优惠形式信息


原始训练样本中的discount-rate字段部分是以小数形式存在的,表示折扣率;部分是以比值形式存在的,表示满额减免。考虑到折扣率和满额减免这两种形式可能是影响用户是否使用优惠券的一个因素,分别分析这两种优惠形式的分布情况并绘制饼图,结果如图2所示。


图片

图2 满减优惠形式和折扣率优惠形式


由图2可知,满减优惠形式和折扣率优惠形式的优惠券在15天内未被使用的比例相对较大,分别为94.1%、89%;满减优惠形式的优惠券在15天内被使用的比例仅为5.9%,折扣率优惠形式的优惠券在15天内被使用的比例为11%,说明用户更倾向使用折扣率优惠形式的优惠券到店进行消费。


(2)分析用户消费行为信息


统计各月份的用户消费次数,绘制2022年前6个月各月份用户消费次数和领券消费次数柱形图,如图3所示。


图片

图3 2022年前6个月各月份用户消费次数与领券消费次数柱形图


(3)分析商户投放优惠券信息


平台有多家商户参与优惠券投放,绘制饼图分别分析持优惠券与未持优惠券消费的用户到门店的距离,如图4所示。


图片

图4 持券消费与未持券消费的用户到门店的距离比例饼图

注:图中数字0~10代表不同的距离


5

图片

数据预处理


对原始数据进行探索性分析时,会发现存在缺失值、部分属性的数据类型不统一、数据的属性过少等问题,因此对数据做了数据清洗和数据变换。便于从用户、商户、优惠券及用户和商户的交互关系4个维度进行深入分析。


6

图片

分析与建模


预测用户领券后的使用情况是一个分类问题,对于分类模型的建立和预测,本文主要采用决策树分类算法、梯度提升分类算法和XGBoost分类算法3种分类算法。

对训练样本建立基于CART的决策树分类模型,并进行预测,得到的测试样本的部分预测结果如表1所示。

表1 决策树分类模型预测测试样本的部分结果

图片


7

图片

模型评价及结论


本案例选用准确率、精确率、AUC值和ROC曲线这4个指标对各个模型进行评价。针对决策树分类模型、梯度提升分类模型和XGBoost分类模型分别计算准确率、精确率、AUC值,得到各模型的评价指标对比如表2所示。决策树分类模型的ROC曲线如图5所示。

表2 模型评价指标对比

图片


图片

图5 决策树分类模型的ROC曲线


AUC值表示ROC曲线下的面积,面积越大,准确率越高。由图5可知,决策树分类模型、梯度提升分类模型和XGBoost分类模型的AUC值都很高,说明准确率较高。综合上述分析,决策树分类模型的精确率比梯度提升分类模型和XGBoost分类模型的精确率高,可以大致说明决策树分类模型的预测效果优于梯度提升分类模型和XGBoost分类模型。


8

图片

商业建议


基于机器学习的 O2O 优惠券使用预测研究,能有效助力商业决策。

在投放策略上,精准定位高概率使用优惠券的用户群体,结合用户消费特征发放个性化优惠券,并根据实时数据动态调整投放量。

在用户体验优化方面,简化领取流程,提供清晰使用指引,同时基于预测结果进行个性化商品推荐,并重视用户反馈,及时改进服务。

在商家运营端,依据预测提前规划库存与人力,分析影响优惠券使用的关键因素优化营销策略,加强与平台的数据共享与合作。

此外,务必建立健全数据安全管理体系,明确数据使用边界,在合法合规前提下使用用户数据,保护用户隐私,以此提升用户对平台和商家的信任度,实现优惠券营销效果最大化。




参考文献




[1] Python数据分析与挖掘实战[D] ,翟世臣、张良均编著,人民邮电出版社,2022.7

[2]大数据技术基础[D],薛志东编著,人民邮电出版社,2018.8

[3]Python在数据分析中的应用[J],陈华,上海轻工业,2024.3:108-110


------- 友情链接 -------

学校地址:陕西省西安市雁塔区东仪路8号    


Copyright 2017 Xi'an Eurasia University , All Rights Reserved , 陕ICP备13005465-1