2025.05.29
浏览量:
在数字化浪潮席卷全球的今天,数据科学已成为推动社会进步和行业发展的关键力量。为了进一步促进教师队伍提升科研与社会服务能力,高质量反哺应用型人才培养,并助力区域、城市的数字化发展,数据科学学院推出“Data Lab”系列专栏。本系列旨在报道分院教师队伍在行业洞察、政策解读、数据分析、案例研究以及人才培养等方面的研究成果和思考。通过“以研促教,以教促学”的策略,展现教师在科学研究、教育教学以及行业应用中的综合素养,为行业雇主的未来发展贡献智慧与力量。
姚尧
数据科学学院教师,香港中文大学硕士,曾就职字节跳动、安永(中国),参与省级课题一项,发表论文2篇。
主讲课程:《经济学》《专业导论》
研究背景
在数字经济飞速发展的今天,大数据已成为推动各行各业革新的核心动力。旅游业,作为国民经济的重要支柱产业,其市场规模庞大且竞争激烈。随着在线旅游平台的兴起,消费者能够轻松实现比价与预订,这一变革不仅极大地方便了旅客,同时也为行业积累了海量的用户行为数据。这些数据犹如一座待挖掘的“信息金矿”,蕴含着用户的出行偏好、消费习惯以及市场需求,对于洞察行业趋势、优化资源配置具有不可估量的价值。
研究目的
本次研究立足某旅游网平台数据,旨在通过大数据分析揭示用户旅行模式并实现精确的机票价格预测,从而为行业和消费者提供决策支持。
具体目标包括:
旅行模式分析:
揭示用户在某旅游网的出行时间、目的地选择、预订习惯等行为特征,并探讨其与季节、节假日等外部因素的关联,为旅游企业提供市场细分和趋势预测依据。
机票价格预测:
构建并优化机票价格预测模型,分析影响价格波动的关键因素(如供需关系、出发/到达城市、购票时间等),评估模型的准确性和可靠性,为定价和收益管理提供参考。
决策支持:
基于上述分析结果,为旅游企业制定精准的营销策略和产品优化方案,同时为消费者提供购票时机和行程规划建议,帮助其合理安排行程、节省旅行成本。
数据预处理
数据质量是后续分析的基石。因此,研究中对原始数据进行了系统的清洗和预处理,主要步骤包括:
数据建模与分析
旅行模式分析
通过统计各城市作为出发地和目的地的出现频次,并使用条形图和中国地图进行可视化展示,研究发现:
热门出发地:杭州、南京位居前列,是旅客最常选择的出发城市。
热门目的地:西安、三亚为最受欢迎的到达城市,反映了这些城市的旅游吸引力。
出行季节性:不同月份的出行次数呈现明显峰谷变化,传统节假日附近为旅游旺季,需求量剧增。
这些发现为旅游企业提供了宝贵的市场洞察,有助于其针对热门线路加大投入、优化航班资源,并根据淡旺季规律进行运力调配和促销活动。
机票价格分析
为了分析影响机票价格的主要因素,使用箱线图展示了不同出发地、目的地和出发时间对机票价格的影响。
机票价格预测模型
在机票价格预测方面,研究采用了随机森林回归模型,并进一步引入XGBoost算法以提升性能。经过网格搜索调优后,随机森林模型的决定系数R²约为0.8371,均方误差(MSE)约为47341。相比之下,XGBoost模型进一步将R²提升至约0.8545,验证了梯度提升算法在捕捉复杂非线性关系方面的优势。模型预测结果基本沿理想45°直线分布,残差分布分析也表明预测误差近似服从零均值正态分布,未见明显系统性偏差。
通过R²得分与均方误差(MSE)指标进行多模型评估
影响因素分析
研究还利用特征重要性分析(如SHAP值)来解释价格波动背后的驱动因素。结果显示,出发城市、目的地和购票时间等特征对机票价格影响显著。例如,某些热门出发城市的航班价格整体较高,而高峰时段的票价也会相应上涨。
结论与建议
通过对旅游行业大数据的深入挖掘,本研究揭示了用户的旅行模式和机票价格的影响因素,并建立了精准的价格预测模型。基于这些发现,为行业提出以下建议:
优化航线布局:
增加热门城市的航班投放,特别是在淡季期间推出促销活动,以提升航班利用率和收益。
合理购票时机:
消费者可参考预测结果,在旅游淡季或非高峰时段提前订票,以获取更低的价格。
精准营销策略:
根据用户的出发地、目的地偏好及出行习惯实施个性化营销,提高转化率和客户满意度。
未来,研究可进一步完善数据质量,引入更多相关特征(如季节、节假日、航空公司政策等),并尝试多种机器学习模型,以进一步提升分析与预测的精度,为旅游行业的数字化和智能化转型提供更有力的支持。
参考文献
[1] 大数据时代:生活、工作与思维的大变革 [M]. 维克托・迈尔 - 舍恩伯格,肯尼思・库克耶。浙江人民出版社,2013.
[2] Python 数据分析实战 [M]. Wes McKinney. 机械工业出版社,2013.
[3] 统计学习方法(第二版)[M]. 李航。清华大学出版社,2019.