来源 | Hyper超神经

作者 | 神经小兮

头图 | 下载于视觉中国

如今,大数据已经被各行各业所应用,酒店行业也不例外。充分利用大数据,使得酒店能够预测市场需求变化,进行智能化决策分析,改善经营状况。

各大 OTA(Online Travel Agency)平台极大地方便了人们的出行,酒店住宿、景点门票等,只需要动动手指就可以轻松完成预订。

为了吸引更多用户预订,这些平台会鼓励商家设定较为宽松的取消预订政策,比如可随时免费取消,或限时免费取消等。

全球客房销售量最大的网上酒店预订网站 Booking(缤客网),就凭借可免费取消的优势,深受广大驴友喜爱。

不过,对于用户来说,「免费取消」非常 nice,但对酒店来说,就很头大了。订单临时被取消,通常会给酒店带来以下损失:

  1. 被取消房间无法及时出售,酒店损失收入;

  2. 酒店降低价格出售被取消房间,减少了利润

  3. 为了尽快订出这些房间,酒店需要增加额外的宣传、分销渠道的费用;

在用户可以随时放酒店鸽子的情况下,酒店有没有什么办法,尽可能减少损失呢?

一位葡萄牙业务分析师(Business Analyst,简称 BA,这一职位相当于 IT 公司的产品经理) Manuel Banza,有超过 5 年的酒店管理从业经验。他利用公开的欧洲酒店预订平台数据,发现了更容易取消订单的用户特点,以帮助酒店及时进行止损。

从近 12 万条酒店预订数据中,发现规律

作为一名数据科学爱好者,Manuel Banza 从数据科学和机器学习入手。

他首先对一个「酒店预订需求数据集」(Hotel booking demand)进行了全面分析。该数据集包含了普通酒店和度假酒店共 32 个维度的数据,具体包括:

用户国籍、预订时间、住宿时间、成人和儿童或婴儿的数量、订单最终是否取消、用户在此次订单之前共取消订单次数等信息。

Hotel Booking Demand

酒店预订需求数据集

发布机构:葡萄牙里斯本大学

包含数量:共 119390 条数据,32 个维度

数据格式:csv

数据大小:16.9 MB(压缩文件 1.3 MB)

地址:https://hyper.ai/datasets/14866

部分数据展示

通过统计,Manuel Banza 发现一年时间里,取消酒店订单的用户真不少。

2018 年 OTA 平台 Booking 上的预订订单中,有 49.8% 的用户取消了订单;在 HRS Group 上,这一比例甚至高达 66%。整体来看,多家平台在 2018 年平均预订订单取消率达到 39.6%。

各类预订渠道被取消的订单比例

接着,作者对数据进行了探索性分析,有以下几个发现:

  • 普通酒店和度假酒店相比,订单更容易被客人取消;

  • 春节和夏季的取消比例更大,而冬季的取消比例最低;

  • 各种预订渠道中,用户在 OTA 平台下单最多,同时 OTA 平台上被取消订单的也最多;

  • 用户预订时间越早,不确定性越大,取消的概率越大

作者表示,预订时间是分析酒店收益表现时,最重要的指标之一。分析结果表明,提前 1 年以上预订的取消概率最高,为 57.14%;一周内预订取消概率最低,为 7.73%。

预订提前的天数(横轴)与取消订单概率(纵轴)成正比

看来,计划越早越赶不上变化啊

机器学习模型:预测谁最可能「放鸽子」

对数据集进行全面分析后,作者开始建立预测订单取消的模型。

第一步:数据清洗

首先,对数据集中缺失的值进行处理。如果该变量是数字变量,则必须用该特征的均值替换这些缺失值;如果该变量是分类特征,则必须用常数替换。

然后删除 reservation_status(预订状态,该变量代表订单是否被取消,0 为未取消,1 为取消),因为这是机器学习模型将要预测的值。

第二步:选择最佳模型

在开始为数据测试最佳算法之前,将数据集按 8:2 的比例分开。之后将用 80% 的数据来训练模型,并将 20% 的数据作为验证集。

在数据科学领域,预测订单取消是一个监督分类问题,也叫做二元分类。因此,作者选取了几个现有的二分类模型如 LightGBM,CatBoost、XGBoost 及 H2O 等,进行训练及对比,最终选出了实验结果最佳的模型 CatBoost。

通过 CatBoost 预测结果,发现以下几点:

  1. 如果用户的国籍是葡萄牙,则取消订单的可能性很高。不过,对于团体订票来说,酒店一般不会事先得到每个人的国籍信息。如果订单被取消,大多数酒店都会将其国籍默认为酒店所在的国家。所以,这项信息只作为参考,并不一定准确;

  2. 与至少提出一个特殊要求的用户相比,未提出任何特殊要求的用户,取消订单的可能性更高;

  3. lead_time(预订时间与入驻时间间隔天数)值越低,预订被取消的可能性就越低(这一点预测结果与之前数据分析结果相一致)。

葡萄牙人气酒店欧洲之星博物馆,店内以考古展览为特色

上线多个 OTA 平台,支持在线预订及免费取消

CatBoost 模型在验证集上的表现:

在整个「酒店预订需求」数据集上的表现:

酒店:在取消之前,让我先抢救一波

使用这一预测模型,酒店就可以提前获知哪些用户可能取消订单,及时采取补救措施。

比如,提前联系取消可能性较大的用户,通过沟通,让他们尽可能更早地取消,给酒店预留更多的时间出售房间。

或者,也可以与有取消倾向的用户联系,向其介绍酒店的优点,给出一些入住奖励,力挽狂澜挽留他们。

参考链接:

https://www.linkedin.com/pulse/u-hotel-booking-cancellations-using-machine-learning-manuel-banza

CSDN协同行业大佬,携手打造13长热门知识图谱及IT成长路线
助力千万IT人成长,快速实现职场进阶!
更多精彩推荐
☞市值达 58 亿美元,吴恩达的在线教育平台 Coursera 正式上市☞Arm 十年重磅发布 v9 架构,不受 EAR 约束,未来将覆盖 3000 亿颗芯片☞雷军的最后一次 重 大 创 业
点分享点收藏点点赞点在看

清明出游,你会“鸽”酒店吗?AI 早已看穿一切相关推荐

  1. 假期出游,你会“鸽”酒店吗?AI 早已看穿一切

    如今,大数据已经被各行各业所应用,酒店行业也不例外.充分利用大数据,使得酒店能够预测市场需求变化,进行智能化决策分析,改善经营状况. 各大 OTA(Online Travel Agency)平台极大地 ...

  2. 清明出游,在高速上堵了16个小时。

    清明节3天假期结束了,你们都干什么了?我出去转了一下. 但是这个清明节,我太累了.因为清明节3天假期,我有两天都在高速上..堵着.... 清明节,听说江西婺源的油菜花不错,就带着家人想着从杭州开车过去 ...

  3. Stable Diffusion 2.0来了,皮卡智能AI早已“抢先”优化升级

    就在昨日,Stability AI发布了Stable Diffusion 2.0 版本上线,玩家惊呼V1还没整明白,V2版本就来了.其实在Stable Diffusion 1.0开源后,皮卡智能AI许 ...

  4. 在线招聘市场强手如林,携AI入局的灵鸽会飞向何方?

    近日,灵鸽App上线新版本入局在线招聘领域的消息不胫而走.而这样一个消息能得到市场关注,很大程度上在于灵鸽背后的创始人王欣. 2019年,王欣上线灵鸽APP,定位C2C,是一个灵活用工技能共享和协作平 ...

  5. 春季出游将至 Bingdata大数据详解春季踏青游趋势

    春光恰好,时值清明踏青赏花之季,不少人开始规划自己的出行线路.Bingdata通过大数据应用为全国游客描绘了春季踏青游变化趋势. 综合热度三亚居首 婺源借力油菜花期蹿升至第十 据大数据分析显示,今年期 ...

  6. 打造明星朋友圈!AI名片还能这样玩?

    逢年过节,闲适地待在家里,享受难得的安逸:或是你仍抓住每分每秒,为了更好的未来而奋斗,充电不停休. 在某个片刻,你是否也有过同样的烦恼: 想要在朋友圈分享心情,传递能量,零零碎碎拼凑出语言,却词不达意 ...

  7. 天哪!我的十一假期被AI操控了

    (图片付费下载自视觉中国) 导语:这个假期,除了脑海一直在唱歌,庆祝祖国成立的 70 周年,当然也闲不住,要乘机出去浪一浪.目前小长假进度条已经进行到 71.4% 了,有没有发现这个假期与以往有什么不 ...

  8. “不设边界”的云知声:从多场景AI芯片到视觉AI,誓要2019营收近3倍

    记者| 杨丽  出品| AI科技大本营 若非要总结 2018.展望 2019 的话,可以借用云知声创始人兼 CEO 黄伟的一句点评:"所有伟大的公司都诞生于真实的生产需求." 20 ...

  9. 驾乘 AI 技术发展浪潮,全球最大中文 IT 社区 CSDN 宣布战略升级为 AI 社区

    [北京·2018年1月16日]全球最大的中文 IT 技术社区 CSDN 在蔓兰酒店举办" AI 生态赋能 2018 论坛暨 CSDN AI 新战略发布会",与数百位来自人工智能产业 ...

最新文章

  1. LINUX在逻辑卷基础加盘操作步骤
  2. cordova编译报错:Execution failed for task ':processDebugResources'
  3. ubuntu 修改environment导致无法启动
  4. android 8 esp8266,微信硬件平台(八) 1 esp8266从自己的服务器获取token
  5. 为什么苹果6没有录屏_为什么苹果手机受欢迎?因为没有一部安卓手机是“干净”的...
  6. ASP.NET -- WebForm -- Cookie的使用 应用程序权限设计 权限设计文章汇总 asp.net后台管理系统-登陆模块-是否自动登陆 C# 读写文件摘要...
  7. docker remote api未授权访问漏洞(端口:2375)
  8. 【英语学习】【医学】有机化学 - 烷的命名
  9. ETL学习总结(2)——ETL数据集成工具之kettle、sqoop、datax、streamSets 比较
  10. PAT 1082. 射击比赛 (20) - 乙级
  11. linux下echo /dev/ttys* 到字符设备文件,Linux系统的终端特殊设备文件
  12. c语言 十进制转十六进制算法,十进制转十六进制算法
  13. 阿里云MVP北京闭门会圆满落幕 多把“利剑”助力开发者破阵蜕变...
  14. 在美国成年人群体中,语音助手Siri已经成了第二大移动搜索引擎
  15. java 定时凌晨_java Timer 定时每天凌晨1点执行任务
  16. PrivacyIN Week2 | 张宇鹏博导开讲经典零知识证明协议设计原理
  17. Linux C 编程开发环境(工具链,编译,汇编,链接,库)基础知识与实践
  18. 关于UWB汽车钥匙介绍
  19. Python练手项目:玩转魔方
  20. 『征文精选』技术翻译与术语管理技术:专业人说专业话

热门文章

  1. 获得PMP证书的这一年
  2. BSP场景管理方法简介
  3. 接近WinHEC 2008
  4. java io 缓冲流_记忆系列-Java IO的缓存输入输出流(高效流)
  5. 智能网联汽车高精地图白皮书(2020)
  6. git之reset图解
  7. SVN linux 服务器端配置
  8. 解决Android5.0以后DatePicker选择时间无效的bug。
  9. 《转》java设计模式--工厂方法模式(Factory Method)
  10. 【Java】Linux下安装配置Oracle JDK 1.7版本