如何在一次又一次的时下热潮中,让自己的旅行产品卖成爆品,正是旅行社所密切关心的。我们以三亚跟团游在线旅游产品为例,对销量的各个可能影响因素进行描述建模,并对消费者评论内容进行词频统计、利用LDA模型进行主题挖掘,将文本挖掘得到的主题出现概率作为衍生自变量加入到后续回归模型中,最终以产品是否有历史销量和月平均销量分布作为因变量建立模型,为旅行社探索挖掘相关信息,提供修改旅行产品的建议。

背景介绍

沙滩、椰风、海韵,三亚这座城市拥有60%的森林覆盖率,209.1公里的海岸线,拥有19处优质海湾。近十年,三亚已建成23处别具特色的旅游景区,例如:三亚湾椰梦长廊、西岛海上游乐世界、“蜈支洲岛”度假中心、天涯海角风景区等。三亚现有近200家旅游饭店,四、五星级酒店近30家。2018年,三亚市接待游客总人数2242.57万人次,比2017年增长11.3%。全年旅游总收入514.73亿元。全市共有A级及以上景区14处,其中,5A景区3处,4A景区5处。三亚已经形成完整、极具吸引力的旅游产品体系,这就是本文之所以选取三亚这座城市作为研究目标的原因。

纵观线上旅游市场,OTA市场交易规模平稳增长,在线产品预定也呈多元化发展。在线旅游业的整体格局已经趋于稳定,随着旅行细分市场运营发展日益精细化,在线旅游市场份额日趋稳定,突围壁垒增高,窗口逐渐缩小,市场集中度进一步提升。2018年在线旅游交易额达到1.2万亿。

据某网站发布的报告显示,有超过70%的游客在外出旅游时选择了跟团游产品,以家庭为单位的私家团人数更是暴增105%。跟团游产品仍然火爆,在线旅游蓬勃的发展以及市场交易额也不断扩大,那么如此广阔的市场发展前景就必然成为商家的必争之地。这么多线上旅行社如何在竞争激烈的市场上,拔得头筹,将自己的产品卖成爆品?

小编决定从“获客困难”这一问题为切入口,基于线上三亚跟团游产品销量的影响因素分析,为旅行社获得更多销量及更高利润,并从消费者评论角度直击旅行社痛点。

数据描述

本文所使用的数据抓取自某大型在线旅游网,选择所有热门城市为出发地逐个爬取,并去重,留下共1813条样本,每条数据代表一个三亚跟团游产品的相关信息。其中有销量信息的样本共610条,有评论信息的共455条。

描述分析

我们发现所爬取1813条数据中,有销量信息的跟团游产品经610个,故本次研究将因变量一分为二,首先对产品是否有历史销量进行影响因素分析。再对有销量的产品进行销量标准化处理,分析其影响因素。

01 因变量:线上三亚跟团游产品是否有销量

该网上所有三亚跟团游产品有历史销量的仅由610个,占比33.6%。

自变量描述,以是否有购物、产品价格是否可见行程地图为例。分析如下:

我们发现无购物的跟团游产品获客能力比有购物的产品强,有销量的产品总体价格低于无销量的产品。

可见行程地图的产品获客能力明显强于不可见行程地图的产品,行程地图的展示能帮助消费者直观了解整体行程,也能使消费者更愿意长时间停留在该产品页面上,提高购买概率。

02 因变量:三亚跟团游产品月平均销量

我们选取所有有历史销量的产品,利用产品评论最早日期代替上线日期,进行标准化处理,排除上线时长对销量的影响,得到我们所关心的因变量——三亚跟团游产品月平均销量。做对数处理,绘制如下直方图,整体呈右偏分布,大部分产品销量小于10(人/月)。销量最大值高达700.87(人/月),来自该网旅游自营的海南三亚5钻5日4晚跟团游产品。

自变量描述,以行程天数、总共景点个数与产品好评率为例。分析如下:

行程天数在3天到9天的跟团游产品最受消费者欢迎,旅行社在制定产品的时候应该更多的制定行程在这一范围之间的产品。行程中景点个数在3至9个的产品销量离散值较多,可见三亚跟团游爆品所安排的旅行景点总数集中在3至9个范围内。旅行社在安排跟团游景点个数的时候需要适中,过多景点个数会导致成本增加。

好评率是使用过该产品的消费者所带来的量化反馈,反映大众对产品的看法。我们由图可知,好评率在96%~99%的产品总体销量明显高于其他范围的产品,三亚跟团游的爆品也出现在这个好评率范围内。

有趣的是,存在一部分满意度高达100%但销量却不高的产品,可能原因是这些产品是该网站上较新的产品,也可能因为广告宣传力度不够大,导致部分质量高的产品没被大众所发现。

评论内容总体描述

首先我们将该网上所有跟团游的产品评论信息全部爬取出来,共455个商品有评论内容。经过去停用词、新增语料库、分词,再令评分大于3分的划分为好评,其余为差评,各选取出现频率top140的词绘制如下词云图。好评中出现频率最多的词有:酒店、服务、幽默、热情、景点等等。而差评中出现最多的词是:酒店、购物、自费、客服、时间、项目等。

基于LDA对评论内容主题模型建立

我们将该455个产品的所有评论内容进行预处理,利用LDA模型进行主题挖掘产品特征。打印了前六个主题模型,并提取顶级词汇我们对LDA主题模型进行可视化,结果是一个动态交互的网页,下图仅展示主题4,由下图右方,可知大体与导游因素有关。

同样地,对其它主题同样进行可视化,根据每个主题给出的前10个顶级词汇,下表展示各主题前10个顶级词汇及其归纳的类别。评论主题一定程度上反映消费者的关注点与需求。我们为每个产品计算其评论各个主题特征出现的概率,即各个产品在各个类别里的打分,并运用到后续回归模型之中,观察其对销量的影响是否显著。

回归模型建立

01 逻辑回归(是否有历史销量)

1.1 模型建立与解读

首先我们对该网网上所有三亚跟团游产品,以是否有历史销量为因变量建立初始逻辑回归模型。基于BIC准则,利用向后逐步回归,进行变量选择。得到如下所示最终回归模型。

从估计的结果来看,在显著性水平为0.05的情况下,有以下三点值得关注:

1.该网自营的产品相比于非该网自营的更容易受到消费者“光顾”;

2.网页上可见行程地图的产品比不可见地图的产品更容易卖得出,这可以结合网页上显示自由活动次数这一因素,我们发现只要显示自由活动次数的产品相较于无信息的产品获客能力更强,可见线上旅行产品的“门面”何其重要!

3.有购物的跟团游产品相较于无购物的产品,更不容易被卖出。

1.2 模型的评价

我们建立混淆矩阵,本案例设置的阙值是样本的正负比例(有销量产品占总产品的比例)。根据混淆矩阵我们可知,模型的错分率为44.60%,偏高;TPR(True Positive Rate)为70.05%,预测1正确的能力较好;FPR(False Positive Rate)为31.67%,错将1预测为0的概率降低。AUC=0.77。

1.3.模型运用

02

线性回归(月平均销量)

2.1 模型的建立与解读

该部分,我们选择月平均销量作为因变量,建立初始线性回归模型,利用AIC准则,向后逐步回归进行变量选择。并计算了cook距离,去除强影响点,最终选择对数线性回归模型,得到下表。

F检验的p值小于显著性水平(0.05),因此模型整体是显著的,至少有一个自变量对于产品月销量有显著影响。本案例的R方为0.633,自变量能够解释因变量(跟团游产品月平均销量)变异的63.3%。

具体解读如下:

(1)产品自身因素:当控制其他因素不变的时候,该网自营的跟团游产品月平均销量比非该网自营的平均高出80.01%,产品是否安排购物与产品价格仍然是一个很重要的因素。还值得关注的是跟团游安排的行程天数,3至9天的产品比3天及以内的产品的月平均销量高出36.58%,太短的行程并不适合大部分人。

(2)产品评价因素:在控制其他因素不变的情况下,好评率提高1%,月平均销量就会增高2.28%。我们还将挖掘出来的评论内容主题在各个产品评论里出现概率放入模型中,发现吃住因素、导游因素和行程路线的得分是影响产品销量较强的因素。

2.2 模型评价

下方输出的一组诊断图,从残差图能够看出,异方差的现象并不明显。QQ图告诉我们,正态性得到了很好的满足。而右下角的Cook距离图显示,样本已无强影响点。

2.3 模型应用

如下图回归系数可视化展示我们发现产品好评率所有影响因素中影响力最强的,好评率高说明消费者对该产品的满意度高,这样的产品更容易成为“爆品”。

再解释产品自身因素的影响,从我们的模型中可以看到有三个因素与平均月销量的负相关性很明显,分别是有购物(基准组:无购物)、价格和自由活动次数

评论内容所挖掘的主题对于月平均销量的解释:六个主题中有五个主题对销量的解释较为显著。其中,导游因素的得分与行程线路的得分对平均月销量的影响较大,这说明,消费者在购买并完成该产品旅程之后,对导游与整体行程安排的印象最深。除此之外,吃住因素的得分对销量也具有较大影响,而吃住因素的得分自然取决于旅行社设计跟团游产品的时候是否妥当。

不过,同时期的数据进行建模,结果只能用于解释。但对于平台方而言,能够收集到更多的产品信息,可以使用销量前期对应的评论数等其他信息进行建模,从而可以进一步用于销量预测等工作。

总结与建议

下方是根据全文分析结果提出对旅行社的建议

帆软所有销量为0的显示为空值_爆品秘籍?—线上三亚跟团游销量影响因素分析...相关推荐

  1. 帆软所有销量为0的显示为空值_市场上最流行的9款跨境电商亚马逊销量预估工具精准度报告详解!...

    很多用户都知道JS产品的数据精准度是目前市场上最好的,今年我们继续做了"2019亚马逊销量预估准确度调研报告",将市场上的销量预估工具进行多维度对比分析,报告如下. 2019版报告 ...

  2. centos7中ps显示的内容_值得收藏,史上最全Linux ps命令详解

    原标题:值得收藏,史上最全Linux ps命令详解 一.程序员的疑惑 大概在十多年前,我当时还是一个产品经理.由于一些工作的原因,需要向运维工程师学习一些linux常用命令. 当使用linux ps这 ...

  3. 远程办公经验为0,如何将日常工作平滑过度到线上?

    导语 | 受到疫情影响,很多企业开始考虑远程办公.近日,TVP群里的各位老师们对此话题展开了热烈讨论.TVP张善友老师作为一名创业者,也决定开启远程办公.本文是他对相关经验总结而得的方案,并列出了相关 ...

  4. 软底有软件测试培训吗,【4月3日】一站式线上学习课程——一年级 鼠小弟云课堂开讲啦!...

    原标题:[4月3日]一站式线上学习课程--一年级 鼠小弟云课堂开讲啦! 每日一诗 兔子的新窝 莫嘉盈/九岁 我看兔子 不应该长得这么大 它应该 长得小小的 小小的 就像 我含在嘴里的 一颗糖一样 这样 ...

  5. 帆软报表多行多条数据写入表_在线报表FineReport中多数据集如何实现层式报表...

    上一页按钮设置:下一页按钮设置与上一页的js差不多,只需要获取B1的值就可以了,所以在js中填入: var page= $("tr[tridx=0]","div.cont ...

  6. ArcGIS Pro从0到1入门实战教程 书籍淘宝线上销售,免费下载数据和视频

    网址:https://m.tb.cn/h.USz9rbD?tk=cu0Vd2cABAV 购书后五星好评,加下面微信,截图发给我们:送Python电子书,下面是我们的微信 关注翎树文化,获得更多好书信息 ...

  7. 让数据分析效率再提升50%,帆软FineBI V6.0版本最新剧透

    转载/亿欧 1881年,英国出版的<机械与成绩>一书中曾写道:现在一千人当中,没有一个人不穿袜子.工业革命的伟大之处,就在于机器大生产解放了劳动力,让成千上万的英国女工穿上了女王同款丝袜. ...

  8. “不融资,不上市”的帆软为何上榜福布斯2021 Cloud 100强?

    文章来源于福布斯 ,作者Forbes China 纽约-2021年8月10日<福布斯>发布"2021 Cloud 100强"榜单.该榜单从福布斯投资机构合作伙伴Bess ...

  9. 帆软报表文件上传、下载及删除功能

    在项目上用帆软报表实现附件上传下载及附件删除的功能,实现过程帆软官方有教程传送门,以下内容主要是纪录在实现过程中需要注意的一些地方. 使用的是帆软版本是8.0.单文件上传功能实现. 1.控件设置 文件 ...

最新文章

  1. 什么是标记符控制的分水岭算法
  2. TCP网络那点破事!三次握手、四次挥手、TIME-WAIT、HTTP 2.0 ....
  3. armv8 汇编 绝对地址赋值_ARMv8带来的变化
  4. aix 的c库为什么都是静态库_关于AIX  libpthread.a 静态库
  5. java中byte,String,InputStream之间的转换
  6. 免费的东东真给力:轻松实现代码变更与缺陷,任务和需求的紧密关联.
  7. Ubuntu16.04镜像下载
  8. H5表单中时间日期控件
  9. 解决硬盘打不开的问题
  10. android 太阳系布局,Solar Walk太阳系模型软件-三维太阳系模型下载2.4.49安卓版-西西软件下载...
  11. 大数据揭秘| 《少年的你》大火之后,流量明星对电影意味着什么?
  12. 查找Mac序列号的9种方法
  13. mysql 生成id函数_MySQL ID生成策略
  14. http referer 解释及用法
  15. python随机函数random、画、星轨_如何使用 NVIDIA StyleGAN 生成自己的动漫(老婆)头像...
  16. php class ziparchive not found,php Class 'ZipArchive' not found解决办法(php安装zip扩展)
  17. .aspx文件和.aspx.cs文件的区别与联系
  18. Wayback Burgers在日本开设新餐厅
  19. UNIX编程—网络socket
  20. 签到考勤java课设_用Java设计一个考勤模拟程序Attendance

热门文章

  1. Android Studio下载、安装、配置及连接真机开发第一个App ——入门选手快进
  2. ASP.NET AJAX (Atlas) 拖放(Drag Drop)功能6种实现方法总结
  3. Android源码分析(十一)-----Android源码中如何引用aar文件
  4. 深度学习入门|第5章 误差反向传播法(二)
  5. 第12课第2.2节 字符设备驱动程序之LED驱动程序_测试改进
  6. Java 面向对象的设计思维
  7. 会话控制(session、cookie)
  8. BZOJ2976 : [Poi2002]出圈游戏
  9. 转载:数据库表结构设计方法及原则
  10. virtualbox 启动时报Kernel driver not installed (rc=-1908) 的错误