引子


笔者在2015年7月创建了一个以分享滴滴打车红包为主的微信群聊,创建的本意是为了方便大家在分享红包时不打扰别人,在乘车需要红包时能方便地领到红包。随着群人数和分享红包种类的增加,该群已成为一个各类 O2O 服务APP优惠券红包的集散地。从2015年8月到2017年8月,本群产生了约两万条红包分享记录,笔者最近将这些记录导出,通过数量,时间,语义等维度分析这些数据,下面将笔者自己的解读分享出来以供大家学习交流。

数量维度


本群主要成员为北京某大学的大学生。两年时间里本群共产生21477条聊天记录,其中有效的红包分享记录约为20000条,群成员在10个月内从几十人增长到500人满群。

聊天记录可导出为 Excel 表格格式,单条聊天记录的格式如图1所示。

图1

每一列的数据分别为微信群群号(没错,微信群也有群号)、消息发送时间,发送者微信昵称,发送者微信号,发送形式(接收或发送),消息类型(文本、网页、动画表情、照片壁纸)和消息内容。因为大部分红包都是以网页的形式分享,而且每种 APP 只使用各自固定的域名,例如滴滴打车使用 xiaojukeji.com ,饿了么使用 ele.me。通过对不同域名数量的统计,笔者分析出了红包数量最多的12个APP 以及他们的数量比例(图2),这12类 APP的红包数量占所有红包总量的95%。

图2

从图中可以看出外卖红包是所有红包种类中数量最多的,因为衣食住行中,“食”的频率最高。饿了么红包数量占所有红包数量的近一半,这与市场调查机构公布的2016和2017年外卖 APP 市场份额报告的结论(饿了么与美团外卖市场份额不相上下)不一致。这是因为微信群聊参与者身份和地域的局限性导致该统计结果只能反应小范围内外卖APP 的市场份额。

除了图中的 APP 之外,红包数量比较多的 APP 还有:去哪儿、由你单车、嘀嗒拼车、爱鲜蜂、一米鲜、携程、 每日优鲜、乐惠、优酷、开心消消乐、Airbnb、中国移动、触宝、有货。需要补充的是,图2中京东的红包包括了京东商城、京东到家和京东金融,网易的红包包括了网易严选,考拉海购和阴阳师。

以上 APP 基本上涵盖了中国大部分主流提供 O2O 服务的APP,同时也体现了大学生的消费特征。共享出行,外卖,生鲜配送,网购,娱乐休闲是当前大学生主要的消费形式。

从图1中可以看到每个红包在分享时都有一条相应的广告语,笔者分析了这些广告语的高频词汇,并将其做成词云图,如图3所示。

图3

细心的读者可能发现红包的广告语有几种类型,一种是宣传 APP (及其提供的服务)本身,一种是其他品牌的广告,常见的有影视剧和品牌促销活动等,还有一种类型是 APP 自身的明星代言,例如饿了么的王祖蓝和科比。我分析了2015年8月,2016年8月和2017年8月这三个月中这三类红包的比例,如图4所示。

图4

2015年夏天是O2O服务刚开始迅猛发展的时候,那个时候他们的市场份额还不高,所以红包主要还是以宣传自家服务为主,到了2016年夏天, O2O服务竞争到了火热阶段(外卖领域和出行领域),那个时候的红包折扣力度也比较大,分享人数较多,所以我们看到其他品牌广告占比明显上升,红包冠名广告可以作为O2O服务提供商的收入来源之一。笔者没有行业经验,但猜测红包冠名广告的曝光率和点击率要高于一些其他的广告形式。2017年夏天,这时外卖和出行市场格局已定,红包的折扣力度减小,分享人数下降,所以大部分广告是针对自己APP的宣传,常见的广告语是“第X个领到红包的金额最大”,以刺激大家点击链接进而产生消费。


 时间维度


图5是红包数量前七名的APP红包数量两年间的变化趋势。

(建议横屏观看)

图5

从红包数量变化趋势中可以得到以下几点结论:首先,饿了么和美团外卖的红包是所有外卖红包中的主流。在2016年8月之前,美团外卖的红包数量要高于饿了么红包数量,之后饿了么红包数量一路反超,远远高于美团红包数量。造成变化的原因不是饿了么增加推广力度,而是因为大部分群成员(北京某高校学生)从一个校区整体迁往了另一个校区,而美团外卖在原校区的规模相对于饿了么要比新校区的规模大。同样,在2017年6月之后,红包数量的整体下跌是因为大部分群成员从大学毕业,对外卖的需求下降。这从另一个角度反映了小规模数据的不稳定性。

第二,同样是外卖红包,我们可以看到在2016年2月和2017年2月,也就是春节和寒假的时候,各类外卖 APP 的红包的数量都明显下跌,显而易见,大部分群成员都回家过年,对外卖的需求大大减少。有趣的是,滴滴红包数量并没有明显变化,一方面是春运的影响,另一方面说明滴滴对三四线城市的下沉做得比较好。

最后,我们看到滴滴红包的数量稳定增长一直到2016年7月达到最高峰,从2016年8月开始一路下跌。笔者认为造成下跌原因和群成员的关系不大,主要原因是2016年8月1日滴滴宣布收购优步中国,国内的共享出行领域滴滴一家独大,笔者清楚记得从那时起滴滴的红包优惠力度大打折扣,快车的价格也有了起步价。一方面是优惠力度的下降,另一方面部分摇摆乘客可能会选择别的出行方式,笔者认为这才是导致滴滴红包分享数量的下降的原因。

图6

图6将滴滴和ofo红包数量变化趋势专门列出来,这样可以更直观的看到其变化。之所以没有列出摩拜,是因为摩拜的分享次数较少,在图表上不明显。如果说2015年夏天是汽车共享出行开始迅猛发展的时候,那么从图中可以看出2016年夏天就是共享单车迅猛发展的时候。事实上滴滴从2012年就开始做出租车叫车业务, ofo早在2014年就开始在大学校园推广共享单车。随着4G网络的和智能手机的普及,微信使用人数越来越多,在多种因素的综合作用下,这些出行O2O服务在2015年后才开始迅速发展。

下面我们将时间维度缩小到一天内,看看一天内出行红包和外卖红包的分享数量和时间的关系(图7)。

图7

一般而言,一次线上的红包分享可以代表分享者同时在线下产生了相应的行为,通过变化红包分享数量变化趋势可以看到,在“食”和“行”方面,统计数据很好地体现了我们一般的认知。外卖集中在中午十二点和下午七点两个饭点之前,出行则在白天相对均匀地分布。

支付宝跨年红包


相信大部分读者都经历了支付宝跨年红包的洗礼,作为敏感的红包群群主,我发现支付宝的吱口令在十二月中旬开始在群里大量出现,到跨年时达到高峰,图8是群聊中从2017年12月10日到2018年1月10日支付宝跨年红包的分享数量变化。

图8

由于笔者在国外,并没有参与到瓜分红包的行动中,但笔者好奇的是:在2017年12月12日到2017年12月22 日,支付宝分享红包的吱口令中,“支付宝”三个字有大量变体字出现,让人一度以为是欺诈消息,我分析这十天所有的支付宝变体,将其做成图9的词云。

图9

支付宝一共产生了十种变体,起初笔者猜测支付宝是为了防止微信的追踪和屏蔽,但我想这样变体也不妨碍微信监测到消息,况且在这之前和之后红包都是正常的,所以我特别期待懂这个问题的朋友能够解答我的疑问。


总结


总而言之,这份两万条记录的数据集规模太小,所以很难得到宏观的结论,目前得到大部分结论也是显而易见的。利用该数据集进行进一步例如行为预测,用户画像,也是不现实的。另外,该数据集的特殊性在于它的独一无二,不同于微博等公开可获取的数据,这样的数据只能通过人为组织收集,所以即使此数据集的体量足够大,基于它训练出来的模型也难以有实用价值。

所以,假设我有足够多的群成员,我可以通过收集他们的性别,职业和收入的情况,结合他们线上分享红包的时间、种类、次数,可能会得到一些有趣的经济学结论。进一步,如果我们能获取到每个红包群成员点击的情况,这样又增加了一个数据维度,可以结合时间以及冠名广告和点击率做红包发送的优化,也可以结合群内其他数据维度来进行用户的画像,行为预测等等。当然,这一切都是基于群成员和红包数量足够多的前提。在这个前提下,我们可以对O2O行业的发展做一个宏观的分析,从全新的角度观察行业的发展。

不过以上所说的种种限制,对于微信官方来说都不是问题,微信利用自己的平台优势关联了无数的APP,利用不同的数据源,微信可以通过协同过滤(Collaborative Filtering)以及多视角学习(Multi-viewLearning)进行用户画像从而进行更精准的推荐。从另一个角度想,我们越来越多的行为都被 BAT 三家收集到,大家在互联网上越来越透明,所以对隐私的保护越来越重要,这不仅要靠企业自律,还要靠国家加强立法。

通过这次分析,笔者最主要的发现就是小数据集的片面性,并不是说如果数量到百万千万级就不是小数据了,而是说得深刻认识到现有数据集的局限性,不能以偏概全,并且尽量尝试获取到全面宏观的数据。这对数据挖掘从业者有一定的启示。

微信群聊记录可以通过“同步助手”导出到电脑上,可以导出为文本文档、表格或者网页格式,结合 Excel 和相关 Python工具包,可以轻松实现对微信群聊数据的挖掘,各位读者可以自己动手挖掘感兴趣的微信聊天记录。我也把本文用到的数据集匿名化处理后发布在网上以供大家学习使用。

数据集下载地址:

http://ytongdou.com/wp-content/uploads/2018/01/WechatLog.zip


窦英通,伊利诺伊大学芝加哥分校博士生,对社交网络分析,推荐系统感兴趣。希望通过数据派平台在分享交流中成长。

数据派研究部是一个建立在数据院教学资源、科研资源以及对外合作资源上的开放性学术组织。“开放”是研究部区别于数据院的其他组织的主要特点,即数据派研究部也对外校同学开放。“学术”是研究部的落脚点,即研究部为数据派,甚至数据院的对外合作及知识传播相关部门提供学术支持,主要工作涉及:代表数据院参加大数据/人工智能相关比赛、依托数据院校企合作资源展开项目实践、参与系列原创分享文章等。

未来研究部的目标是逐步完成学术积累并进一步孕育学术氛围,通过开展下述不同层次的学术实践,为数据院积累学术力量,为社会培养大数据/人工智能相关人才。

点击文末“阅读原文”,报名数据派研究部志愿者,加入我们~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

我分析了上万个微信红包数据,得到了这些发现(附数据集)相关推荐

  1. 微信红包数据架构演变

    PPT主题:微信红包数据架构演变 嘉宾:莫晓东有关资金安全,所以需要事务1.继续使用MySQL• MySQL支持事物,满足一致性要求.• 结构化存储,紧凑.连续.• 支持多索引.• 部署简单,工具支持 ...

  2. 情人节微信红包数据公布,你离海王与海后有多远...

    情人节微信红包数据报告原文:2月14日,情人节,微信可以发520红包 上海人最浪漫也最幸福(仪式感这玩意儿该有还是得有!) 单个用户收到520红包的最多超200个 单个用户发出520红包的最多超150 ...

  3. python 做表格分析_Python 处理分析 128 张 Excel 表格竟不到3秒?| 附数据集

    原标题:Python 处理分析 128 张 Excel 表格竟不到3秒?| 附数据集 有不少旁友想要了解怎么用Python提升处理数据的效率,或者说怎么用Python自动处理多张Excel表格,于是乎 ...

  4. python 销售数据分析输出表格_Python 处理分析 128 张 Excel 表格竟不到3秒?| 附数据集...

    原标题:Python 处理分析 128 张 Excel 表格竟不到3秒?| 附数据集 作者 | 周志鹏 责编 | 刘静 有不少旁友想要了解怎么用Python提升处理数据的效率,或者说怎么用Python ...

  5. php微信昵称保存,分析一次写入微信昵称数据执行sql报错问题

    客户反馈之前做的一个专题,有个用户报名数据没有正确写入.简单介绍下h5功能,类似报名功能,微信下授权后获取到openid.nichname,之后填写姓名并选择所在城市等信息,提交表单信息.其他用户填写 ...

  6. 在分析了豆瓣Top250电影的数据后,我发现了这些不为人知的规律(附源代码和详情讲解)

    这一段时间都在学习数据分析的相关知识,包括numpy.pandas.matplotlib.seaborn.ploty这些工具的使用和一些统计学的相关知识.有了这些基础,我就非常迫不及待的想操练操练.于 ...

  7. 分析了 89 万 IT 招聘数据,有这些发现…

    (点击上方公众号,关注我们) 转自:CDSN,作者:八爪盒子 基于国内各主流招聘网站发布的招聘岗位数据分析,5 月共计有 89 万招募中的互联网岗位,需求量与上月相比减少 50%,其中 TOP100 ...

  8. Python 处理分析 128 张 Excel 表格竟不到3秒?| 附数据集

    作者 | 周志鹏 责编 | 刘静 有不少旁友想要了解怎么用Python提升处理数据的效率,或者说怎么用Python自动处理多张Excel表格,于是乎便有了本文.这篇文章算是Python数据分析实战的第 ...

  9. 微信红包后台系统可用性设计实践

    微信红包业务量级的高速发展,对后台系统架构的可用性要求越来越高.在保障微信红包业务体验的前提下,红包后台系统进行了一系列高可用方面的优化设计.本次演讲介绍了微信红包后台系统的高可用实践经验,主要包括后 ...

最新文章

  1. 基于JSP实现网上商城系统
  2. 浅谈 iOS 版本号
  3. CentOS Linux解决Device eth0 does not seem to be present及设置固定ip
  4. SuperMap产权登记管理平台
  5. Java中String类中compareTo( )方法
  6. php怎么用redisson,Redis中RedisTemplate和Redisson管道的使用
  7. 从码农到架构师,如何成长为技术领导者?
  8. DRF之认证组件源码解析
  9. uva 10308 Roads in the North
  10. 制作一清理系统垃圾bat文件
  11. IP网络摄像头实现远程监控、直播的思路
  12. Jeff Dean 的传奇人生:超级工程师们拯救谷歌
  13. 网站建设费用贵和便宜有什么区别?
  14. 支付宝服务商模式下的支付开发
  15. Kmplayer的各种功能设置
  16. 成长小记-老天为我又设了一道大坎
  17. python与cad交互_python 使用pyautocad操作AutoCAD
  18. try中的return和finally中的return
  19. ios 9 10 11 air mirror 交互协议
  20. 摄像机跟随之第三人称视角(一)

热门文章

  1. ThreadLocal使用时因线程复用导致数据混乱分析
  2. 中国生物医药项目投资机会及运营前景策略研究报告2021-2027年
  3. 基于MATLAB的图片中文字的提取及识别
  4. 联想台式电脑重装系统教程
  5. 超详细版-计算网络地址、子网、广播地址、主机数
  6. 测试家里网速用什么软件,家中宽带网速多少?教你测试小妙招
  7. Shell 编程规范与变量
  8. 关于Qt高分屏缩放几个知识点
  9. 《娱乐至死》读书笔记(part1)--深入一种文化的最有效途径是了解这种文化中用于会话的工具
  10. CPU、程序和设备三者的关系