Airbnb(爱彼迎)产品分析报告

一、Airbnb背景

Airbnb成立于2008年,一家联系旅游人士和家有空房出租的房主的服务型网站,它可以为用户提供多样的住宿信息。用户可通过网络或手机应用程序发布、搜索度假房屋租赁信息并完成在线预定程序。

二、分析问题

Airbnb能发展得如此迅速,在业务运营方面必然有闪亮的地方,故分析目标:分析业务闪亮点,以及业务中还存在哪些不足。
在AARRRR模型中,第一个A(用户获取),是业务发展的前提,故提高新用户获取的数量和质量是非常重要的,所以分析的第一个方向是:用户画像;产品推广渠道是用户转化的一个重要因素,分析的第二个方向是:产品推广渠道分析;转化漏斗可以有效针对流失环节进行分析,分析的第三个方向是:转化漏斗分析

针对分析的方向,提出以下三个问题:

  • airbnb的目标用户群体具有什么样的特征?
  • airbnb当前的推广渠道质量情况?
  • 当前的转化率和流失率中哪里哪一个环节存在问题?

针对三个问题,我们根据以下维度来具体分析:
1、用户画像分析

  1. 用户性别的分布特征;
  2. 用户年龄的分布特征;
  3. 用户地区的分布分布;
  4. 中国地区去国外预定的地区占比;

2、推广渠道分析

  1. 每月新增用户
  2. 不同用户端的注册量
  3. 不同推广渠道的注册量
  4. 不同营销内容的注册量
  5. 不同推广渠道的转化率
  6. 不同营销内容的转化率

3、转化漏斗分析

  1. 用户总量
  2. 活跃用户占比
  3. 下单用户占比
  4. 实际支付用户占比
  5. 复购用户占比

三、数据清洗

3.1 数据来源

数据集名称:Airbnb顾客预订数据

数据集来源:https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data

此数据聚集包含两张数据表,其中train_user表中为用户数据,sessions表中为行为数据。

3.2、列名称理解

数据表一:数据表名称:train_users

id:用户ID

date_account_created:帐户创建日期

date_first_booking:首次预订的日期

gender:性别

age:年龄

signup_method:注册方式

signup_flow:用户注册的页面

language:语言偏好

affiliate_channel:营销方式(SEM等)

affiliate_provider:营销来源,例如google,craigslist

first_affiliate_tracked:在注册之前,用户与之交互的第一个营销内容

signup_app:注册来源

first_device_type:注册时设备的类型

first_browser:注册时使用的浏览器名称

country_destination:订房国家

数据表二:数据表名称:sessions

user_id:客户id,与users表中的“id”类型相同

action:用户行为

action_type:用户行为类型

action_detail:用户行为具体

device_type:使用的设备

3.3、重复值处理

train_users表中id列为主键,每个用户只生成一条记录,所以如果train_users中id存在重复值,则需要处理。用以下代码检查,没有返回结果,说明没有重复值。

SELECT id, COUNT(id) AS count_id
FROM train_users
GROUP BY id
HAVING count_id > 1;

3.4、缺失值处理

预观数据集缺失值较多。

SELECT date_first_booking, COUNT(date_first_booking)
FROM train_users
WHERE date_first_booking = '1900-01-00';

结果:
表明首次预定时间缺失值达124543个

其他缺失数据:

  • gender(性别)存在缺失值数量:95688个。
  • age(年龄)存在缺失值数量:87991个。
  • first_affiliate_tracked(用户通过哪个营销广告注册)存在缺失值数量:6065个。
  • first_browser(注册时浏览器)存在缺失值数量:27266个。
  • action_type(行为类型)存在缺失值数量:1126204个。
  • action_detail(用户操作行为的描述)存在缺失值数量:1126204个。

缺失原因推测及处理

  • date_first_booking(首次预定时间)数据如果缺失,在业务上可以理解为此用户为“未预定用户”,也就是没有下单的用户。
  • 性别、年龄由于客户端中这部分信息为非必填项,可能为用户未填写造成。
  • 其他四个数据可能是由于系统统计数据时没有统计到造成缺失

3.5、异常值处理

age字段中异常值较多,0~150之间的数值都有,可能是因为用户填写时随意造成。将年龄不在7到75岁之间的用户的年龄更新为0。

UPDATE train_users
SET age = 0
WHERE id NOT IN (
SELECT id FROM (SELECT id FROM train_usersWHERE age <= 75 AND age >= 7) a);

四、用户画像分析

4.1、用户性别分析

女性用户数量为:54440,男性数量为:63041,mysql语句为:

SELECT COUNT(id) AS women'
FROM train_users
WHERE gender = 'MALE';
----------------------------------------------------------------------------
SELECT COUNT(id) AS man
FROM data.train_users
WHERE gender = 'FEMALE';

Tableau可视化


airbnb的男女用户占比差别不大

4.2、用户年龄分析


airbnb的用户主要为“中青年群体”,其中用户数量最多的群体是25~40岁之间,往后随着年龄增加,用户人数逐渐减少,符合一般规律。

4.3、用户地区分析

通过对用户使用不同语言(language)的人数来统计地区差异。

SELECT language, COUNT(language) AS lg_num
FROM train_users
GROUP BY language
ORDER BY lg_num;


从树状图可以看出:

  • airbnb的产品用户遍布多个地区。
  • 有超过90%的用户是使用英语的国家(欧美);
  • airbnb是2013年开始进入中国市场的(此数据集止于2014年),此时中文用户数量虽然排名第二,但是占比却非常小。

4.4、中国用户去国外预定的地区占比

利用Tableau分析:

从结果可以看出,中国用户到国外预定的地区中,美国占据了大部分,其次是法国,其他主要是欧洲发达国家。
sql查询语句如下:

SELECT language, country_destination, COUNT(country_destination) AS cd_num
FROM train_users
GROUP BY language, country_destination
HAVING language = 'zh'
ORDER BY cd_num DESC;

五、推广渠道分析

5.1、每月新增用户

分析每月新增用户,方法是统计每个月注册用户的数量,将字段‘date_account_created’转化为%Y-%M的形式,mysql查询语句如下:

SELECT date_format(date_account_created, '%Y-%m') AS year_moth, COUNT(id)
FROM train_users
GROUP BY date_format(date_account_created, '%Y-%m')
ORDER BY year_moth


从结果可以看到:

  • 2010年用户增长较缓慢,因为在成立初期,后期开始快速增长
  • 2011年中开始快速增长,此时Airbnb获得第一笔大额融资
  • 7~9月为每年的增长高峰,推测可能是夏季为北半球旅游旺季,而且大多数学校都会在这个时间段放假。

5.2、不同用户端的注册量

统计不同用户端的注册量,使用字段‘first_device_type’,mysql查询语句如下:

SELECT first_device_type, COUNT(id) AS fdt_num
FROM train_users
GROUP BY first_device_type
ORDER BY fdt_num DESC;


从可视化结果看到:

  • PC设备端用户注册数量远大于移动端,因这是截至2014年的数据,推测是之前智能移动端的普及率还不高。
  • 苹果设备用户大于其他设备用户,推测是因为美国本土使用苹果设备比较流行。

5.3、不同推广渠道的注册量及转化率

要统计不同推广渠道的注册量,需要分析affiliate_channel(营销方式),affiliate_provider(营销渠道名称),mysql查询语句如下:

SELECT affiliate_channel, affiliate_provider, COUNT(id) AS ac_num
FROM train_users
GROUP BY affiliate_channel, affiliate_provider
ORDER BY ac_num DESC

要统计不同推广渠道的转化率,需要分析不同渠道的注册数量和首次下订单的用户数量的比例,mysql查询语句如下:

SELECT affiliate_channel, affiliate_provider,
SUM(CASE WHEN date_first_booking <> '0000-00-00 00:00:00' THEN 1 ELSE 0 END) / COUNT(id) AS ac_ratio
FROM train_users
GROUP BY affiliate_channel, affiliate_provider
ORDER BY ac_ratio DESC;


从可视化结果可以看到:

渠道注册量方面:

  • direct(直接从应用商店下载)方式的注册量占据了大部分,推测是从各个渠道了解到信息后到应用商店下载。
  • 从营销方式来看,除direct方式之外,注册量较高的方式为:SEM
  • 从营销来源来看,以Google方式注册的用户占了大部分。
  • 渠道注册量总体符合二八法则,前8个渠道(总共有38个渠道推广)的注册量已经占据了产品总的渠道来源的90%以上。

渠道转化率方面:

  • 大部分渠道转化率都是在30%以上,表现比较健康。
  • 从营销方式来看,content(内容营销)方式转化率较其他方式。
  • 从营销来源来看,主要营销来源(Google)中,除了content方式,其他方式的转化率都比较健康。

优质渠道分析(注册量和转化率都比较好):

  • 除direct方式外,SEM方式中Google来源的注册量和转化率都比较好,SEO方式中,Google注册量较SEM方式稍差,但转化率很高,达到48.1%

5.4、不同营销内容的注册量和转化率分析

要分析不同的营销内容,需要对字段‘first_affiliate_tracked(在注册之前,用户与之交互的第一个营销广告是什么)‘进行分析,mysql查询语句如下:

SELECT first_affiliate_tracked, COUNT(id) AS fat_num
FROM train_users
GROUP BY first_affiliate_tracked
ORDER BY fat_num DESC;

查询不同营销内容的转化率:

SELECT first_affiliate_tracked,
SUM(CASE WHEN date_first_booking <> '1900-01-00' THEN 1 ELSE 0 END) / COUNT(id) AS fat_ratio
FROM train_users
GROUP BY first_affiliate_tracked
ORDER BY fat_ratio DESC;


由可视化结果可以看到:
除了untracked(未跟踪到)的数据之外,linked的注册量最高,且除去注册量很少的marketing之外,其转化率也是最高的。其次是omg,注册量和转化率都紧跟在linked之后。

六、转化漏斗分析

转化漏斗分析主要通过分析sessions表,sessions表主要通过一段时间内用户的埋点行为分析得出结果。

6.1、有行为状态的用户总数量

通过对sessions表中的user_id字段进行统计,mysql查询语句如下:

SELECT COUNT(*)  AS ‘用户总数量’
FROM (SELECT user_idFROM sessionsGROUP BY user_id
) new_sessions;

结果为:用户总数量15502人。

6.2、行为活跃的用户数量

此处定义用户行为超过十次即为活跃用户,可针对字段user_id分析,若id出现次数超过十次,则为活跃用户。mysql查询语句如下:

SELECT COUNT(*)  AS ‘活跃用户总数量’
FROM (SELECT user_idFROM sessionsGROUP BY user_idHAVING COUNT(user_id) >= 10
) active;

查询结果:活跃用户数量为11815人。

6.3、此段时间内用户的下单量

分析下单量,需要对action_detail进行分析,其中“reservations”为下单操作,mysql查询语句如下:

SELECT COUNT(*) AS ‘下单用户总数量’
FROM (SELECT user_idFROM sessionsWHERE action_detail = 'reservations'GROUP BY user_id
) booking;

查询结果为:用户下单量仅为504人。

6.4、下单后实际支付的用户数量

需要对action_detail进行分析,其中“payment_instruments”为支付操作,mysql查询语句如下:

SELECT COUNT(*) AS ‘实际支付用户总数量’
FROM (SELECT user_idFROM sessionsWHERE action_detail = 'payment_instruments'GROUP BY user_id
) payed;

查询结果为:实际支付的用户数量为317人。

6.5、复购用户数量

需要统计进行了“payment_instruments”操作次数大于1次的用户,mysql查询语句如下:

SELECT COUNT(*) AS ‘复购支付用户总数量’
FROM (SELECT user_idFROM sessions1WHERE action_detail = 'payment_instruments'GROUP BY user_idHAVING COUNT(user_id) >= 2
) re_booking;

查询结果为:复购用户数量为151人。


根据结果可以看到:

  • 活跃用户中仅有4.27%的用户下单,sessions数据时间段为2014-01-01到2014-06-30,推测原因为此时间段为旅游淡季导致下单用户很少。
  • 下单用户中最终支付的也只有62.9%,需要分析付款流程是否具有问题,也可能是下单咨询客服后不满意,取消订单。

七、结论

从用户画像上看:

  • 在进行产品推广时,应该侧重于对25~40岁之间的用户,还可以稍微倾向于男性。

从推广渠道上看:

  • 每年的7~9月为旅游旺季,可以考虑在这个时间段内加大推广投入。
  • Google渠道除了content方式外,转化率都比较理想,后续可以继续以Google作为渠道推广。
  • content方式的转化率很差,可能和内容营销的信息质量,内容更新,发布渠道,发布人群等有关。内容营销是一项长期项目,建议从最基本的内容质量进行改善。
  • 营销内容方面,大部分用户的转化方式没有检测到(untracked),说明埋点统计效果很差,如果是系统功能出错,需要立即修复;如果是没有此埋点任务,需要立即增加。

从转化漏斗上看:

  • 从活跃用户到下单用户转化率非常低,建议围绕提高下单率做更多的工作。例如针对活跃用户的用户画像推送优质房源。此外,对于用户浏览的界面内容,也需要设计优化,提高下单兴趣。
  • 已下单的用户中只有62.9%实际支付,可以进行用户调研查找是否是支付流程,支付类型或后台服务的问题。或者针对产品本身分析,对支付产品和未支付产品进行分类统计。还可以从时间节点统计,查看已支付和未支付在时间上有何区别等。

Airbnb(爱彼迎)产品分析报告相关推荐

  1. 爱彼迎数据分析报告(修改)

    效果展示 (修改:使用pyecharts重新画图,并生成html进行展示) 代码链接:https://github.com/guotianyi960531/Airbnb- 1.简介 1.1 原始数据来 ...

  2. airbnb 爱彼迎开源 Epoxy 优化使用 RecyclerView

    airbnb 爱彼迎开源 Epoxy 优化使用 RecyclerView 一.为什么要使用Epoxy RecyclerView 众所周知是在listview和gridview基础上优化缺点,提炼出的一 ...

  3. Airbnb 爱彼迎房源详情页中的 React 性能优化

    Airbnb 爱彼迎工程师和数据科学家将定期和大家分享移动开发.系统架构.数据科学及人工智能等领域的技术探索和经验心得. 正文从这开始-- 在一些容易被忽视但又非常重要的场景,可能会有许多严重影响性能 ...

  4. Airbnb爱彼迎推出看得见“春色”的房源

    春分将至,人们对春暖花开.拾翠踏青的渴望从未如此强烈.打开窗户,温柔的春风令人心生无限遐思,虽然身未动,但心已远行.Airbnb爱彼迎推出八个看得见"春色"的房源,大家可以一同感受 ...

  5. Airbnb爱彼迎2021年第一季度营收同比增长5%

    北京时间2021年5月14日,Airbnb爱彼迎发布了2021年第一季度财报."我对我们的强劲业绩感到非常自豪.尽管我们的传统优势领域,即城市旅行和跨境旅行尚未完全恢复,我们的营收水平已经超 ...

  6. 爱彼迎产品分析(Python)

    一.项目背景与目的 1 背景 Airbnb是一个旅行房屋租赁社区,用户可通过网络或手机应用程序发布.搜索度假房屋租赁信息并完成在线预定程序,其社区平台在191个国家.65,000个城市为旅行者们提供数 ...

  7. airbnb爱彼迎python爬虫与简单分析

    目的 作为一个挂了几套公寓在airbnb上的小房东,又作为一个喜欢分析数据的小孩子,当学习爬虫的过程中当然要选择爱彼迎这个网站来试手:在网上看到一个大神po的一长串的代码,用了之后的确可以马上爬取,但 ...

  8. 2020年Airbnb爱彼迎中国房东社区报告

    更多报告内容,可加微信:chanpin628 领取.

  9. Airbnb(爱彼迎)用户数据分析——tableau可视化和MySQL分析

    本文利用Airbnb用户的注册.订单和日志行为等数据,从用户画像.营销渠道转化率.订单漏斗分析三方面进行分析.我们需要考虑以下3个问题: 爱彼迎的目标用户是什么样的人群?有什么特点? 这些人群接受信息 ...

最新文章

  1. Winform开发框架的业务对象统一调用方式
  2. springMvc的执行流程(源码分析)
  3. python_day26__02__文件的传送
  4. C++类中成员变量的初始化有两种方式
  5. SAP CRM WebClient UI配置的加载逻辑
  6. Magicodes.IE 2.4发布
  7. 使用Selenium进行Spring Boot集成测试
  8. React开发(158):ant design级联回显 直接传入数组
  9. OpenDDS用idl生成自定义数据类型时遇到的一个问题
  10. Redis常用命令及命名规范
  11. CLR via C# 内存管理读书记
  12. 给出如下公式的python表达式7+9i+2xcos66_这100道练习,带你玩转Numpy
  13. oracle学习的一些网站收藏
  14. php检查gd库是否开启,检查服务器是否开启GD库
  15. 鱼之死,越狱章鱼和雾霾黑客
  16. Modbus转Profinet网关连接英威腾Goodrive200A配置案例
  17. 多表连接查询与高级查询上(第三天)
  18. C语言编写一个四位数的和,c语言编写一段程序,输入一个四位数,输出各位数字的和...
  19. MacBook软件集合
  20. c语言输入名字判断姓是否缩写,C语言复习笔记

热门文章

  1. 水有七德,几近于道!
  2. app封装源码|­app分发源码免签H5一键封装
  3. iOS使用颜色生成图片的暗黑适配
  4. linux中搭建git与链接github的用法
  5. AES算法中S盒的FPGA实现 II
  6. [转] 【幽默搞笑】笑死你,别怪我!(狠逗、狠强)
  7. 英语听力网站推荐-非常不错
  8. 如何快速将一张彩色图片变成黑白图片
  9. 4.3.1 求绝对值
  10. 两直线平行交叉相乘_高中数学知识点:向量平行公式和垂直公式