1 、数据说明

本次活动数据来自 Airbnb 于2020年10月26日公开的北京地区数据。数据源网址
数据均来源于Airbnb网站的公开信息,不包含任何个人隐私数据。
数据分为汇总版和明细版两类。listings 数据为短租房源基础信息,包括房源、房东、位置、类型、价格、评论数量和可租时间等等。字段说明:id(短租房编号)、name(房源名称)、host_id(房东编号)、host_name(房东昵称)、neighbourhood_group(地区)、neighbourhood(地区)、latitude(经度)、longitude(纬度)、room_type(房间类型)、price(价格)、minimum_nights(最小天数)、number_of_reviews(评论数)、last_review(最近评论)、reviews_per_month(每月评论量)、calculated_host_listings_count(房东在租房屋数)、availability_365(一年中可用天数)

2、数据清洗

导入数据,查看数据是否有缺失或者异常

#数据导入
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']='SimHei'
data=pd.read_csv(r'C:\taobaoshuju\listings.csv',encoding='utf-8')
data.head()

data.info()


通过head()和info()查看数据集的简单信息,可以得知该数据集共有27439行,16列。明显看出neighbourhood_group字段缺失严重,需要删除,还有2个缺失40%左右,也可以考虑将此删除。neighbourhood列包含英文,应去除英文。

#删除列
data=data.drop(columns=['neighbourhood_group','last_review','reviews_per_month'])
#将neighbourhood列去掉英文
data['neighbourhood']=data['neighbourhood'].apply(lambda x:x.split("/")[0]).strip()
data

查看价格是否有异常值

去除价格为0的异常值

data=data[data['price']!=0]

3、数据分析

3.1房源地区占比

fangyuan=data.neighbourhood.value_counts().sort_values()
fangyuan
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
plt.figure(figsize=(12,10),dpi=80)
explode={}
for i in fangyuan.index:if i in ['朝阳区','东城区','延庆县']:explode[i]=0.05else:explode[i]=0plt.pie(fangyuan,labels=fangyuan.index,explode=explode.values(),autopct='%0.2f%%',colors=sns.color_palette('hls', n_colors=16))
plt.title('北京房源分布',fontsize=20)
plt.axis('equal')
plt.legend(loc='right')


从图中可以看到,朝阳区、东城区和延庆几乎占到北京一半的房源数量,除朝此之外,密云和海淀区房源较多。

3.2房源类型占比

房源类型一共有三种,分别是Entire home/apt (整套房源)、Private room(单独房间) 、Shared room(共享房间)

fangxing=data['room_type'].value_counts()
fangxing
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
plt.figure(figsize=(12,10),dpi=80)
plt.pie(fangxing,labels=fangxing.index,autopct='%0.2f%%',colors=sns.color_palette('hls', n_colors=6))
plt.title('北京房型分布',fontsize=20)
plt.axis('equal')
plt.legend(loc='right')


从统计中可以看到entire home/apt的数量最多,占到61.33%,shared room的数量最少,仅占3.98%,说明大部分用户还是比较注重居住体验,共享房间的肯定会有各种不方便等劣势。

3.3查看各区域,不同房型的房源数量

quyu_type=data.groupby('neighbourhood')['room_type'].value_counts().unstack()
quyu_type.plot(figsize=(12,5),title='不同区域的不同房屋类型数量')
或者
plt.figure(figsize=(15,10))
plt.plot(quyu_type.index,quyu_type['Entire home/apt'],label='Entire home/apt')
plt.plot(quyu_type.index,quyu_type['Private room'],label='Private room')
plt.plot(quyu_type.index,quyu_type['Shared room'],label='Shared room')
plt.ylabel('数量')
plt.legend()
plt.title('不同区域的不同房屋类型数量')


从上图可以看出Shared room(共享房间)除了朝阳区外其他地区差别不大,朝阳区的Entire home/apt (整套房源)和Private room(单独房间)都是最多的。一般来说,不同辖区中,基本都是entire room/apt 数量最多,shared room数量最少,这也验证了前面的判断:大部分用户是注重居住体验的。

3.4北京房源价格分布

3.4.1房租价格在500元以下

jiage=data[data['price']<500]
jiage=jiage.neighbourhood.value_counts()
jiage.plot(figsize=(15,10),title='500元以下的房源分布',kind='barh')

房租在0-500元区间,朝阳区的房源数量遥遥领先,数量达到5000,海淀区和丰台区位居第二和第三。

3.4.2房租价格在500-1000元内

jiage1=data[(data['price']>=500)&(data['price']<1000)]
jiage1=jiage1.neighbourhood.value_counts().plot(figsize=(15,10),title='价格在500-1000元的各区房源分布',kind='barh')

房租在500-1000元区间,朝阳区的房源数据依旧位居第一,排名第二和第三的是东城区和密云县。

3.4.3房租价格在1000元以上

jiage2=data[data['price']>=1000]
jiage2=jiage2.neighbourhood.value_counts().plot(figsize=(15,10),title='大价格在1000元以上的各区房源分布',kind='barh')


短租房屋价格在1000以上区间内,延庆县,怀柔区,朝阳区位居前三。
从价格信息来看,短租房单件在1000元以下主要朝阳区、海淀区、东城区这三个区域,房租在1000元以上,主要集中在延庆县,怀柔区,朝阳区和密云区。其中值得关注的是延庆县,中高档短租房分布较多,得益于其丰富的旅游资源。短租房单价在1000元以上的酒店,地理位置分布趋向于旅游点比较多的区域,短租房单价在1000元以下的分布趋向于繁华都市。

3.5房源均价分析

3.5.1不同房屋类型的均价

data.groupby('room_type')['price'].mean().sort_values().plot.bar(figsize=(8,8),title='不同房屋类型均价',xlabel='房屋类型')


经过统计分析发现,entire home/apt 的均价最高,达到1100元;shared room的均价最低,仅有514元,均价低于entire room/apt近50%的房源。由此可以看到entire room/apt的房源数量不仅最多,同时均价也最高,说明民宿市场,还是以整租为主,共享房源只占很小一部分。

3.5.2不同区域房源均价分析

quyu_price=data.groupby('neighbourhood')['price'].mean()
quyu_price.sort_values(ascending=True,inplace=True)
quyu_price.plot.bar(figsize=(12,5),title='不同区域房源的均价')
plt.ylabel('均价')


以上分析得出,房屋均价最高的是怀柔区,延庆区和平谷区,通州区和石景山区均价较低。房源数量较多的朝阳区,房源均价较低,数量多,性价比高。

3.5.3各辖区不同房屋类型的均价

quyu_roomtype=data.groupby(['neighbourhood','room_type']).agg({'id':'size','price':'mean'})
quyu_roomtype=quyu_roomtype.rename(columns={'id':'number'})
price_r=quyu_roomtype.unstack()['price']
price_r.plot.bar(figsize=(12,5),title='不同区域内不同房屋类型的均价')

从上图中也可以看到,北京均价最高的民宿,位置处于怀柔、延庆、昌平、房山、平谷和密云,都是在北京北边,可能原因有:北边方向相比南边经济发达,北边环境好,临近燕山山脉,山水相宜,环境优越。而坐拥民宿数量最多的朝阳,均价较低,区域中心,数量多,价格低,性价比高。

3.6房东用户分析

fangdong=data.host_id.value_counts()
fangdong.describe()


房东拥有房源数量最小为1,最大为143,每个房东平均房源数量为2.67,大多数房东房源数量在[1,3]区间。

房源数量top10最多143,最少57,说明有专注短租的公司或团体。但拥有房间数在1-5间的个体房东仍然是主要的房东用户。

4、结论

4.1房源分析

Airbnb在北京的房源大多分布在北京市中心的朝阳区,东城区,人口多,地理位置最好,民宿产业发达。根据房源类型分析,entire home/apt(整套房间)的数量最多,shared room的数量最少,仅占3.98%,说明大部分用户还是比较注重居住体验,共享房间的肯定会有各种不方便等劣势。

4.2价格分析

不同房屋类型的均价,entire home/apt 的均价最高,shared room的均价最低,仅有514元,均价低于entire room/apt近50%的房源。说明民宿市场,还是以整租为主,共享房源只占很小一部分。房屋均价最高的是怀柔区,延庆区和平谷区,通州区和石景山区均价较低。房源数量较多的朝阳区,房源均价较低。

4.3房东用户分析

房东拥有房源数量最小为1,最大为143,每个房东平均房源数量为2.67,大多数房东房源数量在[1,3]区间。房源数量top10最多143,最少57,说明有专注短租的公司或团体。但拥有房间数在1-5间的个体房东仍然是主要的房东用户。

Airbnb短租分析相关推荐

  1. Airbnb短租数据分析报告

    一. 数据集背景 数据来源:https://pic1.zhimg.com/v2f1972ca63e72ba85398ec32fd712fb72_1440w.jpg?source=172ae18b 共享 ...

  2. 阿里天池:Airbnb短租房数据集分析

    阿里天池:Airbnb短租数据集分析 1.项目介绍 2.字段介绍 3.分析目的和思路 4.模块导入与数据读取 5.探索性分析 (一)整体分析 (二)按区域划分 (三)按房型划分 1.项目介绍 数据来源 ...

  3. Airbnb、小猪短租等这类短租类产品发展前景如何?

    Tsao 某家公司 打杂- 1 产品信息 1. 产品名称:小猪短租 2. 版本号:4.9.1 3. 体验环境:iPhone 7 (11.2.1) 4. slogin:居住自由主义 5. 产品定位:通过 ...

  4. 天池比赛短租数据集分析之数据图表

    题目介绍 活动背景 共享,通过让渡闲置资源的使用权,在有限增加边际成本的前提下,提高了资源利用效率.随着信息的透明化,越来越多的共享发生在陌生人之间.短租,共享空间的一种模式,不论是否体验过入住陌生人 ...

  5. 北京短租2021年Airbnb数据分析(探索性数据分析+简单建模尝试)

    复现了一下阿里天池上Tianchi Data Hero Cup -- 短租数据集分析 论坛大佬的代码,做了探索性数据分析+简单建模尝试.原本的数据集没找见, 从Airbnb 网站下载了21年的北京短租 ...

  6. 2021年中国汽车租赁市场现状分析,短租前景广阔,融资租赁快速发展「图」

    一.汽车租赁产业概述 汽车租赁(简称"租车")是指将汽车的资产使用权从拥有权中分开,出租人具有资产所有权,承租人拥有资产使用权,出租人与承租人签订租赁合同,以交换使用权利的一种交易 ...

  7. 短租数据集分析--利用pyecharts绘制房源分布地图及单因子方差分析

    文章目录 前言 一.绘制房源分布地图 1.导入基本模块 2.数据清洗 3.绘制房源分布地图 二.单因素方差分析 1.Entire home/apt 下地区对房租价格的影响 2.Private room ...

  8. [python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租

    我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...

  9. python爬虫cookie池 与ip绑定_Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...

  10. 疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息

    疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息 随着时间的流逝,在中国共产党的领导,全国人民的共同努力下,疫情逐渐受到了控制,逐渐好转,复工,开学有望.最近在和女朋友的闲聊当中得知 ...

最新文章

  1. supervisor配置环境变量(PATH)
  2. python教学视频a_2019何老师一个月带你玩转Python分布式爬虫实战教程视频(视频+源码)...
  3. 这是一项颠覆性技术 - 容器
  4. 网站域名备案时需要什么资料
  5. Apple 如何知道你使用了私有API
  6. 插入图像标签(HTML)
  7. MyEclipse项目里面出现红叉的解决方案?
  8. 安装Windows版C / GCC编译器
  9. python正交表结果生成
  10. 超小型射频接头SMP/SSMP
  11. 万达电商为何刻意回避阿里与马云
  12. python爬取网页的内层页_python爬取网页 下一页
  13. [阅读笔记] - 秦汉政治
  14. sqli-labs-maser第1-6关
  15. win10 常用命令
  16. NLPIR-ICTCLA2018分词用户大会线上抢票报名开始
  17. 弹性云服务器使用须知
  18. fama matlab源码_Matlab:计算Fama Macbeth方法的HAC(Newey West)标准误差
  19. 单独使用elementui_Vue在单独引入js文件中使用ElementUI的组件
  20. 《荒野大镖客》:从西部世界构建到资本社会现象

热门文章

  1. python动态规划爬楼梯_Python走楼梯问题解决方法示例
  2. 基于卫星测深的牙买加沿岸水深测量
  3. Birdman Quotes
  4. golang 时间格式转换汇总
  5. powerha_使用IBM PowerHA SystemMirror的Hitachi TrueCopy镜像
  6. 山东大学青岛校区,拟筹建工业互联网国家重点实验室!
  7. C语言常量 变量与作用域
  8. 【转】我是一个INFP者
  9. 解决图片闪烁问题(雪碧图)
  10. c++string 加引号_Shell 引号嵌套