Airbnb短租分析
1 、数据说明
本次活动数据来自 Airbnb 于2020年10月26日公开的北京地区数据。数据源网址
数据均来源于Airbnb网站的公开信息,不包含任何个人隐私数据。
数据分为汇总版和明细版两类。listings 数据为短租房源基础信息,包括房源、房东、位置、类型、价格、评论数量和可租时间等等。字段说明:id(短租房编号)、name(房源名称)、host_id(房东编号)、host_name(房东昵称)、neighbourhood_group(地区)、neighbourhood(地区)、latitude(经度)、longitude(纬度)、room_type(房间类型)、price(价格)、minimum_nights(最小天数)、number_of_reviews(评论数)、last_review(最近评论)、reviews_per_month(每月评论量)、calculated_host_listings_count(房东在租房屋数)、availability_365(一年中可用天数)
2、数据清洗
导入数据,查看数据是否有缺失或者异常
#数据导入
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']='SimHei'
data=pd.read_csv(r'C:\taobaoshuju\listings.csv',encoding='utf-8')
data.head()
data.info()
通过head()和info()查看数据集的简单信息,可以得知该数据集共有27439行,16列。明显看出neighbourhood_group字段缺失严重,需要删除,还有2个缺失40%左右,也可以考虑将此删除。neighbourhood列包含英文,应去除英文。
#删除列
data=data.drop(columns=['neighbourhood_group','last_review','reviews_per_month'])
#将neighbourhood列去掉英文
data['neighbourhood']=data['neighbourhood'].apply(lambda x:x.split("/")[0]).strip()
data
查看价格是否有异常值
去除价格为0的异常值
data=data[data['price']!=0]
3、数据分析
3.1房源地区占比
fangyuan=data.neighbourhood.value_counts().sort_values()
fangyuan
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
plt.figure(figsize=(12,10),dpi=80)
explode={}
for i in fangyuan.index:if i in ['朝阳区','东城区','延庆县']:explode[i]=0.05else:explode[i]=0plt.pie(fangyuan,labels=fangyuan.index,explode=explode.values(),autopct='%0.2f%%',colors=sns.color_palette('hls', n_colors=16))
plt.title('北京房源分布',fontsize=20)
plt.axis('equal')
plt.legend(loc='right')
从图中可以看到,朝阳区、东城区和延庆几乎占到北京一半的房源数量,除朝此之外,密云和海淀区房源较多。
3.2房源类型占比
房源类型一共有三种,分别是Entire home/apt (整套房源)、Private room(单独房间) 、Shared room(共享房间)
fangxing=data['room_type'].value_counts()
fangxing
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
plt.figure(figsize=(12,10),dpi=80)
plt.pie(fangxing,labels=fangxing.index,autopct='%0.2f%%',colors=sns.color_palette('hls', n_colors=6))
plt.title('北京房型分布',fontsize=20)
plt.axis('equal')
plt.legend(loc='right')
从统计中可以看到entire home/apt的数量最多,占到61.33%,shared room的数量最少,仅占3.98%,说明大部分用户还是比较注重居住体验,共享房间的肯定会有各种不方便等劣势。
3.3查看各区域,不同房型的房源数量
quyu_type=data.groupby('neighbourhood')['room_type'].value_counts().unstack()
quyu_type.plot(figsize=(12,5),title='不同区域的不同房屋类型数量')
或者
plt.figure(figsize=(15,10))
plt.plot(quyu_type.index,quyu_type['Entire home/apt'],label='Entire home/apt')
plt.plot(quyu_type.index,quyu_type['Private room'],label='Private room')
plt.plot(quyu_type.index,quyu_type['Shared room'],label='Shared room')
plt.ylabel('数量')
plt.legend()
plt.title('不同区域的不同房屋类型数量')
从上图可以看出Shared room(共享房间)除了朝阳区外其他地区差别不大,朝阳区的Entire home/apt (整套房源)和Private room(单独房间)都是最多的。一般来说,不同辖区中,基本都是entire room/apt 数量最多,shared room数量最少,这也验证了前面的判断:大部分用户是注重居住体验的。
3.4北京房源价格分布
3.4.1房租价格在500元以下
jiage=data[data['price']<500]
jiage=jiage.neighbourhood.value_counts()
jiage.plot(figsize=(15,10),title='500元以下的房源分布',kind='barh')
房租在0-500元区间,朝阳区的房源数量遥遥领先,数量达到5000,海淀区和丰台区位居第二和第三。
3.4.2房租价格在500-1000元内
jiage1=data[(data['price']>=500)&(data['price']<1000)]
jiage1=jiage1.neighbourhood.value_counts().plot(figsize=(15,10),title='价格在500-1000元的各区房源分布',kind='barh')
房租在500-1000元区间,朝阳区的房源数据依旧位居第一,排名第二和第三的是东城区和密云县。
3.4.3房租价格在1000元以上
jiage2=data[data['price']>=1000]
jiage2=jiage2.neighbourhood.value_counts().plot(figsize=(15,10),title='大价格在1000元以上的各区房源分布',kind='barh')
短租房屋价格在1000以上区间内,延庆县,怀柔区,朝阳区位居前三。
从价格信息来看,短租房单件在1000元以下主要朝阳区、海淀区、东城区这三个区域,房租在1000元以上,主要集中在延庆县,怀柔区,朝阳区和密云区。其中值得关注的是延庆县,中高档短租房分布较多,得益于其丰富的旅游资源。短租房单价在1000元以上的酒店,地理位置分布趋向于旅游点比较多的区域,短租房单价在1000元以下的分布趋向于繁华都市。
3.5房源均价分析
3.5.1不同房屋类型的均价
data.groupby('room_type')['price'].mean().sort_values().plot.bar(figsize=(8,8),title='不同房屋类型均价',xlabel='房屋类型')
经过统计分析发现,entire home/apt 的均价最高,达到1100元;shared room的均价最低,仅有514元,均价低于entire room/apt近50%的房源。由此可以看到entire room/apt的房源数量不仅最多,同时均价也最高,说明民宿市场,还是以整租为主,共享房源只占很小一部分。
3.5.2不同区域房源均价分析
quyu_price=data.groupby('neighbourhood')['price'].mean()
quyu_price.sort_values(ascending=True,inplace=True)
quyu_price.plot.bar(figsize=(12,5),title='不同区域房源的均价')
plt.ylabel('均价')
以上分析得出,房屋均价最高的是怀柔区,延庆区和平谷区,通州区和石景山区均价较低。房源数量较多的朝阳区,房源均价较低,数量多,性价比高。
3.5.3各辖区不同房屋类型的均价
quyu_roomtype=data.groupby(['neighbourhood','room_type']).agg({'id':'size','price':'mean'})
quyu_roomtype=quyu_roomtype.rename(columns={'id':'number'})
price_r=quyu_roomtype.unstack()['price']
price_r.plot.bar(figsize=(12,5),title='不同区域内不同房屋类型的均价')
从上图中也可以看到,北京均价最高的民宿,位置处于怀柔、延庆、昌平、房山、平谷和密云,都是在北京北边,可能原因有:北边方向相比南边经济发达,北边环境好,临近燕山山脉,山水相宜,环境优越。而坐拥民宿数量最多的朝阳,均价较低,区域中心,数量多,价格低,性价比高。
3.6房东用户分析
fangdong=data.host_id.value_counts()
fangdong.describe()
房东拥有房源数量最小为1,最大为143,每个房东平均房源数量为2.67,大多数房东房源数量在[1,3]区间。
房源数量top10最多143,最少57,说明有专注短租的公司或团体。但拥有房间数在1-5间的个体房东仍然是主要的房东用户。
4、结论
4.1房源分析
Airbnb在北京的房源大多分布在北京市中心的朝阳区,东城区,人口多,地理位置最好,民宿产业发达。根据房源类型分析,entire home/apt(整套房间)的数量最多,shared room的数量最少,仅占3.98%,说明大部分用户还是比较注重居住体验,共享房间的肯定会有各种不方便等劣势。
4.2价格分析
不同房屋类型的均价,entire home/apt 的均价最高,shared room的均价最低,仅有514元,均价低于entire room/apt近50%的房源。说明民宿市场,还是以整租为主,共享房源只占很小一部分。房屋均价最高的是怀柔区,延庆区和平谷区,通州区和石景山区均价较低。房源数量较多的朝阳区,房源均价较低。
4.3房东用户分析
房东拥有房源数量最小为1,最大为143,每个房东平均房源数量为2.67,大多数房东房源数量在[1,3]区间。房源数量top10最多143,最少57,说明有专注短租的公司或团体。但拥有房间数在1-5间的个体房东仍然是主要的房东用户。
Airbnb短租分析相关推荐
- Airbnb短租数据分析报告
一. 数据集背景 数据来源:https://pic1.zhimg.com/v2f1972ca63e72ba85398ec32fd712fb72_1440w.jpg?source=172ae18b 共享 ...
- 阿里天池:Airbnb短租房数据集分析
阿里天池:Airbnb短租数据集分析 1.项目介绍 2.字段介绍 3.分析目的和思路 4.模块导入与数据读取 5.探索性分析 (一)整体分析 (二)按区域划分 (三)按房型划分 1.项目介绍 数据来源 ...
- Airbnb、小猪短租等这类短租类产品发展前景如何?
Tsao 某家公司 打杂- 1 产品信息 1. 产品名称:小猪短租 2. 版本号:4.9.1 3. 体验环境:iPhone 7 (11.2.1) 4. slogin:居住自由主义 5. 产品定位:通过 ...
- 天池比赛短租数据集分析之数据图表
题目介绍 活动背景 共享,通过让渡闲置资源的使用权,在有限增加边际成本的前提下,提高了资源利用效率.随着信息的透明化,越来越多的共享发生在陌生人之间.短租,共享空间的一种模式,不论是否体验过入住陌生人 ...
- 北京短租2021年Airbnb数据分析(探索性数据分析+简单建模尝试)
复现了一下阿里天池上Tianchi Data Hero Cup -- 短租数据集分析 论坛大佬的代码,做了探索性数据分析+简单建模尝试.原本的数据集没找见, 从Airbnb 网站下载了21年的北京短租 ...
- 2021年中国汽车租赁市场现状分析,短租前景广阔,融资租赁快速发展「图」
一.汽车租赁产业概述 汽车租赁(简称"租车")是指将汽车的资产使用权从拥有权中分开,出租人具有资产所有权,承租人拥有资产使用权,出租人与承租人签订租赁合同,以交换使用权利的一种交易 ...
- 短租数据集分析--利用pyecharts绘制房源分布地图及单因子方差分析
文章目录 前言 一.绘制房源分布地图 1.导入基本模块 2.数据清洗 3.绘制房源分布地图 二.单因素方差分析 1.Entire home/apt 下地区对房租价格的影响 2.Private room ...
- [python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...
- python爬虫cookie池 与ip绑定_Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
- 疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息
疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息 随着时间的流逝,在中国共产党的领导,全国人民的共同努力下,疫情逐渐受到了控制,逐渐好转,复工,开学有望.最近在和女朋友的闲聊当中得知 ...
最新文章
- supervisor配置环境变量(PATH)
- python教学视频a_2019何老师一个月带你玩转Python分布式爬虫实战教程视频(视频+源码)...
- 这是一项颠覆性技术 - 容器
- 网站域名备案时需要什么资料
- Apple 如何知道你使用了私有API
- 插入图像标签(HTML)
- MyEclipse项目里面出现红叉的解决方案?
- 安装Windows版C / GCC编译器
- python正交表结果生成
- 超小型射频接头SMP/SSMP
- 万达电商为何刻意回避阿里与马云
- python爬取网页的内层页_python爬取网页 下一页
- [阅读笔记] - 秦汉政治
- sqli-labs-maser第1-6关
- win10 常用命令
- NLPIR-ICTCLA2018分词用户大会线上抢票报名开始
- 弹性云服务器使用须知
- fama matlab源码_Matlab:计算Fama Macbeth方法的HAC(Newey West)标准误差
- 单独使用elementui_Vue在单独引入js文件中使用ElementUI的组件
- 《荒野大镖客》:从西部世界构建到资本社会现象