Airbnb NYC2019分析实战
分析目标
民宿特征分布图可视化(位置、房型、价格)
寻找热门民宿特点
源数据
数据预处理
字段分析
字段 | 含义 |
---|---|
id | 民宿id |
name | 民宿名称 |
host_id | 房东id |
host_name | 房东姓名 |
neighbourhood_group | 邻近大区 |
neighbourhood | 临近社区 |
latitude | 维度 |
longitude | 经度 |
room_type | 房型 |
price | 价格 |
minimum_nights | 最少入住天数 |
number_of_reviews | 评论数量 |
last_review | 最近评论日期 |
reviews_per_month | 月均评论数 |
calculated_host_listings_count | 房东房源数量 |
availability_365 | 年营业天数 |
结合分析目标和数据情况,确定月均评论数反应民宿热门程度,将数据集划分。
因变量:
- reviews_per_month
自变量为:
- neighbourhood_group
- neighbourhood
- room_type
- price
- minimum_nights
- calculated_host_listings_count
- availability_365
数据清洗
import pandas as pdf = pd.read_csv('D:\\Data\\archive\\AB_NYC_2019 - Copy.csv')
# 去空
f = f.dropna()
# 去0
index = f[(f['availability_365'] <= 0)].index.tolist()
f = f.drop(index=index)
# 3σ去异常值
index = f[(f['reviews_per_month'] > 7.2228)].index.tolist()
f = f.drop(index=index)
index = f[(f['reviews_per_month'] <= 0)].index.tolist()
f = f.drop(index=index)
# 去重
f = f.drop_duplicates()print(f.shape)
f.to_csv('D:\\Data\\archive\\AB_NYC_2019_清洗.csv', index=False)
数据分析
可视化
民宿位置分布图
可以看出民宿主要集中在Brooklyn和Manhattan这两个区,其中排名前五社区的如下:
- Brooklyn Bedford-Stuyvesant 2212
- Brooklyn Williamsburg 1786
- Manhattan Harlem 1507
- Brooklyn Bushwick 1216
- Manhattan Hell’s Kitchen 1191
热门位置分布图
平均受欢迎地区前五:
- Staten Island New Dorp Beach 5.5
- Queens East Elmhurst 5.059539473684213
- Queens Jamaica Hills 4.508
- Queens Springfield Gardens 4.4278378378378385
- Staten Island Rosebank 4.281666666666666
房型分布
可以看出大部分房源是Entire home和Private room,Shared room最少。
热门房型分布
可以看出Private room这个房型最受欢迎,但是三种房型的差距并不大。
价格分布
由以上两图可以看出大部分的价格位于0~500这个区间,150这个价格的房源是最多的。
热门价格分布
可以看出7500这个价格最受欢迎,其次是500以下这个价格。
相关性分析
价格热度
R2=0.0096
P=0.0087(可信)
最低入住天数热度
R2=0.3873
P<0.0001(可信)
房东房源数量热度
R2=0.1849
P<0.0001(可信)
年营业天数热度
R2=0.0965
P<0.0001(可信)
结果分析
总体而言,对于民宿选址,各大区热门程度并不十分显著,但皇后区和斯塔滕岛较为热门,部分社区优势显著,布鲁克林和曼哈顿竞争激烈,可考虑按热门社区选址。
房型而言,热门差距并不大,但整间出租略有优势。
价格而言,相关性并不显著。
最低入住天数而言,越低越好。
房东房源数量而言,并不十分显著,但房源越多越好。
年营业天数而言,并不十分显著。
Airbnb NYC2019分析实战相关推荐
- ArcGIS水文分析实战教程(9)雨量计算与流量统计
ArcGIS水文分析实战教程(9)雨量计算与流量统计 本章导读:降水是水文循环中重要的一环,降水包括雨.雪.雾.露.雹等,本章介绍的是降雨的环节.通过雨量站与插值的方式,实现雨量的空间分布就算,为水文 ...
- PICRUSt2分析实战:16S扩增子OTU或ASV预测宏基因组、新增KEGG层级
PICRUSt2分析实战:16S扩增子OTU或ASV预测宏基因组.新增KEGG层级 更新时间:2021年7月8日 PICRUSt推出了近8年,引用5000余次. 现推出PICRUSt2,202年再次霸 ...
- PICRUSt2分析实战:16S扩增子OTU或ASV预测宏基因组EC、通路、KO(200806更新)
PICRUSt2分析实战:16S扩增子OTU或ASV预测宏基因组 更新时间:2020年8月6日 PICRUSt推出了近7年,引用4000余次. 现推出PICRUSt2,再次霸气发表于顶级期刊Natur ...
- QIIME 2用户文档. 4人体各部位微生物组分析实战Moving Pictures(2018.11)
文章目录 前情提要 QIIME 2用户文档. 4人体各部位微生物组 启动QIIME2运行环境 样本元数据 下载和导入数据 拆分样品 序列质控和生成特征表 方法1. DADA2 方法2. Deblur ...
- Microbiome:宏基因组分箱流程MetaWRAP分析实战和结果解读
文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 分析实战 0.下载肠道宏基因组数据 1. ...
- R语言诊断试验数据处理与ROC分析实战案例2
R语言诊断试验数据处理与ROC分析实战案例2 目录 R语言诊断试验数据处理与ROC分析实战案例2 #ROC指标 #样例数据
- R语言诊断试验数据处理与ROC分析实战案例1
R语言诊断试验数据处理与ROC分析实战案例1 目录 R语言诊断试验数据处理与ROC分析实战案例1 #ROC指标 #样例数据
- R语言诊断试验数据处理与ROC分析实战案例:联合诊断ROC
R语言诊断试验数据处理与ROC分析实战案例:联合诊断ROC 目录 R语言诊断试验数据处理与ROC分析实战案例:联合诊断ROC #ROC指标 #样例数据
- R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战
R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战 目录 R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战
- R语言时间序列(time series)分析实战:简单指数平滑法预测
R语言时间序列(time series)分析实战:简单指数平滑法预测 目录
最新文章
- 入门系列之使用fail2ban防御SSH服务器的暴力破解攻击
- 批量替换文本中字符代码-python3
- 布尔类型和三目运算符
- 在字符串中查找指定的字符串--strstr
- 巴特沃斯滤波器应用场合_巴特沃斯数字低通滤波器设计及应用
- JDBC如何连接mysql数据库附详细步骤
- scrapy爬取百万小说
- new Fiori 2.0 theme sap_belize
- mongdb 群集_群集文档的文本摘要
- 农村金融大变革,央行要给农民发钱了!
- primefaces_Primefaces AccordionPanel组件示例
- Unity3D启动时卡在Loading界面
- 两个通宵熬出来的互联网大厂最新面试题收集整理1000道(三-Memcached),欢迎点赞收藏!!!
- 终于可以舒服的看电子书了
- AUTOSAR OS和OSEK OS
- 诺基亚6300手机游戏下载_回忆杀!重温那些年你一定玩过的经典手机游戏,快看你玩过几个?...
- uni-app 布局遇到的问题
- JS手写上传文件、React手写上传文件
- Qt编写的项目作品7-视频监控系统
- 计算机中各成绩所占成绩的比例计算方法,考研总成绩的计算方法和各科分数的比例占多少?...