1 数据收集

爱彼迎的数据主要通过数据集和爬虫采集。

方法一:登录Inside Airbnb: Get the Data网站,下载需要的城市数据。

注:这个网址更新速度与周期不定,且更新后,上次的数据就找不到了,因此需要每月不定时查看。最近这段时间,爱彼迎即将退出中国市场,加之疫情的影响,很多城市某些月份的信息缺失。

方法二:登录AirDNA | Short-Term Rental Data Analytics | Vrbo & Airbnb Data网站,这个网站登进去时,网速超级慢,并且数据都是需要购买才能获取的。购买时需要通过邮箱和国外的销售人员预约时间交流(有半个地球的时差)。

 注:这张图是样本表格,AirDNA数据集相比于InsideAirbnb数据集,可能更准确一点,且包含了ADR值和OCC值,可以计算绩效值,地区房东数量等。

注:这张图是打算购买数据集时,和AirDNA国外销售人员的交流,考虑到自身的财务状况,我们还是放弃了。

方法三:使用Python语言,网络爬虫。虽然有一点Python语言的基础,但是完全写出一份爬虫语言还是稍微有点困难。所以就写了个简单的,爬取的数据也比较简单了。只能作为研究数据的一些补充材料。不是很专业,就不详讲了,大致的代码在我另一篇文章有写到。当时守着电脑爬取了中国49个城市的数据,白天容易被forbidden,我就晚上待在办公室,一个城市爬完了,手动改成另一个城市来爬。

2 数据预处理

数据预处理就是将数据集里面的信息数字化、规范统一化、方便后面的数据分析。以2022年3月纽约的数据集为例,解压listing文件,里面包含了37631个房源数据。

注:数据集中包含了以上信息。有部分缺失信息,但总体还是比较全面。大致整理后如下:

3 图片下载

找到图片链接,单独成一张表,可以采用八爪鱼图片采集器,也可以用迅雷批量下载。图片的选择:①.jpg格式,因为后期统一格式时,转换起来比较轻松,对我来说的话;②选择一个host_id对应一张图片,因为文章选定的对象就是只拥有一个房源的房东。处理后的表格和下载后的文件夹、图片,如下图所示:

 注:表格中有18102个数据样本,因为有4个样本下载失败,所以总共下载了18098张图片。

4 图片预处理

这一步下周继续做,边做变更新吧。

爱彼迎数据采集与预处理-图片色彩分析相关推荐

  1. 爱彼迎数据采集与预处理-图片色彩分析二

    1 图片预处理 使用jupyter notebook对图片统一图片格式,等比例缩小图片尺寸. import os,datetime starttime = datetime.datetime.now( ...

  2. 微信小程序—图片色彩分析(拾取图片的配色方案)

    摘要 这是一款图分析图片配色方案demo,图片色彩分析或许可以应用在智能分析色彩领域,比如穿衣搭配.家装等设计或生活领域,但需要大量数据的支持,希望技术能够更好的被应用 效果 体验 体验途径:画布系列 ...

  3. 途家、木鸟、爱彼迎:国内三大民宿平台用户定位策略分析

    定位作为营销的基础理论,也是各企业发展的方向指引.今天,笔者从国内三家主流民宿预订平台台途家.木鸟民宿.爱彼迎的APP布局与产品功能设计等层面进行综合分析,从中探究其不同的用户定位策略. 从首页设计到 ...

  4. 图片情感分析(1):图像数据预处理

    图片情感分析,重点是颜色特征的提取,将每一个像素点的颜色特征转换成一个值,最终效果是把一个图片转换成一个二维矩阵,矩阵中每一个值都代表该像素点的颜色特征.概括来说就是将每个像素点的RGB值转换为HSV ...

  5. Airbnb(爱彼迎)用户数据分析——tableau可视化和MySQL分析

    本文利用Airbnb用户的注册.订单和日志行为等数据,从用户画像.营销渠道转化率.订单漏斗分析三方面进行分析.我们需要考虑以下3个问题: 爱彼迎的目标用户是什么样的人群?有什么特点? 这些人群接受信息 ...

  6. 五十三、爱彼迎数据集分析建模

    爱彼迎数据集分析建模为本专栏的Python数据分析案例. 因为文件比较大,所以保存了百度云 链接:https://pan.baidu.com/s/1geUgsLejvpTKgBmcSMSIdQ 提取码 ...

  7. airbnb爱彼迎python爬虫与简单分析

    目的 作为一个挂了几套公寓在airbnb上的小房东,又作为一个喜欢分析数据的小孩子,当学习爬虫的过程中当然要选择爱彼迎这个网站来试手:在网上看到一个大神po的一长串的代码,用了之后的确可以马上爬取,但 ...

  8. 与谷歌、Facebook 抢夺 AI 人才和公司资源,爱彼迎加入 AI 战场

    爱彼迎是一家C2C的旅游住宿共享平台,但是它最近也开始与Facebook这样的科技公司抢夺AI领域的人才了.爱彼迎作为旅游住宿平台的业务不断扩大,自然需要再技术层面,尤其是AI技术层面上"招 ...

  9. kaggle经典案例:爱彼迎租房数据探索

    公众号:尤而小屋 作者:Peter 编辑:Peter 大家好,我是Peter~ Airbnb是AirBed and Breakfast ( "Air-b-n-b" )的缩写,中文名 ...

最新文章

  1. 两岸MVP强强联手--最硬Windows Server 2008达人
  2. Delphi 能不能从Ring 3进入Ring 0
  3. gzip android,怎么在Android系统中使用gzip进行数据传递
  4. Redis学习笔记之二 :在Java项目中使用Redis
  5. 面试官:能不能手写一个 Promise?
  6. linux安装下载中文包,linux下安装中文包和字体
  7. wx.checkjsapi是写在config里面吗_理解了异地恋,就理解如何配置交换机,你理解了吗?...
  8. Docker 三剑客之 Docker Compose
  9. Microsoft Jet 数据库引擎打不开文件,它已经被别的用户以独占方式打开,或没有查看数据的权限。...
  10. Could not load file or assembly (Exception from HRESULT: 0x80131047)-解决办法
  11. 光学efl_关于光学设计使用以及理解
  12. roms netcdf结构体用法(弃用)
  13. RQ配置使用Redis Cluster
  14. 思科模拟器Cisco Packet Tracer交换机的端口聚合配置
  15. 牛客网数据库SQL实战45—— 将titles_test表名修改为titles_2017
  16. 分布式ssh_使用SSH的分布式管理
  17. 微信域名被屏蔽被封了的解决办法 微信网址被屏蔽了红了照样打开
  18. 计算机主机系统管理员口令,电脑管理员密码忘了怎么办_忘记了电脑管理员密码怎么办...
  19. fanuc机器人控制柜接线_fanuc机器人控制柜crma-15.16接线图(2)
  20. 推荐一个C++枚举转字符串的开源项目magic_enum

热门文章

  1. JavaScript变量与数据类型(三)
  2. Linux桌面环境基本介绍
  3. SQL Server调用Database Mail发送邮件报错:Msg 229, Level 14, State 5, Procedure sp_send_dbmail, Line 1 EXECUTE
  4. 《轩辕剑4》秘技小集
  5. Android 序列化(Serializable和Parcelable)
  6. Day5:传输层概述、传输层服务、多路复用和解复用、无连接传输 UDP
  7. MySQL的Join
  8. java produces_java-有关在Spring MVC中@RequestMapping中的Produces属性的一些信息
  9. Java 16进制字符串转16进制整形
  10. mac 安装 maven 过程