目的

作为一个挂了几套公寓在airbnb上的小房东,又作为一个喜欢分析数据的小孩子,当学习爬虫的过程中当然要选择爱彼迎这个网站来试手;在网上看到一个大神po的一长串的代码,用了之后的确可以马上爬取,但爬到的内容不是我想要的,而且我总感觉复杂了很多,于是我开始用我现有的知识来进行爬取;

方法

requests lxml
1.分析网页url构建17页的url代码
很容易发现规律url=‘https://www.airbnb.cn/s/chengdu/homes?query=chengdu&items_offset=’+{0,18,36.....}
2.分析网页我们需要的xpath路径
通过审查元素 我们想要的路径为
公寓名://div[@class=’_qhtkbey’]/text()
评价数:///div[2]/div[1]/div/span[2]/text()#我期望用评价数来作为房源的销售热度来进行分析,因为airbnb并不会显示交易量
显示价格://
/div[2]/div[2]/div/div/div[1]/div/span/span/span/span[1]/span[2]/text()
房源类型://*/div[2]/a/div/div[1]/div/span/span/text()
这里我提一下,当时我发现爬取出来的公寓名的数量和房源类型这些匹配不上,后来发现原来是没有plus房源的名字信息,在名称这一块plus房源和普通房源的路径不在同一个地方,这里要注意一下;
3.接下来就直接可以爬取了
值得注意的是,每次airbnb都显示17页的房源信息,我不知道对于入驻的房东来说是好事还是坏事,因为每次露出还不到300条房源信息,而成都的房源据说是有上万条;

代码

import requests
from lxml import etree
#构建url
url='https://www.airbnb.cn/s/chengdu/homes?query=chengdu&items_offset='#要看其他地区直接把成都改成其他地方就好了
for i in range(0,18):urlnum=i*18link=url+str(urlnum)strr=requests.get(link).text#返回网页信息tree=etree.HTML(strr)name=tree.xpath("//div[@class='_qhtkbey']/text()")  #房源名            commentnum=tree.xpath("//*/div[2]/div[1]/div/span[2]/text()")#房源评论数price=tree.xpath("//*/div[2]/div[2]/div/div/div[1]/div/span/span/span/span[1]/span[2]/text()")#房源价格housetype=tree.xpath("//*/div[2]/a/div/div[1]/div/span/span/text()")#房源类型

部分数据

分析

由于爬取的数据不多,所以就只进行了简单的分析
1.整套公寓的房型占了大部分,这可能是近期成都住宅小区门卫越来越严格导致的,也可能是airbnb在不加筛选时优先为我们推荐整套公寓的房型

2.在不添加任何筛选的情况下,搜索出的房源大部分是1室的房源,我还没有把房源合并,在我看来一室一厅一床和一室二厅一床就是想同等级的房源,这部分应该合并起来,基本可以确认的是1室的房源在不加筛选时露出的更多
整体价格和房型分析
通过评价数来评估房东房源出租情况
在只有几百条的信息中发现(如果需要更多可以在代码添加筛选条件后获取更多的数据)
1.同等价格1室公寓基数较大,在当前的情况下,这部分房东生意较差
2.通过对名字的分析:名字中带有某高端音响、高层大落地窗、小孩滑梯这部分房源价格和销量普遍较好(airbnb客人还是比较认可住宿特色)
3.发现一个有趣的事情是,远离市区的高新区、机场也竟然也有价格高且卖的好的房源。这几个房东可赚开心了,因为房租成本低呀;

以上观点均为个人观点,谢谢如有错误,请指出,希望在大家的帮助下越走越好

airbnb爱彼迎python爬虫与简单分析相关推荐

  1. Airbnb 爱彼迎房源详情页中的 React 性能优化

    Airbnb 爱彼迎工程师和数据科学家将定期和大家分享移动开发.系统架构.数据科学及人工智能等领域的技术探索和经验心得. 正文从这开始-- 在一些容易被忽视但又非常重要的场景,可能会有许多严重影响性能 ...

  2. Airbnb(爱彼迎)产品分析报告

    Airbnb(爱彼迎)产品分析报告 一.Airbnb背景 Airbnb成立于2008年,一家联系旅游人士和家有空房出租的房主的服务型网站,它可以为用户提供多样的住宿信息.用户可通过网络或手机应用程序发 ...

  3. Python 爬虫实战:分析豆瓣中最新电影的影评

    Python 爬虫实战:分析豆瓣中最新电影的影评 接触python时间不久,做些小项目来练练手.前几天看了<战狼2>,发现它在最新上映的电影里面是排行第一的,如下图所示.准备把豆瓣上对它的 ...

  4. python登录教务系统_强智科技教务系统python爬虫模拟登录分析(湖南)

    强智科技教务系统python爬虫模拟登录分析(湖南) 本文章仅用作于学习 前提:最近期末到来,想第一时间看到新出成绩的,于是就有了爬取学校教务系统自己的成绩并通过Qmsg酱推送到自己QQ上的想法,目前 ...

  5. airbnb 爱彼迎开源 Epoxy 优化使用 RecyclerView

    airbnb 爱彼迎开源 Epoxy 优化使用 RecyclerView 一.为什么要使用Epoxy RecyclerView 众所周知是在listview和gridview基础上优化缺点,提炼出的一 ...

  6. Python爬虫之简单爬虫之爬取英雄联盟官网的英雄的皮肤

    Python爬虫之简单爬虫之爬取英雄联盟官网的英雄的皮肤 文章目录 Python爬虫之简单爬虫之爬取英雄联盟官网的英雄的皮肤 背景:LOL这款游戏有着大量的玩家,这个游戏里面人们津津乐道的皮肤,每一款 ...

  7. Python爬虫_案例分析(二)

    Python爬虫_案例分析(二) 一.电影天堂案例 import scrapy from scrapy_movie.items import ScrapyMovieItem class MvSpide ...

  8. 连享会-Python爬虫与文本分析专题 (2019.5.17-19)

    连享会-Python爬虫与文本分析专题研讨班 文章目录 连享会-Python爬虫与文本分析专题研讨班 1. 课程概览 2. 嘉宾简介 3. 授课内容 3.1 课程介绍 为什么要学爬虫和文本分析? 为什 ...

  9. Airbnb爱彼迎推出看得见“春色”的房源

    春分将至,人们对春暖花开.拾翠踏青的渴望从未如此强烈.打开窗户,温柔的春风令人心生无限遐思,虽然身未动,但心已远行.Airbnb爱彼迎推出八个看得见"春色"的房源,大家可以一同感受 ...

最新文章

  1. CVPR 2022 | 模型难复现不一定是作者的错,最新研究发现模型架构要背锅
  2. lnmp集成开发环境安装pdo_dblib扩展
  3. 栈(Stack) 任何程序执行前,预先分配一固定长度的内存空间
  4. HTTP-GET, HTTP-POST and SOAP的比较
  5. JoyOI(TYVJ)1071-LCIS【线性dp,LIS,LCS】
  6. pandas 对某一行标准化_Python中的神器Pandas,但是有人说Pandas慢...
  7. ie系列浏览器_IE浏览器换Logo,真担心你上网找不到图标
  8. HDU5695 Gym Class【拓扑排序】
  9. python数据科学包第三天(股票数据分析、时间事件日志)
  10. 基因结构图的0_在线网站绘制基因结构图!
  11. SAP系统里的统驭科目
  12. Bootstrap知识点概述
  13. JAVA架构师之路十:设计模式之组合模式
  14. repo的安装和使用
  15. oracle 赋予dorp,ORACLE高级操作
  16. python表情,python玩转emoji表情
  17. 数影周报:SpaceX设计图纸被泄露,拍明芯城正式在纳斯达克上市
  18. 转战 Typora Mackdown 文档编辑器
  19. 使用TP5开发微信服务商支付
  20. 图书管理系统——读者管理(查询功能)

热门文章

  1. MongoDB分布式集群(一)
  2. 显而易见的事情很容易忽略
  3. 权威的药物预测训练集资源
  4. 基于android实现模拟爱奇艺本地视频播放器app项目演示【附项目源码+论文说明】分享
  5. 关于IDEA创建空白项目和文件夹会自动折叠的问题
  6. 使用谷歌开发者工具抓包
  7. python画日漫_豆瓣9.3分,日漫风格的机器学习数学书
  8. 百度AI人脸识别接口测试 颜值评分 性别识别 物体识别 java 颜值打分
  9. 记录:jeecg boot 路由带多种参数的配置
  10. 从宏观到微观,零售行业致胜未来的六个趋势