本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于木下学Python ,作者木下瞳

前言

小编可能准备去深圳,需要租房子,在网上先查了查,有很多租房软件,安居客,贝壳等,也向身边的人问了问,安居客听到的次数多一些,于是选择安居客去查看一些租房信息。

在浏览过程中,虽然安居客有过滤标签,按价格,区域,房型,类型这四个来过滤的,但感觉还是不是理想中的信息,而且特别多,看不过来。

所以小编决定使用 python 爬取上面的数据,并自己设置过滤条件,从很多房源中过滤出自己需要的房源,既提高效率,又能找到比较理想的。.

数据获取

数据是爬取安居客的租房,过滤条件设置价格为 0-2500元/月,这是小编自己理想能接受的范围,2000 以上偏高但可以先看看:

区域因为不太了解每个行政区的范围,所以不知道每个区域的距离,只选择某个区又太单一了,不能了解整体,所以区域选择默认的全部标签。

一页有 60 条数据,有 50 页,可以得到 3000 条数据,这些足够了,多了也看不过来。

爬虫的逻辑是不难,从第一页一直到最后一页,先爬取每一页房源链接,从爬取房源链接中的详细信息。

主要爬取标题,房屋信息,房屋有的设施,房源概况:

在过程中会遇到两个问题,其一是字体乱码,也就是字体反爬了,详细信息的数字都是加密过的:

核心代码如下:

第二个问题就是会遇到验证码,可能是点击字体的,可能是滑块,很麻烦,所以这个小编是在程序中判断是否出现验证码。

出现验证码程序会输出提示,手动点击验证码后,按回车继续爬取,在爬取过程中小编只遇到过一次验证码。

其他的逻辑比较简单,感兴趣的参考源码即可。

数据过滤

获得数据就可以自己设置过滤条件了,因为小编需要知道每条房源在哪里,先构造每条房源的区域:

对每个区域的房价分布心理有个底,所以以区域划分,价格划分为 (0,500],(500,1000],(1000,1500],(1500,2000],(2500.3000],一次来查看分布,先计算每个区每个分布,画出柱状图:

图用 pyecharts 画的,区域选择设置的单选,每次可以查看一个区域价格分布。

对价格有个底后,来设置过滤条件,首先小编考虑附近是否有地铁,在数据中【标签】【概况】可以说明。

房源设备也是小编考虑的有网,热水,洗衣机,空调,卫生间,根据这些关键词过滤,过滤了 1000 条左右:

标签中如果有【号线】代表有地铁几号线,那概况中应该也会提到地铁要不然让人怀疑是骗人的,所以以这两个进行过滤,2000 多条一下就过滤剩下 500 多条:

然后小编根据承受能力,选择了 1500 以下的房源:

过滤后一下剩下 200 多条,还是有点多,现在是包含所有区域的:

最后小编根据自己的需求,查看了地图过滤区域,只选择了合适的区域,过滤后自由 84 条数据,并保存:

小编抽取了几条数据,点开链接,大部分还是都能接受。为了点题,现在的我应该表示很伤心

Python爬取安居客租房数据,设置排除自己条件以外的数据相关推荐

  1. Python爬取安居客经纪人信息

    Python爬取安居客经纪人信息 Python2.7.15 今天我们来爬取安居客经纪人的信息.这次我们不再使用正则,我们使用beautifulsoup.不了解的可以先看一下这个文档,便于理解.http ...

  2. 爬取安居客租房信息,主要是获取电话号码

    爬取安居客租房信息,主要是获取电话号码 想要得到个人房源的电话只能在app上获取,而且获取的是虚拟号码,没什么作用.所以我们这次获取的是经纪人房源的电话号码,随便打开一个网页,可以看到. 他的电话号码 ...

  3. python爬取安居客网站上北京二手房数据

    目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...

  4. Python爬取安居客新房信息

    由于是刚开始学习Python爬虫,做个简单的爬虫,提供一个学习思路. 由于水平有限,正则表达式写的实在是抠脚,就直接上BeautifulSoup了. BeautifulSoup的学习参考http:// ...

  5. 使用Python爬取安居客二手房房价数据

    作为一个Python新手,公司突然安排我爬取房价数据,真让人有点头大啊!幸好网上的大佬们经验丰富,给予了很多代码上的帮助.本文代码在网友pythoner111爬虫项目–爬取安居客二手房信息的基础上修改 ...

  6. python爬取安居客二手房网站数据(转)

    之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹 哈哈,现在开始正式进行爬虫书写 首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...

  7. python爬取安居客二手房网站数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  8. 爬取安居客租房详情+翻页

    爬取链接:https://wf.zu.anjuke.com/?from=navigation 首先我们先打开浏览器,输入网址,利用network进行抓包,找到type ducument响应源码文件 我 ...

  9. Python爬取安居客房产经纪人信息

    引言 Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫.为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示: Python和相关依赖库的 ...

  10. Python爬取安居客房产经纪人信息采集

    为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示: Python和相关依赖库的安装 运行环境:Windows10 安装Python3.5.2 Lxml 3.6.0 下载网页内 ...

最新文章

  1. Mysql在Windows上离线安装与配置
  2. SAP Fiori Elements 应用 manifest.json 文件里 resources.json 的含义
  3. spring boot源码下载地址
  4. 按钮button加超链接
  5. python自动安装pip教程_谈谈全自动安装常使用的pip install的原理及作用!!!
  6. mysql 存储xml类型_(MariaDB)MySQL数据类型详解和存储机制
  7. python中角度怎么表示_python – 如何知道两点之间的角度?
  8. 在android中用跑马灯的效果显示textview
  9. rfid卡的读写c语言,IC卡读卡器与编程语言
  10. 达梦数据库 防火墙设置
  11. 新办的卡为什么显示无服务器,为什么插入卡后显示无服务,有时有有时又没有?...
  12. int定义源码 python_【图片】Python 源码:int【西安网星软件吧】_百度贴吧
  13. 仿热血江湖游戏类46地面物品类
  14. 这位智商奇高的超级天才去了:他简直活出了别人八辈子的精彩!
  15. html 块元素 css,HTML和CSS - 内嵌块元素的问题
  16. java计算年份_如何计算Java中2个日期之间的年份和年份
  17. Teamviewer13版的安装及使用教程
  18. 大数据相关概念-什么是算子
  19. Linux tar解压缩命令详解
  20. iphone显示信号强弱(field test)

热门文章

  1. Hybrid和Tagged Untagged理解
  2. 【MATLAB】进阶绘图 ( MATLAB 颜色值 | 条形图示例 | 查找对象属性方法 | 修改条形图属性 )
  3. matlab语音去除白噪声_matlab去除高斯白噪声
  4. 用java实现飞机大战_java飞机大战实现了什么技术
  5. IAR软件的使用讲解
  6. 六款Linux常用远程连接工具介绍,看看哪一款最适合你
  7. 外贸受用,如何跟进那些报过价又不回复的客户?
  8. 白话空间统计十六:增量空间自相关
  9. 使用触发器对学生表操作进行日志记录
  10. rgba通道转rgb_JS实现颜色的10进制转化成rgba格式的方法