为什么80%的码农都做不了架构师?>>>   

和链接不一样,安居客网站里面没有找到总页数,可能在json里面有,只是我没有找到。 基于此能不能做网页的循环爬取呢。 能否判断页面读取完毕进行自动翻页? 查询了一些资料后得出了如下代码:

import requests
from lxml import etreecurrent_url = 'http://chengdu.anjuke.com/tycoon/p1'
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}
allinfo = []
def getdata(url):resouce = requests.get(url,headers = headers)resouce.encoding = 'utf-8'selector = etree.HTML(resouce.text)return selector
def claw_data_from_detail_page(selector,j):info = {}str = '//*[@id="list-content"]/div[%s]'%jinfo['person'] = selector.xpath(str+'/div[1]/div/h3/a/text()')[0]info['phone'] = selector.xpath(str+'/div[2]/text()')[1].strip()return infowhile True:# 下载页面page = getdata(current_url)print("正在爬取" + current_url)# 根据我们定义的selector选择感兴趣的页面元素列表data_list = page.xpath('//*[@id="list-content"]/div')# 如果这个页面选择不到元素了,说明我们已经读取完了# 也可以计算页面元素数量的最大值,比如你第一页爬到了10个元素# 当你到了第N页,你只爬到了2个,说明这就是最后一页了if len(data_list) == 0:break# 对每一个元素,我们把它放进另一个函数中读取i=0for data in data_list:i += 1info = claw_data_from_detail_page(data,i) allinfo.append(info)# 当这一页完成的时候,我们就更新一下当前页面的url地址,# 回到while loop最开始的地方开始下一页end = page.xpath('/html/body/div[6]/div[2]/div[3]/div/i[@class="iNxt"]')if len(end)>0:breakcurrent_url = page.xpath('/html/body/div[6]/div[2]/div[3]/div/a[@class="aNxt"]/@href')[0]print(allinfo)

[caption id="attachment_85" align="alignnone" width="300"]<img src="http://www.nigaea.com/wp-content/uploads/2016/12/WX20161222-180257-300x91.png" alt="抓取安居客二手房经纪人数据,python爬虫自动翻页" width="300" height="91" class="size-medium wp-image-85" /> 抓取安居客二手房经纪人数据,python爬虫自动翻页[/caption] 注意:

  • 为了快速测试current_url中p1可以修改为p200。
  • 这个程序主要是学习在无法得知总的页面数的时候,如何抓取所有页面。

欢迎到我博客吐槽,code有很多不优雅。http://www.nigaea.com/dataanalysis/84.html

转载于:https://my.oschina.net/at5/blog/816348

抓取安居客二手房经纪人数据,python爬虫自动翻页相关推荐

  1. python爬取房源数据_python爬取安居客二手房网站数据(实例讲解)

    是小打小闹 哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构:作为一名河南的学生,那就看看郑州的二手房信息吧! 在上面这个页面中,我们可以看到一条条的房源信息,从中我们发现了什么,发 ...

  2. python爬取安居客二手房网站数据(转)

    之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹 哈哈,现在开始正式进行爬虫书写 首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...

  3. 利用R语言爬取安居客中经纪人数据,并将结果导入msql数据库

    1.背景 工作需要,需要获取安居客房地产相关数据:本文直接附上代码和注释.本文没有采用浏览器模拟抓取(参考之前文章),因为页面没那么复杂,不需要刻意用浏览器,并且用浏览器会降低速度. 2.代码 set ...

  4. python爬取安居客二手房网站数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  5. python—简单数据抓取三(简单IP地址代理、利用蘑菇代理实现IP地址代理刷新本地ip地址、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程)

    学习目标: python学习二十三 -数据抓取三. 学习内容: 1.简单IP地址代理 2.利用蘑菇代理实现IP地址代理刷新本地ip地址 3.利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程 1. ...

  6. 使用Python爬取安居客二手房房价数据

    作为一个Python新手,公司突然安排我爬取房价数据,真让人有点头大啊!幸好网上的大佬们经验丰富,给予了很多代码上的帮助.本文代码在网友pythoner111爬虫项目–爬取安居客二手房信息的基础上修改 ...

  7. 爬虫项目--爬取安居客二手房信息

    爬虫实战(爬取安居客二手房信息-成都天府新区) 环境:python3.6 pycharm bs4库 解析方式:bs4 需求:爬取二手房信息字段(titile,house_type,build_time ...

  8. bs4+phantomjs爬取安居客二手房信息

    bs4+phantomjs爬取安居客二手房信息 这是我的第一篇博客,希望通过养成写博客的习惯来督促自己学习. 开发环境以及需要安装的模块 - Python3.6 - requests pip inst ...

  9. python爬虫app步骤_Python爬虫抓取手机APP的传输数据,python爬虫抓取app

    Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...

最新文章

  1. Shell脚本头定义
  2. 2017年5个最佳网络监控工具 你知道哪些
  3. Linux 数据同步方案
  4. 5G NGC — 关键技术 — 计算与存储分离
  5. 程序设计竞赛(数组+多组测试)
  6. ubuntu20.04 sshd 配置root 登录
  7. Network of Schools(POJ-1236)
  8. Python学习之==数组(二)
  9. 【剑指Offer】俯视50题之1-10题
  10. CONVERSION_EXIT_ALPHA_INPUT
  11. VC中ComboBox控件用法详解
  12. python网课答案查询_网课答案查询助手v1.0
  13. cadence17.2制作封装过程
  14. 人际网络营销与网站运营、策划、推广一体化结合
  15. 紧急!!!请尽快将Flash Player升级到9.0.124
  16. 从《龙之战》想起 前一段时间,和江浙地区的企业信息化CIO们聊天,也深刻
  17. 【Linux】Rsync基于SSH认证的使用(rsync 命令属于1 v 4 的命令、rsync常用参数基本用法)
  18. 深度学习OSSIM关联分析(附源码注解)
  19. mockups 安装
  20. 导数公式整理(更新中)

热门文章

  1. 官方2008年9月16日公布的不合格奶粉
  2. 【正点原子FPGA连载】第四十四章MT9V034摄像头HDMI显示实验 -摘自【正点原子】新起点之FPGA开发指南_V2.1
  3. mt9d131 驱动简介
  4. JAVA计算机毕业设计糖果销售管理系统源码+系统+mysql数据库+lw文档
  5. r spgm 语言_R语言如何处理incorrect number of dimensions错误?
  6. 一元和二元的泰勒展开式
  7. SIM71004G模块使用Linux C语言实现打电话发短信
  8. 强大的Android系统,可自由修改手机型号、SDK版本号等信息。
  9. 三星手机开不了机了,一直是开机界面但是进不去
  10. android 联系人 --- 读取usim卡的邮箱