目标

1、安居客二手房,随便一个城市,选择优秀经纪人,爬取所有页数

网址:http://beijing.anjuke.com/tycoon/p/

过程

1、在网页源代码中找到所需要的数据

2、用bs提取出所需要的信息,代码如下

#encoding=utf8
import re
import urllib
import urllib2
from bs4 import BeautifulSoup   #导入bs
url = 'http://beijing.anjuke.com/tycoon/p'
for page in range(1,11):url1 = url+str(page)+'/'print url1# 不传入headers的话无法访问user_agent = "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:49.0) Gecko/20100101 Firefox/49.0"headers = {"User-Agent": user_agent}request = urllib2.Request(url1, headers=headers)response = urllib2.urlopen(request)html = response.read()# pages = urllib.urlopen(url)# html = pages.read()soup = BeautifulSoup(html, 'html.parser')# print html# print(soup.prettify())title = soup.find_all('div',class_='jjr-itemmod')   #所需的信息在这个大的div标签内# print titlefor til in title:part1 = til.find('div',class_='jjr-info').get_text('|',strip=True).encode('utf-8')#一个标签里包含了多条数据,用|分隔开part3 = part1.replace(' ','')part4 = part3.replace('\n','')part2 = til.find('div',class_='jjr-side').get_text(strip=True).encode('utf-8')#去掉空格回车等不需要的东西# print '-->',part4,'<--'  #查看取出的内容with open('anjuke.txt','a+') as AJ:AJ.write(part4+'|'+part2+'\n')

用bs爬取安居客优秀经理人信息相关推荐

  1. python3 beautiful爬取安居客的二手房信息

    今天有一位同学找我爬取安居客的信息,安居客网站有反爬虫机制,所以不能简单用requests来做,这里用selenium来模拟获取url网页. 环境 mac, python3.7 beautifulso ...

  2. 利用Python中的BeautifulSoup库爬取安居客第一页信息

    题目: 网址为https://beijing.anjuke.com/sale/, 利用BeautifulSoup库,爬取第1页的信息,具体信息如下:进入每个房源的页面,爬取小区名称.参考预算.发布时间 ...

  3. Python爬取安居客经纪人信息

    Python爬取安居客经纪人信息 Python2.7.15 今天我们来爬取安居客经纪人的信息.这次我们不再使用正则,我们使用beautifulsoup.不了解的可以先看一下这个文档,便于理解.http ...

  4. 爬虫爬取安居客二手房和新房信息,你是买新房还是二手的呢?

    本文主要讲解爬取安居客买房类别中的二手房和新房,将提取的信息存储在记事本中,也可以转存CSV格式或者MongoDB中. 网站HTML信息提取比较简单,没有什么特别的地方,作为爬虫入门可以让初学者快速了 ...

  5. python爬虫爬取安居客并进行简单数据分析

    此篇博客为普通方式爬取安居客租房数据一共提取出1200条,但是在进行大规模的数据爬取时,不建议使用这种方式,速度太慢是最大的诟病,在进行大规模爬取时,使用分布式爬虫是第一选择 爬取过程 一.指定爬取数 ...

  6. Python爬取安居客新房信息

    由于是刚开始学习Python爬虫,做个简单的爬虫,提供一个学习思路. 由于水平有限,正则表达式写的实在是抠脚,就直接上BeautifulSoup了. BeautifulSoup的学习参考http:// ...

  7. python爬取安居客网站上北京二手房数据

    目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...

  8. 爬取安居客租房信息,主要是获取电话号码

    爬取安居客租房信息,主要是获取电话号码 想要得到个人房源的电话只能在app上获取,而且获取的是虚拟号码,没什么作用.所以我们这次获取的是经纪人房源的电话号码,随便打开一个网页,可以看到. 他的电话号码 ...

  9. python爬取房源数据_python爬取安居客二手房网站数据(实例讲解)

    是小打小闹 哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构:作为一名河南的学生,那就看看郑州的二手房信息吧! 在上面这个页面中,我们可以看到一条条的房源信息,从中我们发现了什么,发 ...

最新文章

  1. 用tf的VocabularyProcessor使用细节
  2. 单调队列(一套模板通吃)
  3. 在 Azure Resource Manager 中为虚拟机设置密钥保管库
  4. Go语言实时GC - 三色标记算法
  5. 利用MMCM IP核产生用户时钟
  6. 跟我一起写一个chrome扩展程序
  7. android 状态模式,Android编程设计模式之状态模式详解
  8. Postman 导出 curl命令 到命令行运行 Mac OS
  9. OFFICE专业增强版2016 32位安装VISIO出错记录
  10. PS、PR素材资源网站
  11. RADIUS协议基础原理
  12. 直通串口线与交叉串口线的区分
  13. ERP - 国际贸易术语(Incoterm)总结
  14. 【Java8新特性】Stream流
  15. HTTPSConnectionPool(host=‘music.163.com‘, port=443): Max retries exceeded with url: /weapi/comment/
  16. hystrix 配置了较大的核心线程数导致wating线程过多的问题
  17. 视频去水印,图集去水印工具分享
  18. 小镇走出的大厂女程序员,也害怕努力后仍一无所获
  19. 【MM小贴士】SAP采购订单创建参考采购申请的强控
  20. qq邮箱服务器在哪里设置密码,手把手教程 邮箱这样设置,就对了

热门文章

  1. 利用爬虫将Yuan先生的博客文章爬取下来
  2. Datadog 笔记
  3. 【校招VIP】互联网校招项目实习对项目的要求不重要?大错特错!你忽略掉的项目考察重点都在这里!
  4. 播客接棒在线音频的盈利梦
  5. 12.使用 CSS3 实现响应式推荐卡片
  6. odoo-email邮箱配置
  7. Redis安装、配置与相关优化
  8. 继续摘抄:postfix最新源码病毒过滤和反垃圾实战篇
  9. IDEA中同窗口导入新的maven项目
  10. 杭电oj11页 (c++) 31-40