用bs爬取安居客优秀经理人信息
目标
1、安居客二手房,随便一个城市,选择优秀经纪人,爬取所有页数
网址:http://beijing.anjuke.com/tycoon/p/
过程
1、在网页源代码中找到所需要的数据
2、用bs提取出所需要的信息,代码如下
#encoding=utf8
import re
import urllib
import urllib2
from bs4 import BeautifulSoup #导入bs
url = 'http://beijing.anjuke.com/tycoon/p'
for page in range(1,11):url1 = url+str(page)+'/'print url1# 不传入headers的话无法访问user_agent = "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:49.0) Gecko/20100101 Firefox/49.0"headers = {"User-Agent": user_agent}request = urllib2.Request(url1, headers=headers)response = urllib2.urlopen(request)html = response.read()# pages = urllib.urlopen(url)# html = pages.read()soup = BeautifulSoup(html, 'html.parser')# print html# print(soup.prettify())title = soup.find_all('div',class_='jjr-itemmod') #所需的信息在这个大的div标签内# print titlefor til in title:part1 = til.find('div',class_='jjr-info').get_text('|',strip=True).encode('utf-8')#一个标签里包含了多条数据,用|分隔开part3 = part1.replace(' ','')part4 = part3.replace('\n','')part2 = til.find('div',class_='jjr-side').get_text(strip=True).encode('utf-8')#去掉空格回车等不需要的东西# print '-->',part4,'<--' #查看取出的内容with open('anjuke.txt','a+') as AJ:AJ.write(part4+'|'+part2+'\n')
用bs爬取安居客优秀经理人信息相关推荐
- python3 beautiful爬取安居客的二手房信息
今天有一位同学找我爬取安居客的信息,安居客网站有反爬虫机制,所以不能简单用requests来做,这里用selenium来模拟获取url网页. 环境 mac, python3.7 beautifulso ...
- 利用Python中的BeautifulSoup库爬取安居客第一页信息
题目: 网址为https://beijing.anjuke.com/sale/, 利用BeautifulSoup库,爬取第1页的信息,具体信息如下:进入每个房源的页面,爬取小区名称.参考预算.发布时间 ...
- Python爬取安居客经纪人信息
Python爬取安居客经纪人信息 Python2.7.15 今天我们来爬取安居客经纪人的信息.这次我们不再使用正则,我们使用beautifulsoup.不了解的可以先看一下这个文档,便于理解.http ...
- 爬虫爬取安居客二手房和新房信息,你是买新房还是二手的呢?
本文主要讲解爬取安居客买房类别中的二手房和新房,将提取的信息存储在记事本中,也可以转存CSV格式或者MongoDB中. 网站HTML信息提取比较简单,没有什么特别的地方,作为爬虫入门可以让初学者快速了 ...
- python爬虫爬取安居客并进行简单数据分析
此篇博客为普通方式爬取安居客租房数据一共提取出1200条,但是在进行大规模的数据爬取时,不建议使用这种方式,速度太慢是最大的诟病,在进行大规模爬取时,使用分布式爬虫是第一选择 爬取过程 一.指定爬取数 ...
- Python爬取安居客新房信息
由于是刚开始学习Python爬虫,做个简单的爬虫,提供一个学习思路. 由于水平有限,正则表达式写的实在是抠脚,就直接上BeautifulSoup了. BeautifulSoup的学习参考http:// ...
- python爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
- 爬取安居客租房信息,主要是获取电话号码
爬取安居客租房信息,主要是获取电话号码 想要得到个人房源的电话只能在app上获取,而且获取的是虚拟号码,没什么作用.所以我们这次获取的是经纪人房源的电话号码,随便打开一个网页,可以看到. 他的电话号码 ...
- python爬取房源数据_python爬取安居客二手房网站数据(实例讲解)
是小打小闹 哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构:作为一名河南的学生,那就看看郑州的二手房信息吧! 在上面这个页面中,我们可以看到一条条的房源信息,从中我们发现了什么,发 ...
最新文章
- 用tf的VocabularyProcessor使用细节
- 单调队列(一套模板通吃)
- 在 Azure Resource Manager 中为虚拟机设置密钥保管库
- Go语言实时GC - 三色标记算法
- 利用MMCM IP核产生用户时钟
- 跟我一起写一个chrome扩展程序
- android 状态模式,Android编程设计模式之状态模式详解
- Postman 导出 curl命令 到命令行运行 Mac OS
- OFFICE专业增强版2016 32位安装VISIO出错记录
- PS、PR素材资源网站
- RADIUS协议基础原理
- 直通串口线与交叉串口线的区分
- ERP - 国际贸易术语(Incoterm)总结
- 【Java8新特性】Stream流
- HTTPSConnectionPool(host=‘music.163.com‘, port=443): Max retries exceeded with url: /weapi/comment/
- hystrix 配置了较大的核心线程数导致wating线程过多的问题
- 视频去水印,图集去水印工具分享
- 小镇走出的大厂女程序员,也害怕努力后仍一无所获
- 【MM小贴士】SAP采购订单创建参考采购申请的强控
- qq邮箱服务器在哪里设置密码,手把手教程 邮箱这样设置,就对了