scrapy 爬取麦田二手房信息
用scrapy写了个爬虫,爬取麦田北京二手房信息,一共爬取了11718条,也遇到了一些问题
- 页数限制
比如访问北京市二手房只显示100页的数据,后面的数据访问不到,只能通过每个地区来爬取。在前端发现地区的信息使用json的格式写在前端,直接拿来用了。
- ip限制
被网址识别出来是爬虫就会被禁止访问一段时间,用ip代理可以解决。我是在网上找的免费的ip代理,不稳定,还是挺折腾的。
爬取过程
访问每个二级地区,看看多少页,把每一页的链接保存到数据库。然后就从数据库获取待链接爬取数据,查重,保存数据,被禁止访问,过一段时间再来,哈哈。保存的数据
Cycle
url
zufang
各地区售房数量
index_id | district | count |
---|---|---|
1 | 朝阳 | 6139 |
2 | 海淀 | 1822 |
3 | 丰台 | 828 |
4 | 东城 | 727 |
5 | 大兴 | 672 |
6 | 昌平 | 624 |
7 | 西城 | 445 |
8 | 石景山 | 168 |
9 | 通州 | 150 |
10 | 顺义 | 140 |
11 | 门头沟 | 3 |
每平方售价
房子售价
房子面积
scrapy 爬取麦田二手房信息相关推荐
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
- scrapy爬取——阿里招聘信息
scrapy爬取--阿里招聘信息 爬取网站地址: https://job.alibaba.com/zhaopin/positionList.htm 1.创建项目 进入项目目录 输入cmd进入都是窗口创 ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
- 别再说难了,年轻小伙教你如何爬取“新一线城市”二手房信息
别再说难了,年轻小伙教你如何爬取"新一线城市"二手房信息 主页面信息爬取 主页面分析 主页面url获取 获取页面数据 页面数据解析及保存 详情页 url 数据 详情页信息爬取 详情 ...
- R言rvest包爬取南京二手房信息
R语言的理论学习也已经有一段时间了,数据分析的基础就是要获取数据,在如今的互联网时代,获取网络数据成为了数据分析师必不可少的随身技能,本篇就模仿R语言爬虫利器:rvest包+SelectorGadge ...
- scrapy 爬取拉勾网职位信息
需求:1.使用python爬虫框架,爬取拉勾网职位信息, 2.将爬取的职位信息存储到json格式的文件中 3.将爬取的数据进行数据分析 1.图片中的链接是职位列表页的链接,进行翻页,该链接没有变化,无 ...
- scrapy爬取唯品会运动鞋信息并进行简单的数据处理和分析
唯品会爬虫 一.环境准备 二.问题分析 三.spider 三.item 四.setting 五.pipelines 六.使用jupyter进行简单的数据处理和分析 一.环境准备 1. python3. ...
- 使用python scrapy爬取全国小区信息(包括小区价格,经纬度,面积,户数等),并保存到mysql和excel
目标 此次爬取的网站是楼盘网,因为只爬取小区信息,所以先从深圳小区(http://sz.loupan.com/community/)网页入手分析,然后发散爬取至全国. 爬取的信息包括 省,所属市,所属 ...
最新文章
- Flex 弹性盒基本语法
- python3 线程隔离_Python并发编程之线程中的信息隔离(五)
- 《AlwaysRun!团队》第四次作业:项目需求调研与分析
- java epoll select_最新阿里、拼多多、快手Java岗面试题269 道送答案
- java 友好时间显示_仿微信的IM聊天时间显示格式(含iOS/Android/Web实现)[图文+源码]...
- 机器人 瓷砖墙面清洗_墙壁清洁机器人解析
- 电脑运行java游戏,电脑运行软件卡顿?这几招游戏或是办公,让你速度飞起!...
- Python 中文Key 报错问题
- 创业当然比守业难太多
- jquery 省市区联动插件
- epson r1900 清零软件_爱普生打印机清零软件
- Flash Builder4与Flash cs4 协同工作
- android 距离测量工具,尺子距离测量app
- HDU 6080 度度熊保护村庄 (叉积判断点线关系+图论)
- Choerodon猪齿鱼实践之Webhook配置
- 彻底弄明白Gradle相关配置
- Android旗舰机与苹果,真正的旗舰之王!iPhone和国产安卓旗舰机,谁才能够当之无愧?...
- 根据经纬度计算距离(百度地图)
- QAxObject 读写 excel
- 【modlearts】华为人工智能平台_modelarts平台系列教程3_预置算法_语音处理3