年初接到老板任务,让采集下这个网的数据,我一看是网站觉得简单,就说3天搞定,结果这一搞搞了2-3个月。

就这一折腾,就几个月过去了,才慢慢把土地成交200万数据,抵押,转让,一个40万,一个80万,共300多万数据提取下来。

在这之后,就只要慢慢更新就行了,速度不快,也不会对ip和网站本身产生什么影响。

这个网的问题如下,

1、采集太快禁ip

2、页面有200页限制

3、详细页中没有省份信息

4、用代理采集,可以加快速度,结果网站容易挂

5、后来还加了电子 狗加密。

6、经常网站维护

7、网页看似规则,但有几个字段麻烦,爬多了后来发才现。

我习惯用python + scrapy + mysql,目前没有接redis,基本上也够用了。

代码我就没有放了,因为维护的快,网上也有一些,解析基本上大同小异。

主要几点心得就是

1、采集大量数据不能猴急,细水长久,慢慢来,不能并发太多,这网太慢了,有时人工查也慢,容易挂。我看到有人弄这个的网的数据,几个月了,也没弄完,其实就是天天说这出问题,那出问题,其实速度放慢就可以,慢慢来。

2、一般要用数据库,去重,记录上次爬取的状态,或分省,分时间段爬取,在爬虫中断后,可以快速的继续上次的状态,而不用重来一次。

3、有时技术,框架什么的可能都不是很重要,实用为上,可以说我是以时间为代价换成果的

4、注意以上几点,其它的就是技术细节的问题了,都不会太麻烦。

中国土地市场网landchina.com数据采集心得相关推荐

  1. 中国土地市场网-js解密

    一.背景 目标链接:http://www.landchina.com/default.aspx?tabid=226 ,中国土地市场网,获取相应的行政区代码.标题.详情页链接和发布时间 二.过程 1.确 ...

  2. 中国土地市场网爬虫——浏览器Cookie验证(简单)

    很久以前研究过中国土地市场网(www.landchina.com),当时只抓取了一个城市的数据2万多条的数据,当时只是觉得服务器经常宕机,还没有发现有怎么反爬虫的限制.最近空闲准备把所以的数据抓取下来 ...

  3. 中国土地市场网爬虫——字体woff加密还原

    通过我上篇博客:中国土地市场网爬虫--浏览器Cookie验证(简单) 和中国土地市场爬虫--浏览器cookie验证(图片验证码)讲述了中国土地市场网(www.landchina.com)的两种访问限制 ...

  4. 【2020-09-30】一个适合爬虫练手的网站--中国土地市场网

    声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 项目场景: 想必做过爬虫的工程师,都接触过中国土地市场网这个网站吧,网上也有很多相关的爬取方式介绍,我看了几篇往年 ...

  5. 2012年中国土地市场网数据(含经纬度)

    数据集名称:2012年中国土地市场网数据(含经纬度) 时间范围:2012年 相关说明:土地市场是土地在流通过程中发生的经济关系的总和.主体是土地买卖双方,客体是土地,主体之间的种种利益关系构成了市场. ...

  6. 最新中国土地市场网JS逆向分析

    目标网址:中国土地市场网 重要说明:文章教程仅供参考学习,请勿用于非法用途,否则后果自负. 目录 一.接口参数分析 二.程序代码编写

  7. 中国土地市场网爬虫案例

    本案例以土地市场列表页请求.供地结果搜索页请求为例,其实网站采集难度不大,但是一些细节值得学习. 链接:https://www.landchina.com/default.aspx?tabid=263 ...

  8. 中国土地市场网信息爬取--requests+Selenium多线程爬取

    这次爬取的网站是中国土地市场信息网站https://www.landchina.com/default.aspx?tabid=263 先进行观察分析这个.发现这个网站以下有几个特点: 1.网站响应速度 ...

  9. 免费提供中国土地市场网,城市售票网,银行卡号归属地查询,健康驿站房间线上预约系统等分析和代码

    如上图付费专栏的内容我都有,需要的朋友找评论区.

最新文章

  1. Pytorch预训练模型下载并加载(以VGG为例)自定义路径
  2. 深度学习与计算机视觉系列(10)_细说卷积神经网络
  3. angular和JAVA实现aes、rsa加密解密,前后端交互,前端加解密和后端JAVA加解密实现
  4. linux spoon.sh闪退,解决Linux Kettle出现闪退问题
  5. python 石头剪刀布,Python石头剪刀布完整代码
  6. mysql不能访问order,使用ORDER BY时,MySQL不使用索引(“Using filesort”)
  7. php 网络爬虫,爬一下花瓣的图片
  8. 如何查看微信小程序服务器域名并且修改
  9. 小tips:页面滚动到关闭时的位置与不滚动
  10. 物联网芯片+区块链底层融合:紫光展锐开创产业升级新思路
  11. 多媒体——音频——使用录音机录制音频
  12. COMPUTER METHODS AND PROGRAMS IN BIOMEDICINE期刊投稿
  13. 用Xbee实现Arduino之间的无线通信,远程控制小灯
  14. MPX + Vant Weapp 在微信小程序中实现Picker选择器
  15. 积微成巨(1)--collect
  16. 4篇高水平论文认定A类博士!享税后120万安家费!直接入编,三年副教授待遇...
  17. 第6-3课:博弈树与井字棋(Tic-Tac-Toe)
  18. 【python】20行代码实现有道翻译api接口调用
  19. 仿中华英才网城市选择
  20. JavaScript-Ajax

热门文章

  1. 关于Android 12 适配,看这篇就够了
  2. 黑暗之光第2章:角色创建(魔法师和剑士)
  3. java,NIO非阻塞式网络通信DEMO.
  4. 如何将多个PDF文件合并为一个PDF文件?PDF文件合并教程
  5. 梅科尔工作室-许博利-鸿蒙笔记2
  6. 第十三届蓝桥杯(Web 应用开发)线上模拟赛第一题
  7. 【广东开放大学(广东理工职业学院)主办】第二届计算机图形学、人工智能与数据处理国际学术会议(ICCAID 2022)
  8. Linq(1.延迟的查询执行)
  9. 电灯开关-第12届蓝桥杯Scratch省赛2真题第1题
  10. oracle 删除用户 ora-00604,删除用户ORA-00604和ORA-00054