很久以前研究过中国土地市场网(www.landchina.com),当时只抓取了一个城市的数据2万多条的数据,当时只是觉得服务器经常宕机,还没有发现有怎么反爬虫的限制。最近空闲准备把所以的数据抓取下来(大约250万的成交公告),发现网站做了些防爬虫的策略,同时发现网站快了很多,同时访问也变成了https协议。

经过几天的摸索主要解决网站的三种防止爬虫策略:

1、[通过cookie验证,三次跳转,两次取得cookie的简单安全策略。](https://www.tngou.net/blog/show/23)2、[通过cookie验证,通过图片验证码取得cookie认证的高级安逸认识。](https://www.tngou.net/blog/show/24)3、[通过woff字体对文章类容进行加密(土地公告)。](https://www.tngou.net/blog/show/25)

第一种和第二种都是cookie访问限制,也只有带有合法的cookie才能访问数据,两者是切换限制;这里我先说明第一种解决方案,后期在讲解后面的方案。

第一次跳转:

当我们直接请求链接 https://www.landchina.com/

返回数据:

<script type="text/javascript">function stringToHex(str) {……}function YunSuoAutoJump() {……var curlocation = window.location.href;if ( - 1 == curlocation.indexOf("security_verify_")) {document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";}self.location = "/?security_verify_data=" + stringToHex(screendate);}
</script>
<script>setTimeout("YunSuoAutoJump()", 50);
</script>

看他的基本功能是在cookie添加了一个srcurl参数;然后在跳转到该链接添加security_verfy_data=参数;

并且返回cookie参数:security_session_verify=

第二次跳转:

通过第一次YunSuoAutoJump()方法并且带有cookie访问https://www.landchina.com/?security_verfy_data=xxxxx
cookie包括security_session_verify和srcurl两个

返回数据:

<script type="text/javascript">function stringToHex(str) {……}function YunSuoAutoJump() {……var curlocation = window.location.href;if ( - 1 == curlocation.indexOf("security_verify_")) {document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";}self.location = "/" ;}
</script>
<script>setTimeout("YunSuoAutoJump()", 50);
</script>

看返回的还是一次跳转,和第一次参不多,其目的也就是为了再次取得cookie

并且返回cookie参数:security_session_mid_verify=

第三次跳转:

这里就跳转https://www.landchina.com/ 网站地址,这是这里的cookie多带了两个security_session_verify和security_session_mid_verify 其中只要security_session_mid_verify就可以;后期访问直接用security_session_mid_verify做完cookie值访问就可以;并且不用每次验证,只要当security_session_mid_verify失效过后在取得security_session_mid_verify就可以。

总结:通过两次取得cookie,三次跳转访问认证验证;我们就可以取得认证的cookie;当然我们也可以用模拟浏览器selenium浏览器自动进行跳转;然后取得浏览器中的cookie,两种方式都可行。当知己用请求的方式更快捷,并发性更高,而且加上IP代理更方便.

中国土地市场网爬虫——浏览器Cookie验证(简单)相关推荐

  1. 中国土地市场爬虫——浏览器cookie验证(图片验证码)

    通过我上篇博客:中国土地市场网爬虫--浏览器Cookie验证(简单) 讲述了中国土地市场网(www.landchina.com)的三种验证方式. 该网站的三种防止爬虫策略 1.通过cookie验证,三 ...

  2. 中国土地市场网爬虫——字体woff加密还原

    通过我上篇博客:中国土地市场网爬虫--浏览器Cookie验证(简单) 和中国土地市场爬虫--浏览器cookie验证(图片验证码)讲述了中国土地市场网(www.landchina.com)的两种访问限制 ...

  3. 中国土地市场网爬虫案例

    本案例以土地市场列表页请求.供地结果搜索页请求为例,其实网站采集难度不大,但是一些细节值得学习. 链接:https://www.landchina.com/default.aspx?tabid=263 ...

  4. 【2020-09-30】一个适合爬虫练手的网站--中国土地市场网

    声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 项目场景: 想必做过爬虫的工程师,都接触过中国土地市场网这个网站吧,网上也有很多相关的爬取方式介绍,我看了几篇往年 ...

  5. 中国天气网爬虫数据可视化

    目录 中国天气网爬虫数据可视化 爬虫功能 网页分析 以华北地区为例分析网页源代码 1.以谷歌浏览器为例分析 2. 提取特征标签 3.分析源代码 利用requests库获取目标网页源代码 利用Beaut ...

  6. 中国土地市场网-js解密

    一.背景 目标链接:http://www.landchina.com/default.aspx?tabid=226 ,中国土地市场网,获取相应的行政区代码.标题.详情页链接和发布时间 二.过程 1.确 ...

  7. python爬虫爬取中国天气网_【实战】中国天气网爬虫之华北城市数据爬取

    概述: 在人工智能来临的今天,数据显得格外重要.在互联网的浩瀚大海洋中,隐藏着无穷的数据和信息.因此学习网络爬虫是在今天立足的一项必备技能.本路线专门针对想要从事Python网络爬虫的同学而准备的,并 ...

  8. 2012年中国土地市场网数据(含经纬度)

    数据集名称:2012年中国土地市场网数据(含经纬度) 时间范围:2012年 相关说明:土地市场是土地在流通过程中发生的经济关系的总和.主体是土地买卖双方,客体是土地,主体之间的种种利益关系构成了市场. ...

  9. 最新中国土地市场网JS逆向分析

    目标网址:中国土地市场网 重要说明:文章教程仅供参考学习,请勿用于非法用途,否则后果自负. 目录 一.接口参数分析 二.程序代码编写

最新文章

  1. sdut 2140 有向图中是否存在拓扑序列的判断
  2. Android之用SingleTask和TaskAffinity解决手机截取的项目启动页面问题
  3. 前端基础-HTML的的标签详解
  4. Linux编程简介——VI
  5. 【JUnit】Junit命令行执行、参数化执行、Main方法执行
  6. C#LeetCode刷题-脑筋急转弯
  7. 在微型计算机系统中 下列叙述正确的是,全国2011年10月高等教育自学考试计算机应用基础试题及答案...
  8. Eclipse下maven使用嵌入式(Embedded)Neo4j创建Hello World项目
  9. 谈谈我对Java并发的理解——读《Java并发编程实战有感》
  10. bilibili 韩顺平Java后端学习路线
  11. 投资学翻译及感悟 Lazy Prices
  12. Matlab 除法取整
  13. EnableQ在线问卷调查引擎(DataSheet/下载)
  14. 计算机专业窗体的事件何时触发,高三计算机专业VB试题(六)1
  15. 数据科学 IPython 笔记本 8.16 地理数据和 Basemap
  16. 三星android安装到sd卡,三星怎么安装sd卡 三星手机怎么安装sim卡
  17. Mermaid制作甘特图
  18. Unity镜头光晕模拟开源库
  19. armbian开启ssh_armbian笔记
  20. Mysql查看数据库和表占用空间

热门文章

  1. 120个极品网站 收集历时2年 - 计算机应用 - 迅雷论坛
  2. 【转】从P1到P7——我在淘宝这7年
  3. 2021衡阳田家炳高考成绩查询,快讯!2020年衡阳各学校高考成绩揭晓!
  4. 【爬虫专栏18】多线程爬笔趣阁遮天
  5. 聊天会话常用JS/CSS代码
  6. 面向商业市场,华为式“抢滩登陆”
  7. Bootstrap框架和vue哪个好-天道酬勤
  8. html是网页病毒吗,无弹窗浏览器 目前最具效果性的防网页病毒软件
  9. 6 怎么选公司?面试3大招,离职都有哪些事宜要注意--绝密,程序员大厂面试求职大揭秘!
  10. 【第163期】游戏策划做游戏:用UnityBolt实现游泳功能