中国土地市场网爬虫——浏览器Cookie验证(简单)
很久以前研究过中国土地市场网(www.landchina.com),当时只抓取了一个城市的数据2万多条的数据,当时只是觉得服务器经常宕机,还没有发现有怎么反爬虫的限制。最近空闲准备把所以的数据抓取下来(大约250万的成交公告),发现网站做了些防爬虫的策略,同时发现网站快了很多,同时访问也变成了https协议。
经过几天的摸索主要解决网站的三种防止爬虫策略:
1、[通过cookie验证,三次跳转,两次取得cookie的简单安全策略。](https://www.tngou.net/blog/show/23)2、[通过cookie验证,通过图片验证码取得cookie认证的高级安逸认识。](https://www.tngou.net/blog/show/24)3、[通过woff字体对文章类容进行加密(土地公告)。](https://www.tngou.net/blog/show/25)
第一种和第二种都是cookie访问限制,也只有带有合法的cookie才能访问数据,两者是切换限制;这里我先说明第一种解决方案,后期在讲解后面的方案。
第一次跳转:
当我们直接请求链接 https://www.landchina.com/
返回数据:
<script type="text/javascript">function stringToHex(str) {……}function YunSuoAutoJump() {……var curlocation = window.location.href;if ( - 1 == curlocation.indexOf("security_verify_")) {document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";}self.location = "/?security_verify_data=" + stringToHex(screendate);}
</script>
<script>setTimeout("YunSuoAutoJump()", 50);
</script>
看他的基本功能是在cookie添加了一个srcurl参数;然后在跳转到该链接添加security_verfy_data=参数;
并且返回cookie参数:security_session_verify=
第二次跳转:
通过第一次YunSuoAutoJump()方法并且带有cookie访问https://www.landchina.com/?security_verfy_data=xxxxx
cookie包括security_session_verify和srcurl两个
返回数据:
<script type="text/javascript">function stringToHex(str) {……}function YunSuoAutoJump() {……var curlocation = window.location.href;if ( - 1 == curlocation.indexOf("security_verify_")) {document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";}self.location = "/" ;}
</script>
<script>setTimeout("YunSuoAutoJump()", 50);
</script>
看返回的还是一次跳转,和第一次参不多,其目的也就是为了再次取得cookie
并且返回cookie参数:security_session_mid_verify=
第三次跳转:
这里就跳转https://www.landchina.com/ 网站地址,这是这里的cookie多带了两个security_session_verify和security_session_mid_verify 其中只要security_session_mid_verify就可以;后期访问直接用security_session_mid_verify做完cookie值访问就可以;并且不用每次验证,只要当security_session_mid_verify失效过后在取得security_session_mid_verify就可以。
总结:通过两次取得cookie,三次跳转访问认证验证;我们就可以取得认证的cookie;当然我们也可以用模拟浏览器selenium浏览器自动进行跳转;然后取得浏览器中的cookie,两种方式都可行。当知己用请求的方式更快捷,并发性更高,而且加上IP代理更方便.
中国土地市场网爬虫——浏览器Cookie验证(简单)相关推荐
- 中国土地市场爬虫——浏览器cookie验证(图片验证码)
通过我上篇博客:中国土地市场网爬虫--浏览器Cookie验证(简单) 讲述了中国土地市场网(www.landchina.com)的三种验证方式. 该网站的三种防止爬虫策略 1.通过cookie验证,三 ...
- 中国土地市场网爬虫——字体woff加密还原
通过我上篇博客:中国土地市场网爬虫--浏览器Cookie验证(简单) 和中国土地市场爬虫--浏览器cookie验证(图片验证码)讲述了中国土地市场网(www.landchina.com)的两种访问限制 ...
- 中国土地市场网爬虫案例
本案例以土地市场列表页请求.供地结果搜索页请求为例,其实网站采集难度不大,但是一些细节值得学习. 链接:https://www.landchina.com/default.aspx?tabid=263 ...
- 【2020-09-30】一个适合爬虫练手的网站--中国土地市场网
声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 项目场景: 想必做过爬虫的工程师,都接触过中国土地市场网这个网站吧,网上也有很多相关的爬取方式介绍,我看了几篇往年 ...
- 中国天气网爬虫数据可视化
目录 中国天气网爬虫数据可视化 爬虫功能 网页分析 以华北地区为例分析网页源代码 1.以谷歌浏览器为例分析 2. 提取特征标签 3.分析源代码 利用requests库获取目标网页源代码 利用Beaut ...
- 中国土地市场网-js解密
一.背景 目标链接:http://www.landchina.com/default.aspx?tabid=226 ,中国土地市场网,获取相应的行政区代码.标题.详情页链接和发布时间 二.过程 1.确 ...
- python爬虫爬取中国天气网_【实战】中国天气网爬虫之华北城市数据爬取
概述: 在人工智能来临的今天,数据显得格外重要.在互联网的浩瀚大海洋中,隐藏着无穷的数据和信息.因此学习网络爬虫是在今天立足的一项必备技能.本路线专门针对想要从事Python网络爬虫的同学而准备的,并 ...
- 2012年中国土地市场网数据(含经纬度)
数据集名称:2012年中国土地市场网数据(含经纬度) 时间范围:2012年 相关说明:土地市场是土地在流通过程中发生的经济关系的总和.主体是土地买卖双方,客体是土地,主体之间的种种利益关系构成了市场. ...
- 最新中国土地市场网JS逆向分析
目标网址:中国土地市场网 重要说明:文章教程仅供参考学习,请勿用于非法用途,否则后果自负. 目录 一.接口参数分析 二.程序代码编写
最新文章
- sdut 2140 有向图中是否存在拓扑序列的判断
- Android之用SingleTask和TaskAffinity解决手机截取的项目启动页面问题
- 前端基础-HTML的的标签详解
- Linux编程简介——VI
- 【JUnit】Junit命令行执行、参数化执行、Main方法执行
- C#LeetCode刷题-脑筋急转弯
- 在微型计算机系统中 下列叙述正确的是,全国2011年10月高等教育自学考试计算机应用基础试题及答案...
- Eclipse下maven使用嵌入式(Embedded)Neo4j创建Hello World项目
- 谈谈我对Java并发的理解——读《Java并发编程实战有感》
- bilibili 韩顺平Java后端学习路线
- 投资学翻译及感悟 Lazy Prices
- Matlab 除法取整
- EnableQ在线问卷调查引擎(DataSheet/下载)
- 计算机专业窗体的事件何时触发,高三计算机专业VB试题(六)1
- 数据科学 IPython 笔记本 8.16 地理数据和 Basemap
- 三星android安装到sd卡,三星怎么安装sd卡 三星手机怎么安装sim卡
- Mermaid制作甘特图
- Unity镜头光晕模拟开源库
- armbian开启ssh_armbian笔记
- Mysql查看数据库和表占用空间
热门文章
- 120个极品网站 收集历时2年 - 计算机应用 - 迅雷论坛
- 【转】从P1到P7——我在淘宝这7年
- 2021衡阳田家炳高考成绩查询,快讯!2020年衡阳各学校高考成绩揭晓!
- 【爬虫专栏18】多线程爬笔趣阁遮天
- 聊天会话常用JS/CSS代码
- 面向商业市场,华为式“抢滩登陆”
- Bootstrap框架和vue哪个好-天道酬勤
- html是网页病毒吗,无弹窗浏览器 目前最具效果性的防网页病毒软件
- 6 怎么选公司?面试3大招,离职都有哪些事宜要注意--绝密,程序员大厂面试求职大揭秘!
- 【第163期】游戏策划做游戏:用UnityBolt实现游泳功能