中国裁判文书网全网最新爬虫分析

本文主要介绍交流一下裁判文书网的爬去规则，我主要是因为公司要求而去分析这个网站的，一看是看该网站服务器各种卡，蛋疼。用python的selenium模块去写太麻烦了，做不到大量爬取，迫不得已自己不断研究，终于攻破了该网站的js代码参数

思路主要通过python去破解网站js的加密数据。该网站请求数据都是通过post请求的，分析一下header，会发现，它是一个post请求，请求的表单数据包括param、index、page、order、direction、vl5x、number、guid这几个参数。很显然，param是查询字符串，index是页码，page是一页展示的数据量，order是排序方式，其中，vl5x、number、guid是js代码加密生成得可变参数。一次性向对方服务器发送请求后获取相应得数据得。

现在最关键得是如何解密这三个参数？我主要用得是python得PyV8模块去调度js代码，列出代码中使用得python模块。

找一个浏览器里已经用过的vl5x去post ListContent，返回的是remind key，因此这个vl5x值是实时计算生成的。

到底这个值是怎么计算的呢，既然浏览器能算出vl5x的值，那算法应该隐藏在网页的JS文件中。好吧，继续找，在Lawyee.CPWSW.List.js文件里找到了这段代码：

vl5x的值是是用getKey()函数算出来的，而getKey里面传入得参数是你每次登陆网站，自动给你分配得动态cookies而产生得。

这样我们就可以得到vl5x动态参数。接下来就是比较麻烦得guid参数了，guid其实是一个动态的随机生成参数，附上python代码：

然后拿这个guid参数取请求该网站的getcode网址，拿到number参数。

这样我们三个参数同时拿到，一次性向服务器发送请求，获取数据

这样我们就可以直接获取大量的司法文书数据了，展示一下效果

大家可以有问题可以和我交流学习，这个技术分享出来，希望可以帮到更多的人。

作者：再敲一串代码
链接：https://www.jianshu.com/p/da54d322ba31
來源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

转载于:https://www.cnblogs.com/palace/p/9686525.html

中国裁判文书网全网最新爬虫分析相关推荐

中国裁判文书网----最最最详细爬虫----基于各位大佬的帖子---更新一版----步骤不详细？你打死我本爬虫编写日期：2019-07-30
目录一.吐槽二.参考三.爬取目标以及爬取思路 1.爬取目标 2.爬取思路四.破解(重头戏) 1.发现加密参数得过程 1.1 暴力请求案件详情页 2.破解案件列表页请求参数 2.1 解密num ...
2020-11-08裁判文书网数据python爬虫更新下载
2020年9月1日更新文书网2020年8月31日晚更新之后就需要手机注册验证登录了,所以,账号是个问题. 分析 1. 登录比较简单哦,主要难题是多账号的登录及session的更新维护. 2.其它 ...
2021-04-01裁判文书网数据python爬虫更新下载
长期持续更新数据 2020-11-08裁判文书网数据python爬虫更新下载添加链接描述截至3月已从数据库中下载1亿1200万条裁判文书数据,有需要数据的伙伴可以(｡･∀･)ﾉﾞ嗨前台QQ7900- ...
Python中国裁判文书网
一:介绍中国裁判文书网(http://wenshu.court.gov.cn/)是中国司法部门的官方网站,提供全国各级法院的裁判文书和审判流程信息. 二:数据获取
Scrapy框架爬取中国裁判文书网案件数据
Scrapy框架爬取中国裁判文书网案件数据项目Github地址: https://github.com/Henryhaohao/Wenshu_Spider 中国裁判文书网 - http://wens ...
中国裁判文书网改版之后抓取--2019-01-10
一.裁判文书网难点:vl5x.number.guid 三个参数(内容.列表抓取必须的参数). guid 生成规则页面源码里面找,非常简单,是一段js代码. number ~~向 http://wens ...
爬虫中国裁判文书网参考链接
1.git有详细代码scrapy https://github.com/zc3945/caipanwenshu 简书,分析过程 https://www.jianshu.com/p/bac8b9be98 ...
2019-11-30中国裁判文书网数据爬虫更新
数据一共:8000w
[失败] 网易云音乐爬虫分析
网易云音乐js破解分析大家好,我是W 最近在搞毕设相关的材料,所以很久没有敲代码和写博客了.刚好,一个同学有个需求,要获取网易云音乐的歌曲id和封面地址,然后用外链播放.相当于在他的系统里加一个小功 ...
Python与R协同完成【中国裁判文书网】文书内容爬取
概述: 目标网站:http://wenshu.court.gov.cn/ 核心:爬取每份文书的DocID 请求URL:http://wenshu.court.gov.cn/List/ListConte ...

中国裁判文书网全网最新爬虫分析

中国裁判文书网全网最新爬虫分析相关推荐

最新文章

热门文章