裁判文书网数据采集爬虫2021-08

裁判文书网的反爬主要分为两部分，第一部分是请求列表页的data内有两个加密的参数：

(1).ciphertext

(2).__RequestVerificationToken

这两个参数的加密方式其实很容易就能找到，通过chrome的network的全局搜索就可以找到这三个参数加密的js代码，只需要拷贝下来之后使用pyexecjs模块来运行这些js其实就可以获得这三个加密的参数了，然后放到post请求的data内去请求就可以返回数据了。

列表页主要就这些东西，需要注意的是需要登录以后的cookie，然后返回的内容是一段cryptojs

加密的数据，控制台一搜就有了，其他没啥难度，主要难搞的一个是登录，一个是全量数据的采集（因为每个查询条件只能查看1000条数据）现在网站显示的数据总量有1.2+亿（遍历了好久才搞到1.18亿数据，有需要私聊~）

    @staticmethoddef get_r_token():"""获取查询时候的参数__RequestVerificationToken:return: 返回 __RequestVerificationToken 的值"""__RequestVerificationToken = ""arr = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's','t', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V','W', 'X', 'Y', 'Z']for i in range(24):__RequestVerificationToken += random.choice(arr)return __RequestVerificationToken# 获取列表页请求参数data = {'s8': '02','pageId': '0.7196306041899458',  # random()'sortFields': 's51:desc',  'ciphertext': self.get_ciphertext(),'pageNum': str(page),'pageSize': '10','queryCondition': '[]','cfg': 'com.lawyee.judge.dc.parse.dto.SearchDataDsoDTO@queryDoc','__RequestVerificationToken': self.get_r_token()}
response = requests.post('https://wenshu.court.gov.cn/website/parse/rest.q4w', headers=self.headers, data=data, verify=False,cookies=self.get_token(username), proxies=self.pro)

第二部分就是详情数据，这一块其实没啥说的,也就是这些东西，返回值也是一堆加密数据，需要解密后保存

data = {'docId': doc_id,'ciphertext': self.get_ciphertext(),'cfg': 'com.lawyee.judge.dc.parse.dto.SearchDataDsoDTO@docInfoSearch','__RequestVerificationToken': self.get_r_token()}

扣：MTE2MjE5NzI3OA==

base64

需要Base64 在线编码解码 | Base64 加密解密 - Base64.us

裁判文书网数据采集爬虫2021-08相关推荐

裁判文书网数据采集爬虫记录2023-03
又升级了,现在没法使用s41发布日期查数据了, 列表页docid也变成动态的了,过几个小时就会过期, 列表页也不返回发布时间了,原来列表页还能直接查500条,现在也不行了. 风控变的很严格了,动不动就 ...
python爬取裁判文书并分析_裁判文书网爬虫攻克
最近因为公司需要爬取裁判文书网的某一类别文章数据,于是简单研究了一下,发现网站数据全是js加载的,于是想都没想直接用selenium尝试爬取,没想到竟然有selenium都抓取不到的js(刚毕业的py ...
python 爬虫裁判文书网 19年4月更新版
完整版代码github地址:https://github.com/Monster2848/caipanwenshu 爬虫主体逻辑: import re import time import pymon ...
裁判文书网爬虫最新更新2020-08-12
该程序采用Node模拟人工操作,自动获取页面内容,并将获取的数据保存到excel中(每1000条保存一个文件,可以设置保存的条数).excel文件内容如下图: 声明:本文章是以学习和交流为目的,数据源 ...
裁判文书网爬虫升级最新版本0.7 更新时间2020-12-17
接上一篇文件:裁判文书网爬虫最新更新2020-08-12 https://blog.csdn.net/myhot/article/details/108046389 本次升级主要已支持写入mys ...
2021-04-01裁判文书网数据python爬虫更新下载
长期持续更新数据 2020-11-08裁判文书网数据python爬虫更新下载添加链接描述截至3月已从数据库中下载1亿1200万条裁判文书数据,有需要数据的伙伴可以(｡･∀･)ﾉﾞ嗨前台QQ7900- ...
2020-11-08裁判文书网数据python爬虫更新下载
2020年9月1日更新文书网2020年8月31日晚更新之后就需要手机注册验证登录了,所以,账号是个问题. 分析 1. 登录比较简单哦,主要难题是多账号的登录及session的更新维护. 2.其它 ...
爬虫修正：裁判文书网20200901更新增加登录系统
爬虫修正:裁判文书网20200901更新增加登录系统一.登录系统的增加二.增加登录函数三.一个比较纠结的地方一.登录系统的增加导致需要登录,直接是无法进入了.以往可以直接进入具体的类别如现 ...
Python爬虫Selenium手动接管Edge爬取裁判文书网“环境污染”数据（Mac环境）
目标数据:爬取从2007年到2022年,各地级市中级法院历年关于"环境污染"的裁判文书数量. 由于裁判文书网需要登录,Selenium手动接管爬取可避免频繁登录造成的封号风险. S ...
爬取裁判文书网(一)
1.裁判文书网地址 http://wenshu.court.gov.cn/ 2.网站分析 (1)网站类型是动态网站. (2)网页源代码中并没有我们想要的页面内容,且引用许多js代码. (3)查看列表页 ...

裁判文书网数据采集爬虫2021-08

裁判文书网数据采集爬虫2021-08相关推荐

最新文章

热门文章