裁判文书网数据采集爬虫2021-08
裁判文书网的反爬主要分为两部分,第一部分是请求列表页的data内有两个加密的参数:
(1).ciphertext
(2).__RequestVerificationToken
这两个参数的加密方式其实很容易就能找到,通过chrome的network的全局搜索就可以找到这三个参数加密的js代码,只需要拷贝下来之后使用pyexecjs模块来运行这些js其实就可以获得这三个加密的参数了,然后放到post请求的data内去请求就可以返回数据了。
列表页主要就这些东西,需要注意的是需要登录以后的cookie,然后返回的内容是一段cryptojs
加密的数据,控制台一搜就有了,其他没啥难度,主要难搞的一个是登录,一个是全量数据的采集(因为每个查询条件只能查看1000条数据)现在网站显示的数据总量有1.2+亿(遍历了好久才搞到1.18亿数据,有需要私聊~)
@staticmethoddef get_r_token():"""获取查询时候的参数__RequestVerificationToken:return: 返回 __RequestVerificationToken 的值"""__RequestVerificationToken = ""arr = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's','t', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V','W', 'X', 'Y', 'Z']for i in range(24):__RequestVerificationToken += random.choice(arr)return __RequestVerificationToken# 获取列表页请求参数data = {'s8': '02','pageId': '0.7196306041899458', # random()'sortFields': 's51:desc', 'ciphertext': self.get_ciphertext(),'pageNum': str(page),'pageSize': '10','queryCondition': '[]','cfg': 'com.lawyee.judge.dc.parse.dto.SearchDataDsoDTO@queryDoc','__RequestVerificationToken': self.get_r_token()}
response = requests.post('https://wenshu.court.gov.cn/website/parse/rest.q4w', headers=self.headers, data=data, verify=False,cookies=self.get_token(username), proxies=self.pro)
第二部分就是详情数据,这一块其实没啥说的,也就是这些东西,返回值也是一堆加密数据,需要解密后保存
data = {'docId': doc_id,'ciphertext': self.get_ciphertext(),'cfg': 'com.lawyee.judge.dc.parse.dto.SearchDataDsoDTO@docInfoSearch','__RequestVerificationToken': self.get_r_token()}
扣:MTE2MjE5NzI3OA==
base64
需要Base64 在线编码解码 | Base64 加密解密 - Base64.us
裁判文书网数据采集爬虫2021-08相关推荐
- 裁判文书网数据采集爬虫记录2023-03
又升级了,现在没法使用s41发布日期查数据了, 列表页docid也变成动态的了,过几个小时就会过期, 列表页也不返回发布时间了,原来列表页还能直接查500条,现在也不行了. 风控变的很严格了,动不动就 ...
- python爬取裁判文书并分析_裁判文书网爬虫攻克
最近因为公司需要爬取裁判文书网的某一类别文章数据,于是简单研究了一下,发现网站数据全是js加载的,于是想都没想直接用selenium尝试爬取,没想到竟然有selenium都抓取不到的js(刚毕业的py ...
- python 爬虫 裁判文书网 19年4月更新版
完整版代码github地址:https://github.com/Monster2848/caipanwenshu 爬虫主体逻辑: import re import time import pymon ...
- 裁判文书网 爬虫 最新更新2020-08-12
该程序采用Node模拟人工操作,自动获取页面内容,并将获取的数据保存到excel中(每1000条保存一个文件,可以设置保存的条数).excel文件内容如下图: 声明:本文章是以学习和交流为目的,数据源 ...
- 裁判文书网 爬虫 升级最新版本0.7 更新时间2020-12-17
接上一篇文件:裁判文书网 爬虫 最新更新2020-08-12 https://blog.csdn.net/myhot/article/details/108046389 本次升级主要已支持写入mys ...
- 2021-04-01裁判文书网数据python爬虫更新下载
长期持续更新数据 2020-11-08裁判文书网数据python爬虫更新下载添加链接描述 截至3月已从数据库中下载1亿1200万条裁判文书数据,有需要数据的伙伴可以(。・∀・)ノ゙嗨前台QQ7900- ...
- 2020-11-08裁判文书网数据python爬虫更新下载
2020年9月1日更新 文书网2020年8月31日晚更新之后就需要手机注册验证登录了,所以,账号是个问题. 分析 1. 登录 比较简单哦,主要难题是多账号的登录及session的更新维护. 2.其它 ...
- 爬虫修正:裁判文书网20200901更新增加登录系统
爬虫修正:裁判文书网20200901更新增加登录系统 一.登录系统的增加 二.增加登录函数 三.一个比较纠结的地方 一.登录系统的增加 导致需要登录,直接是无法进入了.以往可以直接进入具体的类别如 现 ...
- Python爬虫Selenium手动接管Edge爬取裁判文书网“环境污染”数据(Mac环境)
目标数据:爬取从2007年到2022年,各地级市中级法院历年关于"环境污染"的裁判文书数量. 由于裁判文书网需要登录,Selenium手动接管爬取可避免频繁登录造成的封号风险. S ...
- 爬取裁判文书网(一)
1.裁判文书网地址 http://wenshu.court.gov.cn/ 2.网站分析 (1)网站类型是动态网站. (2)网页源代码中并没有我们想要的页面内容,且引用许多js代码. (3)查看列表页 ...
最新文章
- printf(%d, -10u); 这个输出什么呀, 0或1?
- Dropout也能自动化?
- Linux如何编译安装源码包软件
- 开源数据库连接池之Tomcat内置连接池
- android控件属性文档,1.Android控件属性收集
- mysql select 查询选后5个_mysql 查询select语句汇总
- 【计算机系统设计】重点 · 学习笔记(0)(数据通路设计思想)
- Vue快速入门笔记(一)
- 队列C++ | 用链表实现队列_2
- c++ 线程软件看门狗_装配生产线MES系统软件
- java freemarker_Java: FreeMarker的配置和使用
- Python+matplotlib数据可视化鼠标悬停自动标注功能实现
- VS2008的C++TR1库已经支持正则表达式
- 880 芯片组 服务器 cpu,顶级双核处理器对决 皓龙880完胜至强
- 函数 注释规范_Go语言编码规范
- 数据科学家最常用的十种算法和方法
- 技术简报 2014-1-27
- 想学java编程从哪入手_初学编程从哪方面入手?
- oracle如何禁用索引,oracle 禁用索引
- 三菱plc pwm指令_【三菱PLC指令教程】步进指令STL和RET(单序列状态转移图编程)