裁判文书网的反爬主要分为两部分,第一部分是请求列表页的data内有两个加密的参数:

(1).ciphertext

(2).__RequestVerificationToken

这两个参数的加密方式其实很容易就能找到,通过chrome的network的全局搜索就可以找到这三个参数加密的js代码,只需要拷贝下来之后使用pyexecjs模块来运行这些js其实就可以获得这三个加密的参数了,然后放到post请求的data内去请求就可以返回数据了。

列表页主要就这些东西,需要注意的是需要登录以后的cookie,然后返回的内容是一段cryptojs

加密的数据,控制台一搜就有了,其他没啥难度,主要难搞的一个是登录,一个是全量数据的采集(因为每个查询条件只能查看1000条数据)现在网站显示的数据总量有1.2+亿(遍历了好久才搞到1.18亿数据,有需要私聊~)

    @staticmethoddef get_r_token():"""获取查询时候的参数__RequestVerificationToken:return: 返回 __RequestVerificationToken 的值"""__RequestVerificationToken = ""arr = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's','t', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V','W', 'X', 'Y', 'Z']for i in range(24):__RequestVerificationToken += random.choice(arr)return __RequestVerificationToken# 获取列表页请求参数data = {'s8': '02','pageId': '0.7196306041899458',  # random()'sortFields': 's51:desc',  'ciphertext': self.get_ciphertext(),'pageNum': str(page),'pageSize': '10','queryCondition': '[]','cfg': 'com.lawyee.judge.dc.parse.dto.SearchDataDsoDTO@queryDoc','__RequestVerificationToken': self.get_r_token()}
response = requests.post('https://wenshu.court.gov.cn/website/parse/rest.q4w', headers=self.headers, data=data, verify=False,cookies=self.get_token(username), proxies=self.pro)

第二部分就是详情数据,这一块其实没啥说的,也就是这些东西,返回值也是一堆加密数据,需要解密后保存

data = {'docId': doc_id,'ciphertext': self.get_ciphertext(),'cfg': 'com.lawyee.judge.dc.parse.dto.SearchDataDsoDTO@docInfoSearch','__RequestVerificationToken': self.get_r_token()}

扣:MTE2MjE5NzI3OA==

base64

需要Base64 在线编码解码 | Base64 加密解密 - Base64.us

裁判文书网数据采集爬虫2021-08相关推荐

  1. 裁判文书网数据采集爬虫记录2023-03

    又升级了,现在没法使用s41发布日期查数据了, 列表页docid也变成动态的了,过几个小时就会过期, 列表页也不返回发布时间了,原来列表页还能直接查500条,现在也不行了. 风控变的很严格了,动不动就 ...

  2. python爬取裁判文书并分析_裁判文书网爬虫攻克

    最近因为公司需要爬取裁判文书网的某一类别文章数据,于是简单研究了一下,发现网站数据全是js加载的,于是想都没想直接用selenium尝试爬取,没想到竟然有selenium都抓取不到的js(刚毕业的py ...

  3. python 爬虫 裁判文书网 19年4月更新版

    完整版代码github地址:https://github.com/Monster2848/caipanwenshu 爬虫主体逻辑: import re import time import pymon ...

  4. 裁判文书网 爬虫 最新更新2020-08-12

    该程序采用Node模拟人工操作,自动获取页面内容,并将获取的数据保存到excel中(每1000条保存一个文件,可以设置保存的条数).excel文件内容如下图: 声明:本文章是以学习和交流为目的,数据源 ...

  5. 裁判文书网 爬虫 升级最新版本0.7 更新时间2020-12-17

    接上一篇文件:裁判文书网 爬虫 最新更新2020-08-12  https://blog.csdn.net/myhot/article/details/108046389 本次升级主要已支持写入mys ...

  6. 2021-04-01裁判文书网数据python爬虫更新下载

    长期持续更新数据 2020-11-08裁判文书网数据python爬虫更新下载添加链接描述 截至3月已从数据库中下载1亿1200万条裁判文书数据,有需要数据的伙伴可以(。・∀・)ノ゙嗨前台QQ7900- ...

  7. 2020-11-08裁判文书网数据python爬虫更新下载

    2020年9月1日更新 文书网2020年8月31日晚更新之后就需要手机注册验证登录了,所以,账号是个问题. 分析 1. 登录 比较简单哦,主要难题是多账号的登录及session的更新维护. 2.其它 ...

  8. 爬虫修正:裁判文书网20200901更新增加登录系统

    爬虫修正:裁判文书网20200901更新增加登录系统 一.登录系统的增加 二.增加登录函数 三.一个比较纠结的地方 一.登录系统的增加 导致需要登录,直接是无法进入了.以往可以直接进入具体的类别如 现 ...

  9. Python爬虫Selenium手动接管Edge爬取裁判文书网“环境污染”数据(Mac环境)

    目标数据:爬取从2007年到2022年,各地级市中级法院历年关于"环境污染"的裁判文书数量. 由于裁判文书网需要登录,Selenium手动接管爬取可避免频繁登录造成的封号风险. S ...

  10. 爬取裁判文书网(一)

    1.裁判文书网地址 http://wenshu.court.gov.cn/ 2.网站分析 (1)网站类型是动态网站. (2)网页源代码中并没有我们想要的页面内容,且引用许多js代码. (3)查看列表页 ...

最新文章

  1. printf(%d, -10u); 这个输出什么呀, 0或1?
  2. Dropout也能自动化?
  3. Linux如何编译安装源码包软件
  4. 开源数据库连接池之Tomcat内置连接池
  5. android控件属性文档,1.Android控件属性收集
  6. mysql select 查询选后5个_mysql 查询select语句汇总
  7. 【计算机系统设计】重点 · 学习笔记(0)(数据通路设计思想)
  8. Vue快速入门笔记(一)
  9. 队列C++ | 用链表实现队列_2
  10. c++ 线程软件看门狗_装配生产线MES系统软件
  11. java freemarker_Java: FreeMarker的配置和使用
  12. Python+matplotlib数据可视化鼠标悬停自动标注功能实现
  13. VS2008的C++TR1库已经支持正则表达式
  14. 880 芯片组 服务器 cpu,顶级双核处理器对决 皓龙880完胜至强
  15. 函数 注释规范_Go语言编码规范
  16. 数据科学家最常用的十种算法和方法
  17. 技术简报 2014-1-27
  18. 想学java编程从哪入手_初学编程从哪方面入手?
  19. oracle如何禁用索引,oracle 禁用索引
  20. 三菱plc pwm指令_【三菱PLC指令教程】步进指令STL和RET(单序列状态转移图编程)

热门文章

  1. 《零秒工作》的一些总结
  2. PIN track 1000x1000's result
  3. Python Turtle画奥运标志
  4. txt转mobi格式
  5. OpenCV-RGB转HSV
  6. 解决网易云课堂不能进入的问题
  7. 采用esxcli命令操作esxi主机防火墙
  8. 【阿里云】互联网、电商行业实时大数据分析及大屏 DataV 展示最佳实践学习
  9. 【TypeScript系列教程13】String 字符串对象的基本使用
  10. TP-LINK 路由器 无线桥接 设置