爬虫修正:裁判文书网20200901更新增加登录系统

  • 一、登录系统的增加
  • 二、增加登录函数
  • 三、一个比较纠结的地方

一、登录系统的增加


导致需要登录,直接是无法进入了。以往可以直接进入具体的类别如

现在无法进入,点击该网址,后跳转到登录界面

需要通过手机号进行注册后才可以进入

二、增加登录函数

    def login(self):"""登录"""# 切换框架wait = self.waitself.browser.refresh()frame = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="contentIframe"]')))self.browser.switch_to.frame(frame)click = wait.until(EC.presence_of_element_located((By.XPATH, '/html/body/app-root/div/app-login/div/div/form/div/div[1]/input')))# actions.move_to_element(click).click().perform()# click.click()click.send_keys("自己的手机号")time.sleep(1)click1 = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'input.ng-invalid')))# click1.clear()click1.send_keys("密码")time.sleep(1)#等一秒是最优选择,短了网络错误button1 = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.custom-button')))button1.click()# 必须加上表单退出,否者就是死元素无法定位self.browser.switch_to.default_content()# 新版改变,导致无法直接进入刑事click = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="_view_1540966819000"]/div/ul/li[2]/a')))click.click()

这里有个比较奇怪的地方就在于我传入的url是具体页面,但是登录后并不跳转,于是通过元素在此点击进入,但是再次点击后形成新的标签页,而原标签页此时就开始跳转了,导致出现两个一样的标签页,虽然也没有什么关系,但是终究不完美

下载成功

三、一个比较纠结的地方

通过手机号登录后其实比较怕后台通过查账号频率而封掉自己的账号,但是9月1号开始的注册,现在的接码平台手机号已经很多被注册了(怀疑有许多商业公司爬取了这些手机号进行了批量注册),可能得花钱去接码平台注册了!!!

之前下载的可以进行更新:链接: 登录函数.

最新的下载:链接: 裁判文书爬虫20200901.

爬虫修正:裁判文书网20200901更新增加登录系统相关推荐

  1. 2023-5裁判文书网数据库更新

    裁判文书网日更新量相对以前有所减少,目前更新量近1.4亿条,做了一些分析报告,研究了一些类案-- 持续更新中,为一些法律工作者提供一些辅助. 相关事宜,之前的博文有相应介绍.

  2. 裁判文书网 爬虫 升级最新版本0.7 更新时间2020-12-17

    接上一篇文件:裁判文书网 爬虫 最新更新2020-08-12  https://blog.csdn.net/myhot/article/details/108046389 本次升级主要已支持写入mys ...

  3. 2021-04-01裁判文书网数据python爬虫更新下载

    长期持续更新数据 2020-11-08裁判文书网数据python爬虫更新下载添加链接描述 截至3月已从数据库中下载1亿1200万条裁判文书数据,有需要数据的伙伴可以(。・∀・)ノ゙嗨前台QQ7900- ...

  4. 2020-11-08裁判文书网数据python爬虫更新下载

    2020年9月1日更新 文书网2020年8月31日晚更新之后就需要手机注册验证登录了,所以,账号是个问题. 分析 1. 登录 比较简单哦,主要难题是多账号的登录及session的更新维护. 2.其它 ...

  5. python 爬虫 裁判文书网 19年4月更新版

    完整版代码github地址:https://github.com/Monster2848/caipanwenshu 爬虫主体逻辑: import re import time import pymon ...

  6. python爬取裁判文书并分析_裁判文书网爬虫攻克

    最近因为公司需要爬取裁判文书网的某一类别文章数据,于是简单研究了一下,发现网站数据全是js加载的,于是想都没想直接用selenium尝试爬取,没想到竟然有selenium都抓取不到的js(刚毕业的py ...

  7. Python爬虫Selenium手动接管Edge爬取裁判文书网“环境污染”数据(Mac环境)

    目标数据:爬取从2007年到2022年,各地级市中级法院历年关于"环境污染"的裁判文书数量. 由于裁判文书网需要登录,Selenium手动接管爬取可避免频繁登录造成的封号风险. S ...

  8. 2022-03-06裁判文书网(分析)数据更新

    越来越忙,也越来越懒了,没空更新博客了,一些新进的知识点没好好做整理,发不成文章更是要排版(费时间)--然后就没然后了[]( ̄▽ ̄)* 去年裁判文书网的数据上网量比前年有所减少,总量增加不大,截至20 ...

  9. 爬取裁判文书网(一)

    1.裁判文书网地址 http://wenshu.court.gov.cn/ 2.网站分析 (1)网站类型是动态网站. (2)网页源代码中并没有我们想要的页面内容,且引用许多js代码. (3)查看列表页 ...

最新文章

  1. 程序员4月书讯:Angular来了!
  2. 页码太靠上怎么办_有些宝宝到了二岁不会说话怎么办
  3. python3.8新特性 逻辑表达式_python 3.8 新特性
  4. 2020年电赛题目,命题专家们怎么看?
  5. 04 组件与Props
  6. 利用photoshop制作gif图片
  7. 【LeetCode笔记】48. 旋转图像(Java、矩阵、偏数学、原地算法)
  8. 一套完整的Selenium自动化测试框架设计实战,这次38K, 妥了
  9. pager-taglib 使用说明
  10. 为什么说图形数据库是大数据时代的利器?
  11. 增加特征对预测准确率的影响
  12. 构建数据指标预警系统
  13. keil5工程函数无法跳转到函数定义解决方法
  14. conda:未找到命令
  15. 电子计算机上面的mrc是什么意思,计算器上 M MRC GT CE MU 键分别是什么意思?
  16. 使用certbot openresty执行获取 Let’s Encrypt https 免费证书
  17. Android APP过检安全整改
  18. Nginx推流负载均衡配置
  19. linux内存镜像技术,GitHub - oscomp/proj61-linux-address-range-memory-mirroring: Linux 内核内存镜像功能增强。...
  20. 如何将文字转化为语音?方法超级简单,立马就能学会配音

热门文章

  1. Portal技术白皮书
  2. 不要说别人陀、菜这样的话,大家都是喜欢得到承认的
  3. 深度学习真的working吗
  4. 迅雷5单磁极 v5.9.99.999【单文件-下磁力】解除敏感资源限制
  5. Ubuntu下U盘没有不能新建粘贴文件 报错 [sdf] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
  6. 搭建svn://模式的svn服务器
  7. 智汇云舟参编《工业数字孪生白皮书(2021)》成为工业互联网联盟“工业解决方案备选提供商”
  8. luogu P2862 [USACO06JAN]Corral the Cows G
  9. 『网易实习』周记(二)
  10. java Object 重写toString方法