数据包括切割好的验证文字信息和验证图片块


word_patch_message{"number":2930,"shape": (25,175,3),"Deduplication":true
}
image_patch_message{"number":23593,"shape" :(67,67,3),"Deduplication":true
}

数据下载地址
================================================
Sorry 服务器欠费已停用,现给出爬虫代码及切图代写
================================================
1、爬取验证图片

#coding:u8
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
import requests
import base64
import re
import time
import os
import _threaddef getImage(name):login_url="https://kyfw.12306.cn/otn/resources/login.html"driver = webdriver.Chrome()driver.get(login_url)count=0while 1:count+=1if not os.path.exists(name):os.mkdir(name)     driver.find_element_by_class_name("login-hd-account").click()try: time.sleep(2)img_element =WebDriverWait(driver, 100).until(EC.presence_of_element_located((By.ID, "J-loginImg")))base64_str=img_element.get_attribute("src").split(",")[-1]imgdata=base64.b64decode(base64_str)pname=os.path.join("verify",name+str(count)+".jpg")print(pname)with open(pname,'wb') as file:file.write(imgdata)except Exception as e:print(u"网络开小差,请稍后尝试")  driver.refresh()
print("start")
try:_thread.start_new_thread(getImage,("THREAD-1",))_thread.start_new_thread(getImage,("THREAD-2",))    _thread.start_new_thread(getImage,("THREAD-3",))_thread.start_new_thread(getImage,("THREAD-4",))
except Exception as e:print("启动失败")
while 1:pass

爬虫开了4个线程,将验证图片放入4个文件夹中,请自行归并到一个文件夹下,供切图使用
2、切图

#coding:u8
import cv2
import os
if not os.path.exists("12306_dataset_obj"):os.mkdir("12306_dataset_obj")
if not os.path.exists("12306_dataset_word"):os.mkdir("12306_dataset_word")
for batch,file_name in enumerate(os.listdir("verify")):print(u"处理第{:>9}张图".format(batch+1))im=cv2.imread("verify/{}".format(file_name),1)patch=[im[0:25,120:290],im[41:108,5:72],im[41:108,77:144],im[41:108,149:216],im[41:108,221:288],im[113:180,5:72],im[113:180,77:144],im[113:180,149:216],im[113:180,221:288]]for i,item in enumerate(patch):if i is not 0:cv2.imwrite("12306_dataset_obj/{}.jpg".format(batch*8+i),item)else:cv2.imwrite("12306_dataset_word/{}.jpg".format(batch+1),item)

12306 登录验证数据下载(未标定)相关推荐

  1. python爬取12306列车信息自动抢票并自动识别验证码(二)selenium登录验证篇

    项目前言 自学python差不多有一年半载了,这两天利用在甲方公司搬砖空闲之余写了个小项目--[12306-tiebanggg-master]注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一时 ...

  2. 12306滑块验证登录分析

    1.检测登录验证 请求 URL: https://kyfw.12306.cn/passport/web/checkLoginVerify 请求方法: POST 状态代码: 200 OK 请求表单 us ...

  3. python 抢票代码 猫眼演出_python爬取猫眼票房的数据,遇到美团登录验证怎么办...

    import requests from fake_useragent import UserAgent import base64 from lxml import etree from reque ...

  4. Kaggle注册登陆验证问题、数据下载问题

    (1)kaggle注册无法验证问题 下载安装谷歌助手,里面有详细步骤 http://www.ggfwzs.com/ (2)kaggle 下载数据手机验证码问题 格式: +860手机号

  5. wps js宏模拟cookie绕过网站登录验证请求数据

    首先说明wps js宏还没有调用Win系统组件的方法,这里用shell函数调用cmd命令来执行nodejs https模块相关代码,需要安装node.js,并且对node.js.npm有一定了解. 以 ...

  6. 【python教程入门学习】自动抢票之 12306 登录篇

    逢年过节 12306 的票总是要靠抢,前几天小编就在抢周一去上海的票,实在是抢不到呀,就撸了一个自动抢票的脚本. 抢票的思路就是使用 selenium 模拟用户登录 12306 网站购票行为,登录后抓 ...

  7. Mongodb For Mac OSX 登录验证

    题外话:尽管有不少人贴出了 <我不用mongodb的十大理由> 等系列文章,但是 NoSQL 的发展不会因此而止步, mongodb 是 NoSQL 的典型代表,楼主还是抱乐观态度的,有人 ...

  8. 自动抢票之 12306 登录篇

    逢年过节 12306 的票总是要靠抢,实在是抢不到呀,就撸了一个自动抢票的脚本. 抢票的思路就是使用 selenium 模拟用户登录 12306 网站购票行为,登录后抓取 12306 网站火车票数据并 ...

  9. TRMM降水数据下载和处理

    TRMM降水数据下载和处理 折腾一天,终于搞定如何批量下载和处理TRMM降水数据.文中经验均本人实际操作,步骤参考网上诸多博客和文档,已注明出处,如有不妥联系本人删除. TRMM数据是什么? 参考飞舞 ...

  10. 计算机网络探究二之利用PHP实现登录验证之后上网

    综述 在上一篇文章中,客户机可以借助路由机直接上网,并没有什么登录限制.接下来我们将加入上网登录验证,只有输入了正确的用户名和密码才可以通过验证,然后才可以访问互联网. 接下来,就跟随我用PHP来实现 ...

最新文章

  1. 在Vue的webpack中结合runder函数
  2. UE4 custom depth 自定义深度
  3. Git 常用命令速查表(图文+表格)【转】
  4. Windows 系统如何查看本机的 IP 地址
  5. 台式机电脑配置单_游戏直播电脑配置要求2019,附配置单及价格
  6. jquery:临时禁止鼠标滚动 How to disable scrolling temporarily?
  7. GOF之行为型模式Ⅰ(重点)
  8. 微型计算机常用的语言B,2012河南省计算机等级考试试题 二级C试题(必备资料)
  9. Node组件——Express简介
  10. tar.gz 和 tar.bz2 详细解释
  11. Nginx学习日记第五篇 -- upstream及fastcgi
  12. 设置“文件共享”,方便两台主机共享文件
  13. 项目管理之WBS工作分解结构法
  14. vm虚拟机出现目标主机不支持CPUID的情况
  15. 计算机桌面的文件拒绝访问,文件或文件夹拒绝访问的解决方法
  16. Exception | 优雅的输出Exception异常信息
  17. 发散性思维工具(思维导图)推荐
  18. cart细胞高效制备流程
  19. 骁龙820 html5 dom,苹果iPhone 7 A10处理器探秘:这项性能 11倍于骁龙820!
  20. 提交代码时提示Could not read from remote repository.

热门文章

  1. 数值计算方法”上机实验指导书——实验一 误差分析
  2. 所需即所获:像IDE一样使用 vim
  3. c语言控制科学计数法指数位数,控制科学计数法的指数位数
  4. hive sql 正则表达式
  5. Mqtt 客户端 java API 教程
  6. 黑群晖数据迁移白群晖(DS 920+)
  7. 基于JAVA高校实习实训管理系统计算机毕业设计源码+数据库+lw文档+系统+部署
  8. ML之FE:利用【数据分析+数据处理】算法对国内某平台上海2020年6月份房价数据集【12+1】进行特征工程处理(史上最完整,建议收藏)——附录
  9. 【神经网络】RBF神经网络逼近任意连续非线性函数的Simulink仿真
  10. IDEA+Java+SSM+Mysql+Bootstrap+Maven实现网上书城系统