一个简单的验证码爬取程序

本文介绍了在Python2.7环境下爬取网站验证码:

  • 思路就是获取验证码对应的url,然后发起requst请求,读取该URL对应的内容,然后写入到一个本地文件,实现一个验证码的保存。大量下载可以把以上程序写入一个死循环

代码实现部分:

import ssl
import urllib2
i=1
import time
while(1):#不加的话,无法访问12306  ssl._create_default_https_context = ssl._create_unverified_context# headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36"}# req = urllib2.Request("http://211.87.155.19/(yfsvlfreem4d0b553vkfzfzt)/CheckCode.aspx", headers=headers)# https: // www.zhihu.com / captcha.gif?r = 1495351271125 & type = loginreq = urllib2.Request("https://kyfw.12306.cn/otn/passcodeNew/getPassCodeNew?module=login&rand=sjrand&0.7174227166135074")u=urllib2.urlopen(req)data = u.read()f = open("C:/Users/123/Desktop/4/"+str(i)+".jpg",'wb')print i# time.sleep(1)#有时需要加延时,以防被封。i=i+1f.write(data)f.close()

以下就是爬取的照片的截图

12306的验证码经常让人眼花缭乱,眼睛仔细看也不能100%的对,算是验证码中比较难是别的。一般由八幅图和一个问题组成,而且图片大小位置固定,问题的位置也是固定的,这也稍微降低了识别的难度。八幅图中一般有两幅图是同一物体,有一个和它比较像。不过有一点暂时没法确定,就是样本库到底有多大,或者说是到底有多少个类别,如果进行训练的话,我们必须获取每个类别个的一定数量的图片作为样本。

python 爬取12306验证码相关推荐

  1. 2021最新 python爬取12306列车信息自动抢票并自动识别验证码(三)购票篇

    项目前言 tiebanggg又来更新了,项目--[12306-tiebanggg-master]注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一时间进行删除:切忌用于一切非法途径,否则后果自行 ...

  2. 2021最新python爬取12306列车信息自动抢票并自动识别验证码

    项目描述 项目前言 tiebanggg又来更新了,项目--[12306-tiebanggg-master]注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一时间进行删除:切忌用于一切非法途径,否 ...

  3. python爬取12306列车信息自动抢票并自动识别验证码(一)列车数据获取篇

    项目前言 自学python差不多有一年半载了,这两天利用在甲方公司搬砖空闲之余写了个小项目--[12306-tiebanggg-master].注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一 ...

  4. python爬取12306列车信息自动抢票并自动识别验证码(二)selenium登录验证篇

    项目前言 自学python差不多有一年半载了,这两天利用在甲方公司搬砖空闲之余写了个小项目--[12306-tiebanggg-master]注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一时 ...

  5. python 爬取12306数据

    学了好久的 java  换个语言试试 就选择了 简单易学的python ,学了一段时间看到别人都在爬取12306网站的数据,我也尝试尝试,发现 12306网站的数据更新太快.返回的json数据变得越来 ...

  6. Python爬取12306车票信息

    Python3爬取12306车票信息 第一次写爬虫,咱从入门级--12306车票爬取 开始 我们要爬取的信息是https://www.12306.cn/index/上的车票信息 当我们选择出发地和目的 ...

  7. 使用python爬取12306上面所有车次数据

    在爬取12306之前需要做的工作就是: 1,分析请求过程 2,分析是否需要处理cookie 3,编写代码 4,测试爬取网站是否有访问次数限制 5,部署到正式服务器上 这里重点写 如何分析请求过程: 这 ...

  8. Python爬取12306(火车票分析助手)!

    说明文字: 1.本项目只是一个练习,熟悉python爬虫技术,没有任何用途 2.最后运行的结果有时候会成功,有时候会显示错误界面,如下图所示.因为12306怎么可能允许你一直爬它呢 准备工作: 下载数 ...

  9. python爬取12306(火车票分析助手)

    说明文字: 1.本项目只是一个练习,熟悉python爬虫技术,没有任何用途 2.最后运行的结果有时候会成功,有时候会显示错误界面,如下图所示.因为12306怎么可能允许你一直爬它呢 开发工具准备: 开 ...

  10. python爬取12306实现按车次查询余票

    前言 本篇博客想写很久了,以前抢票时不知道你们有没有这种情况,比如你想买郑州到长春k926这个车次的票,但是车票买完了抢不到票,于是我就想多买几站看没有票,其实也贵不了多少.也就是说我想多买几站买这个 ...

最新文章

  1. 硬不硬你说了算!近 40 张图解被问千百遍的 TCP 三次握手和四次挥手面试题
  2. Linux中的简单文本处理
  3. Java面试笔试题大汇总一(最全+详细答案)
  4. 炒股Java_基于java计算买卖股票的最佳时机
  5. 算法:恢复二叉搜索树
  6. spring日志报错提醒_使用爬虫框架htmlunit整合springboot出现的一个不兼容问题
  7. eclipse mysql5.7_MySQL5.7、Navicate、jdk、Tomcat、eclipse全套配置及安装(win10)-Go语言中文社区...
  8. IOS之Swift5.x和OC网络请求JSON
  9. python中0xff_强悍的Python读取大文件的解决方案
  10. golang垃圾回收MySQL_Go语言垃圾回收和SetFinalizer
  11. Pandas Timedelta对象
  12. python 描述符的应用
  13. 接口说明_接口说明_实时语音识别_智能语音交互-阿里云
  14. 常见前端面试题及答案(下)
  15. 【算法图解】 之 [二分查找法] 详解
  16. 什么是无穷:康托超穷数理论简评
  17. 北邮石川教授:「异质信息网络」研究现状及未来发展
  18. 政府大数据的资源库建设
  19. SpringMVC(8)——格式化转换器Formatter
  20. 浅谈node结合express第三方插件使用跨域

热门文章

  1. 服务器部署dble全流程
  2. java青蛙跳井_数学运算归纳
  3. Mac/Linux查看内网ip与访问公网的ip地址
  4. 打包2阶段-使用reshacker修改打包信息
  5. python3超简代码爬取桌面壁纸
  6. Python web框架之tornado(龙卷风)
  7. 字符编码-带你走出Unicode与UTF-8的误区
  8. GIS招聘 | 中煤航测遥感集团(大量测绘、地信、遥感岗位)
  9. Python实现快速排序
  10. python寻找完全平方数_279 完全平方数(bfs)