在尝试着写一个自动注册steam账号的程序,注册的时候需要验证码,
用pytesseract试着对steam验证码进行识别,但是结果很不理想,几乎没有正确的

得到的验证码结果,下一步尝试着训练个模型来识别验证码
cnn验证码识别链接
cnn验证码识别


import requests
import time
import jsonlogin_url ='https://store.steampowered.com/login'
refreshcaptcha_url = 'https://store.steampowered.com/join/refreshcaptcha/'
captcha_base_url = 'https://store.steampowered.com/login/rendercaptcha?'req = requests.session()
headers1={'Referer': 'https://store.steampowered.com/join','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',}headers2 = {'Accept': 'text/javascript, text/html, application/xml, text/xml, */*','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Connection': 'keep-alive','Content-Length': '7','Content-type': 'application/x-www-form-urlencoded; charset=UTF-8','Host': 'store.steampowered.com','Origin': 'https://store.steampowered.com','Referer': 'https://store.steampowered.com/join','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36','X-Prototype-Version': '1.7','X-Requested-With': 'XMLHttpRequest',
#        'Cookie':'browserid=1235586424952338655; steamCountry=CN%7Cbf00849a4506938104400d71a29f64be; sessionid=b86d35a5f5d5b57f3b730616; timezoneOffset=28800,0; _ga=GA1.2.321650414.1556974950; _gid=GA1.2.1323839835.1556974950',}headers3={'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Connection': 'keep-alive','Host': 'store.steampowered.com','Referer': 'https://store.steampowered.com/join','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',}#get sessionid browserid steamCountry
_ = req.get(url=login_url,headers=headers1)cookies_dict = requests.utils.dict_from_cookiejar(req.cookies)
browserid = cookies_dict.get('browserid')
sessionid = cookies_dict.get('sessionid')
steamCountry = cookies_dict.get('steamCountry')cookie = requests.cookies.RequestsCookieJar()
cookie.set('browserid',browserid)
cookie.set('sessionid',sessionid)
cookie.set('steamCountry',steamCountry)
cookie.set('browserid',browserid)
cookie.set('timezoneOffset','28800,0')
cookie.set('_ga','GA1.2.321650414.1556974950')
cookie.set('_gid','GA1.2.1323839835.1556974950')def get_captcha_img(i):post_data = {'count':str(i)}#得到gidresponse = req.post(url=refreshcaptcha_url,headers=headers2,data=post_data,cookies=cookie)#print(response.json())gid = response.json().get('gid')print('\ngid\n',gid)captcha_url = captcha_base_url + 'gid=' +gid#根据gid来产生验证码img_content = req.get(url=captcha_url,headers=headers3,cookies=cookie).content   #保存验证码图片with open(r'C:\Users\Administrator\Desktop\captcha\{}.png'.format(i),'wb') as fn:fn.write(img_content)for i in range(200):i=i+783get_captcha_img(i)time.sleep(2)                #设置为2或者更大的值,太小的时候很容易被服务器ban掉

python爬虫获取steam验证码相关推荐

  1. 用Python爬虫破解滑动验证码

    我们可以借用opencv来解决这个问题,主要步骤: opencv 是什么? OpenCV(Open Source Computer Vision Library)是开放源代码计算机视觉库,主要算法涉及 ...

  2. python爬虫获取天猫店铺信息(更新到2020年)

    python爬虫获取天猫店铺信息 爬取需求 在天猫搜索一个关键词,然后抓取这个关键词下的相关店铺,由于taobao的反爬策略,只能爬取到第十页大概200个店铺的信息. 效果预览 最终爬取的数据用exc ...

  3. python爬虫获取天猫店经营者资质证书(更新到2020.06.13

    python爬虫获取天猫店经营者资质证书(更新到2020.06.13 爬取需求 excel表中给定多个天猫的店铺链接,获取店铺的经营者资质证书,保存为本地图片 代码基于之前写的一个博客https:// ...

  4. 【Python爬虫7】验证码处理

    文章目录 1.获得验证码图片 2.光学字符识别验证码 3.用API处理复杂验证码 3.1 9kw打码平台 3.1.1 提交验证码 3.1.2 请求已提交验证码结果 3.1.2与注册功能集成 验证码(C ...

  5. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

  6. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

  7. 域名带后缀_[Python 爬虫]获取顶级域名及对应的 WHOIS Server 及 whoisservers.txt 下载...

    使用 Python 爬虫获取顶级域名及对应的 WHOIS Server 并保存可用于 WhoisCL.exe 的文件 whois-servers.txt. 环境: Windows 10 Python ...

  8. python爬虫获取url_Python爬虫如何获取页面内所有URL链接?本文详解

    如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  9. python爬虫获取下一页url_Python爬虫获取页面所有URL链接过程详解

    如何获取一个页面内所有URL链接?在python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

最新文章

  1. craigslist_Craigslist,Wikipedia和丰富经济
  2. HTML+CSS基础(2)-HTML标签的简单介绍和网页注释
  3. R语言data.table导入数据实战:data.table使用by函数进行数据分组(aggregate)
  4. tensorflow——openpose代码和原理分析
  5. 算法三:无重复字符的最长子串
  6. 商品pid是什么意思_0基础搞懂自动驾驶传统算法与深度学习的鸿沟-PID控制算法与MLP优化方法...
  7. html5 本地文件操作系统,读取目录 - createReader《 HTML5:文件系统 》
  8. 小米手表外观官宣:方表盘+黑银两色
  9. C++基础::一些接口汇总
  10. python处理excel表格-Python读写Excel表格(简单实用)
  11. 小废物在我面前痛不欲生……(图)
  12. jq实现底部弹框_WPF MVVM 弹框之等待框
  13. JSON网络传输协议
  14. 线序 RS232 RJ45 USB
  15. m132nw与m132snw差异_最新评测揭秘m132nw与m132snw差异哪个好?各个型号有什么区别?用户实话实说...
  16. moectf chall 数独题 z3约束器求解
  17. malloc、calloc、realloc函数讲解
  18. 【技术】BootStrapTable 滚动条控制
  19. Flutter开发日常练习-小猫咪杂货店(新增欢迎页,广告页和侧滑页面)
  20. [禅悟人生]疑问是成长的标志

热门文章

  1. 【Python基础学习笔记day08】python变量的基本使用+变量定义ipython+pycharm+超市买苹果+变量的类型+关于函数+变量的格式化输出+个人名片案例
  2. P6-570更换rootvg镜像故障硬盘之我和小伙伴都惊呆了
  3. U9服务器显示不全,U9常见技术问题分析与解决.docx
  4. 锐龙r7 6800h性能怎么样 相当于什么水平
  5. BasicVSR论文阅读笔记
  6. 福州室外婚纱摄影哪家好?
  7. 无法将“xxx”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试一次。
  8. 笔记 | 数据分析产品未来范式的小结(增强分析、智能交互等)
  9. SpringBoot 整合实现RabbitMQ
  10. Intranet+Intranet QA-11/20 游记