第一步。首先下载,大神者也的倒立文字验证码识别程序

下载地址:https://github.com/muchrooms/zheye

注意:此程序依赖以下模块包

  Keras==2.0.1
  Pillow==3.4.2
  jupyter==1.0.0
  matplotlib==1.5.3
  numpy==1.12.1
  scikit-learn==0.18.1
  tensorflow==1.0.1
  h5py==2.6.0

numpy-1.13.1+mkl

我们用豆瓣园来加速安以上依赖装如:

pip install -i https://pypi.douban.com/simple h5py==2.6.0

如果是win系统,可能存在安装失败的可能,如果那个包安装失败,就到 http://www.lfd.uci.edu/~gohlke/pythonlibs/  找到win对应的版本下载到本地安装,如:

pip install h5py-2.7.0-cp35-cp35m-win_amd64.whl

第二步,将者也的,验证码识别程序的zheye文件夹放到工程目录里

第三步,爬虫实现

start_requests()方法,起始url函数,会替换start_urls

Request()方法,get方式请求网页
  url=字符串类型url
  headers=字典类型浏览器代理
  meta=字典类型的数据,会传递给回调函数
  callback=回调函数名称

scrapy.FormRequest()post方式提交数据
  url=字符串类型url
  headers=字典类型浏览器代理
  meta=字典类型的数据,会传递给回调函数
  callback=回调函数名称
  formdata=字典类型,要提交的数据字段

response.headers.getlist('Set-Cookie') 获取响应Cookies
response.request.headers.getlist('Cookie') 获取请求Cookies

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest
import reclass PachSpider(scrapy.Spider):                            #定义爬虫类,必须继承scrapy.Spidername = 'pach'                                           #设置爬虫名称allowed_domains = ['zhihu.com']                    #爬取域名# start_urls = ['']                                     #爬取网址,只适于不需要登录的请求,因为没法设置cookie等信息header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #设置浏览器用户代理def start_requests(self):    #起始url函数,会替换start_urls"""第一次请求一下登录页面,设置开启cookie使其得到cookie,设置回调函数"""return [Request(url='https://www.zhihu.com/#signin',headers=self.header,meta={'cookiejar':1},       #开启Cookies记录,将Cookies传给回调函数callback=self.parse)]def parse(self, response):# 响应CookiesCookie1 = response.headers.getlist('Set-Cookie')                            #查看一下响应Cookie,也就是第一次访问注册页面时后台写入浏览器的Cookieprint('后台首次写入的响应Cookies:',Cookie1)#获取xsrf密串xsrf = response.xpath('//input[@name="_xsrf"]/@value').extract()[0]print('获取xsrf密串:' + xsrf)#获取验证码import timet = str(int(time.time()*1000))captcha_url = 'https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=cn'.format(t)   #构造验证码请求地址yield Request(url=captcha_url,                                                         #请求验证码图片headers=self.header,meta={'cookiejar':response.meta['cookiejar'],'xsrf':xsrf},               #将Cookies和xsrf密串传给回调函数callback=self.post_tj)def post_tj(self, response):with open('yzhm.jpg','wb') as f:        #打开图片句柄f.write(response.body)              #将验证码图片写入本地f.close()                           #关闭句柄#--------------------------------------------者也验证码识别------------------------------------------from zheye import zheye                 #导入者也倒立文字验证码识别模块对象z = zheye()                             #实例化对象positions = z.Recognize('yzhm.jpg')     #将验证码本地路径传入Recognize方法识别,返回倒立图片的坐标# print(positions)                      #默认倒立文字的y坐标在前,x坐标在后#知乎网要求的倒立文字坐标是x轴在前,y轴在后,所以我们需要定义一个列表来改变默认的,倒立文字坐标位置pos_arr = []if len(positions) == 2:if positions[0][1] > positions[1][1]:                      #判断列表里第一个元祖里的第二个元素如果大于,第二个元祖里的第二个元素pos_arr.append([positions[1][1],positions[1][0]])pos_arr.append([positions[0][1], positions[0][0]])else:pos_arr.append([positions[0][1], positions[0][0]])pos_arr.append([positions[1][1], positions[1][0]])else:pos_arr.append([positions[0][1], positions[0][0]])print('处理后的验证码坐标',pos_arr)# --------------------------------------------者也验证码识别结束------------------------------------------if len(pos_arr) == 2:data = {                                                                    # 设置用户登录信息,对应抓包得到字段'_xsrf': response.meta['xsrf'],'password': '279819','captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f],[%.2f,%f]]}' %(pos_arr[0][0] / 2, pos_arr[0][1] / 2, pos_arr[1][0] / 2, pos_arr[1][1] / 2),  #因为验证码识别默认是400X88的尺寸所以要除以2'captcha_type': 'cn','phone_num': '15284816568'}else:data = {                                                                    # 设置用户登录信息,对应抓包得到字段'_xsrf': response.meta['xsrf'],'password': '279819','captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f]]}' %(pos_arr[0][0] / 2, pos_arr[0][1] / 2),'captcha_type': 'cn','phone_num': '15284816568'}print('登录提交数据',data)print('登录中....!')"""第二次用表单post请求,携带Cookie、浏览器代理、用户登录信息,进行登录给Cookie授权"""return [scrapy.FormRequest(url='https://www.zhihu.com/login/phone_num',                        #真实post地址meta={'cookiejar':response.meta['cookiejar']},                      #接收第传过来的Cookiesheaders=self.header,formdata=data,callback=self.next)]def next(self,response):# 请求CookieCookie2 = response.request.headers.getlist('Cookie')print('登录时携带请求的Cookies:',Cookie2)jieg = response.body.decode("utf-8")   #登录后可以查看一下登录响应信息print('登录响应结果:',jieg)print('正在请需要登录才可以访问的页面....!')"""登录后请求需要登录才能查看的页面,如个人中心,携带授权后的Cookie请求"""yield Request(url='https://www.zhihu.com/people/lin-gui-xiu-41/activities',headers=self.header,meta={'cookiejar':True},callback=self.next2)def next2(self,response):# 请求CookieCookie3 = response.request.headers.getlist('Cookie')print('查看需要登录才可以访问的页面携带Cookies:',Cookie3)leir = response.xpath('/html/head/title/text()').extract()  #得到个人中心页面print('最终内容',leir)# print(response.body.decode("utf-8"))

转载于:https://www.cnblogs.com/meng-wei-zhi/p/8182711.html

二十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别...相关推荐

  1. Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站

    Python分布式爬虫打造搜索引擎 基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...

  2. 三十五 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点

    1.分布式爬虫原理 2.分布式爬虫优点 3.分布式爬虫需要解决的问题 转载于:https://www.cnblogs.com/meng-wei-zhi/p/8182813.html

  3. 三十四 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy信号详解

    信号一般使用信号分发器dispatcher.connect(),来设置信号,和信号触发函数,当捕获到信号时执行一个函数 dispatcher.connect()信号分发器,第一个参数信号触发函数,第二 ...

  4. 第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理...

    第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-深度优先与广度优先原理 网站树形结构 深度优先 是从左到右深度进行爬取的,以深度为准则从左到右的执行(递归方式实现)Scrapy默认 ...

  5. 第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念...

    第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)的基本概念 elasticsearch的基本概念 1.集群:一个或者多个节点组织在一起 2.节点 ...

  6. 第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图...

    第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲-爬虫和反爬的对抗过程以及策略-scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...

  7. Python分布式爬虫打造搜索引擎

    Python分布式爬虫打造搜索引擎 基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 未来是什么时代?是数据时代!数据分析服务.互联网金融,数据建模.自 ...

  8. 学习python-day02-25---转自Python分布式爬虫打造搜索引擎Scrapy精讲

    第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...

  9. 学习python-day02-24---转自Python分布式爬虫打造搜索引擎Scrapy精讲

    第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口 官方说明:https://www.e ...

最新文章

  1. [Android Studio] Android Studio常用快捷键
  2. mysql输出非零列_如何只提取mysql和php中具有非零值的列?
  3. Fill in blank -Thermal experiment theory and technology2018-01-06
  4. java 什么是耦合_什么是耦合、解耦
  5. oracle数据库编程实验2答案,Oracle数据库-作业2-答案
  6. 6 月 4 日!苹果 WWDC 2018 或重点推出 iOS 12 系统
  7. Java 接口中使用数组缺点的理由
  8. Python出现‘ascii‘ codec can‘t encode characters...的解决方法
  9. 全国大学生软件测试大赛Web应用测试(八)Web众包测试具体流程
  10. 惠普台式计算机耳机插口,hp电脑耳机插孔没声音的解决方法
  11. 史上最全的MathCAD安装教程
  12. c#获取软件版本、windows用户名、windows用户目录、.net版本、windows版本等
  13. MATLAB2018a解压文件损坏,文件解压失败与压缩文件文件已经损坏的解决办法
  14. 华中邀请四届 WHU1567 Sloth's Angry
  15. “数据分析”岗位分析
  16. 关于VMD相关介绍(二)
  17. C语言共用体中,共用体变量的规律
  18. 通往大国之路 中国的知识重建和文明复兴
  19. 火山引擎徐鑫:工程师如何与云原生共同成长
  20. hp服务器看网卡位置,HP SuperDome确定网卡所在物理位置的方法:

热门文章

  1. SQL死锁知识及解决办法
  2. jsp_el内置对象pageContext和Cookie
  3. 01_01 JSP基础语法之Scriptlet
  4. 雅虎网站页面性能优化的34条黄金守则(转)
  5. javascript学习之对象基础
  6. 《网友世界》杂志:2010“最不给力”软件
  7. msf win10漏洞_【CVE20200796】漏洞复现
  8. python爬取所有数据_入门用Python进行Web爬取数据:为数据科学项目提取数据的有效方法...
  9. idea 修改样式要编译_在IDEA中DEBUG Javac源码
  10. RocketMQ(六)—IndexFile详解