我用这样的程序去爬类似的有验证码的网站,都能取到正确的数据。只有这个网站,很奇怪啊!一直验证码错误,我只能用代理IP去爬,程序运行两三次,就会IP封了。求解,之前一直以为是取验证码图片时,验证码刷新了,所以不对。所以我直接取的验证码,然后再去页面get数据。其他网站用这个方法都能行,只有这个一直错误!

!!!!!!补充:我在fiddler里面看到的过程是,首先手动输入验证码点击搜索:1.返回验证码输入的对错(传入验证码作为参数) 2.返回搜索的结果 3.重新生成新的验证码 。问题来了,程序中开始就获取验证码图片是对还是错?应该怎么做呢?我写过的爬虫是验证码传进搜索的url里,作为其中一个参数,这样很容易就取到了。但是现在遇到的是,验证码和搜索url无关,验证码作为参数传入一个url,只是返回验证码错误正确的结果。

#coding=utf-8

#from bs4 import BeautifulSoup

import urllib

import urllib2

import re

import sys

import time

import requests

from PIL import Image

#from pytesser import *

import cookielib

reload(sys)

sys.setdefaultencoding('utf-8')

time=(time.time())

session=requests.session()

user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36'

headers={'User-Agent':user_agent,'Referer':'http://www.jsgsj.gov.cn:58888/mini/netweb/SMLibrary.jsp','Connection':'keep-alive','Host':'www.jsgsj.gov.cn:58888'}

captcha_url='http://www.jsgsj.gov.cn:58888/mini/netWebServlet.json?randImg=true&tmp='+str(time)

print captcha_url

captcha=(session.get(captcha_url,headers=headers)).content

with open('captcha.jpg','wb') as imgfile:

imgfile.write(captcha)

im = Image.open('captcha.jpg')

im.show()

captcha=raw_input("enter captcha:")

url_company='http://www.jsgsj.gov.cn:58888/mini/netWebServlet.json?codeCheck=true&corpName=苏州&yzm='+str(captcha)

html0=session.get(url=url_company,headers=headers)

company=(html0.content)

print (company)

url='http://www.jsgsj.gov.cn:58888/mini/netWebServlet.json?querySMLibrary=true&corpName=苏州&yzm='+str(captcha)+'&pageSize=10&curPage=1&sortName=&sortOrder='

html1=session.get(url=url,headers=headers)

page=(html1.content)

print type(page),page

python 爬虫登录获取数据失败_python 爬虫:验证码一直错误相关推荐

  1. python爬取网页数据软件_python爬虫入门10分钟爬取一个网站

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  2. python爬取网页数据流程_Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  3. python爬虫实现股票数据存储_Python 爬虫 | 股票数据的获取

    最近股市有了一股牛市的味道,我也来蹭波热度,这节我们将爬取股票数据,股票数据在网上很容易找到,这里以某方财富网为例 目标: 爬取股票数据并存储进数据库中(这里以MongoDB为例) 目标网站(base ...

  4. python爬虫实现股票数据存储_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储!...

    Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

  5. python 从地址获取数据失败怎么解决_python面试题大全

    1. (1)python下多线程的限制以及多进程中传递参数的方式 python多线程有个全局解释器锁(global interpreter lock),这个锁的意思是任一时间只能有一个线程使用解释器, ...

  6. python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息

    网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...

  7. python从网上获取数据失败怎么解决_求助:scrapy爬取数据失败,反复调试都不成功...

    目标:爬取某一学习网站上课程信息,前期调试仅获取课程名称 爬虫文件: import scrapy from xtzx.items import XtzxItem from scrapy.http im ...

  8. python爬虫用多线程还是多进程_python爬虫之多线程、多进程爬虫

    多线程对爬虫的效率提高是非凡的,当我们使用python的多线程有几点是需要我们知道的: countdown是一个计数的方法,正常执行它,我们一般使用countdown(10),就可以达到执行的目的,当 ...

  9. python12306自动抢票为什么进入个人中心,python自动登录12306并自动点击验证码完成登录的实现源代码...

    以下代码可自动登录12306 - 包括输入用户名密码以及自动识别验证码并点击验证码登陆.该源码需要稍作修改: 把  username.send_keys('xxxxxxx')  中的  xxxxxx ...

最新文章

  1. 用Leangoo Scrum看板工具做多团队大规模敏捷
  2. SAP 请求号单个传输方法
  3. 看门狗(Watch Dog)是嵌入式系统中一种常用的保证系统可靠性的技术,()会产生看门狗中断。【详细!小白也能看懂!】
  4. JMetro版本8.6.11和11.6.11已发布
  5. Sharding-Proxy分库配置_Sharding-Sphere,Sharding-JDBC分布式_分库分表工作笔记020
  6. 如何解决linux下编译出现的multiple definition of错误
  7. 管理感悟:深入理解软件
  8. ProGuard详解 - Java代码混淆
  9. 零基础通信基础知识入门(4G/5G通信知识入门书籍)
  10. git提交代码至码云
  11. 无电流时二极管压降问题
  12. 在Markdown中打出上下标
  13. vue 实现html转图片和生成二维码
  14. 笔记本硬盘坏了还能恢复数据吗 笔记本硬盘坏了怎么修复
  15. vue 实现 tooltips的效果
  16. python怎样按某一列值拆分Excel表格
  17. VUE 中的搜索关键字
  18. USNews大学排名遭美国计算机研究学会怒怼,指排名荒谬要求撤回
  19. RabbitMQ-2-工作模式及参数配置
  20. 云服务器的购买和使用教程(腾讯云为例)

热门文章

  1. 批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。
  2. PMP自学不报班5A通过经验总结(附PMBOK高清电子书完整书签)
  3. 如何把项目改成微服务项目_微服务拆分那点事
  4. 电信重组又起,对移动软件供应商与SP的影响有哪些!思考:如何从3G网络中找寻我们程序员的价值..
  5. java cms 开源系统_基于Java的开源CMS系统选择
  6. 我的物联网大学【第八章】:跟一个女采购见光死的故事
  7. R语言书籍学习02 《R语言数据分析、挖掘建模与可视化》-第十三章 SVM模型
  8. 恶意软件的沙盒规避技术
  9. 微信通讯录java实现_原生JS实现微信通讯录
  10. Hbase2.3.5安装