python 爬虫登录获取数据失败_python 爬虫：验证码一直错误

我用这样的程序去爬类似的有验证码的网站，都能取到正确的数据。只有这个网站，很奇怪啊！一直验证码错误，我只能用代理IP去爬，程序运行两三次，就会IP封了。求解，之前一直以为是取验证码图片时，验证码刷新了，所以不对。所以我直接取的验证码，然后再去页面get数据。其他网站用这个方法都能行，只有这个一直错误！

！！！！！！补充：我在fiddler里面看到的过程是，首先手动输入验证码点击搜索：1.返回验证码输入的对错(传入验证码作为参数) 2.返回搜索的结果 3.重新生成新的验证码。问题来了，程序中开始就获取验证码图片是对还是错？应该怎么做呢？我写过的爬虫是验证码传进搜索的url里，作为其中一个参数，这样很容易就取到了。但是现在遇到的是，验证码和搜索url无关，验证码作为参数传入一个url，只是返回验证码错误正确的结果。

#coding=utf-8

#from bs4 import BeautifulSoup

import urllib

import urllib2

import re

import sys

import time

import requests

from PIL import Image

#from pytesser import *

import cookielib

reload(sys)

sys.setdefaultencoding('utf-8')

time=(time.time())

session=requests.session()

user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36'

headers={'User-Agent':user_agent,'Referer':'http://www.jsgsj.gov.cn:58888/mini/netweb/SMLibrary.jsp','Connection':'keep-alive','Host':'www.jsgsj.gov.cn:58888'}

captcha_url='http://www.jsgsj.gov.cn:58888/mini/netWebServlet.json?randImg=true&tmp='+str(time)

print captcha_url

captcha=(session.get(captcha_url,headers=headers)).content

with open('captcha.jpg','wb') as imgfile:

imgfile.write(captcha)

im = Image.open('captcha.jpg')

im.show()

captcha=raw_input("enter captcha:")

url_company='http://www.jsgsj.gov.cn:58888/mini/netWebServlet.json?codeCheck=true&corpName=苏州&yzm='+str(captcha)

html0=session.get(url=url_company,headers=headers)

company=(html0.content)

print (company)

url='http://www.jsgsj.gov.cn:58888/mini/netWebServlet.json?querySMLibrary=true&corpName=苏州&yzm='+str(captcha)+'&pageSize=10&curPage=1&sortName=&sortOrder='

html1=session.get(url=url,headers=headers)

page=(html1.content)

print type(page),page

python 爬虫登录获取数据失败_python 爬虫：验证码一直错误相关推荐

python爬取网页数据软件_python爬虫入门10分钟爬取一个网站
一.基础入门 1.1什么是爬虫爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HT ...
python爬取网页数据流程_Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
python爬虫实现股票数据存储_Python 爬虫 | 股票数据的获取
最近股市有了一股牛市的味道,我也来蹭波热度,这节我们将爬取股票数据,股票数据在网上很容易找到,这里以某方财富网为例目标: 爬取股票数据并存储进数据库中(这里以MongoDB为例) 目标网站(base ...
python爬虫实现股票数据存储_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储！...
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python 从地址获取数据失败怎么解决_python面试题大全
1. (1)python下多线程的限制以及多进程中传递参数的方式 python多线程有个全局解释器锁(global interpreter lock),这个锁的意思是任一时间只能有一个线程使用解释器, ...
python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息
网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...
python从网上获取数据失败怎么解决_求助：scrapy爬取数据失败，反复调试都不成功...
目标:爬取某一学习网站上课程信息,前期调试仅获取课程名称爬虫文件: import scrapy from xtzx.items import XtzxItem from scrapy.http im ...
python爬虫用多线程还是多进程_python爬虫之多线程、多进程爬虫
多线程对爬虫的效率提高是非凡的,当我们使用python的多线程有几点是需要我们知道的: countdown是一个计数的方法,正常执行它,我们一般使用countdown(10),就可以达到执行的目的,当 ...
python12306自动抢票为什么进入个人中心,python自动登录12306并自动点击验证码完成登录的实现源代码...
以下代码可自动登录12306 - 包括输入用户名密码以及自动识别验证码并点击验证码登陆.该源码需要稍作修改: 把 username.send_keys('xxxxxxx') 中的 xxxxxx ...

python 爬虫登录获取数据失败_python 爬虫：验证码一直错误

python 爬虫登录获取数据失败_python 爬虫：验证码一直错误相关推荐

最新文章

热门文章