python 爬虫登录获取数据失败_python 爬虫:验证码一直错误
我用这样的程序去爬类似的有验证码的网站,都能取到正确的数据。只有这个网站,很奇怪啊!一直验证码错误,我只能用代理IP去爬,程序运行两三次,就会IP封了。求解,之前一直以为是取验证码图片时,验证码刷新了,所以不对。所以我直接取的验证码,然后再去页面get数据。其他网站用这个方法都能行,只有这个一直错误!
!!!!!!补充:我在fiddler里面看到的过程是,首先手动输入验证码点击搜索:1.返回验证码输入的对错(传入验证码作为参数) 2.返回搜索的结果 3.重新生成新的验证码 。问题来了,程序中开始就获取验证码图片是对还是错?应该怎么做呢?我写过的爬虫是验证码传进搜索的url里,作为其中一个参数,这样很容易就取到了。但是现在遇到的是,验证码和搜索url无关,验证码作为参数传入一个url,只是返回验证码错误正确的结果。
#coding=utf-8
#from bs4 import BeautifulSoup
import urllib
import urllib2
import re
import sys
import time
import requests
from PIL import Image
#from pytesser import *
import cookielib
reload(sys)
sys.setdefaultencoding('utf-8')
time=(time.time())
session=requests.session()
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36'
headers={'User-Agent':user_agent,'Referer':'http://www.jsgsj.gov.cn:58888/mini/netweb/SMLibrary.jsp','Connection':'keep-alive','Host':'www.jsgsj.gov.cn:58888'}
captcha_url='http://www.jsgsj.gov.cn:58888/mini/netWebServlet.json?randImg=true&tmp='+str(time)
print captcha_url
captcha=(session.get(captcha_url,headers=headers)).content
with open('captcha.jpg','wb') as imgfile:
imgfile.write(captcha)
im = Image.open('captcha.jpg')
im.show()
captcha=raw_input("enter captcha:")
url_company='http://www.jsgsj.gov.cn:58888/mini/netWebServlet.json?codeCheck=true&corpName=苏州&yzm='+str(captcha)
html0=session.get(url=url_company,headers=headers)
company=(html0.content)
print (company)
url='http://www.jsgsj.gov.cn:58888/mini/netWebServlet.json?querySMLibrary=true&corpName=苏州&yzm='+str(captcha)+'&pageSize=10&curPage=1&sortName=&sortOrder='
html1=session.get(url=url,headers=headers)
page=(html1.content)
print type(page),page
python 爬虫登录获取数据失败_python 爬虫:验证码一直错误相关推荐
- python爬取网页数据软件_python爬虫入门10分钟爬取一个网站
一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...
- python爬取网页数据流程_Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
- python爬虫实现股票数据存储_Python 爬虫 | 股票数据的获取
最近股市有了一股牛市的味道,我也来蹭波热度,这节我们将爬取股票数据,股票数据在网上很容易找到,这里以某方财富网为例 目标: 爬取股票数据并存储进数据库中(这里以MongoDB为例) 目标网站(base ...
- python爬虫实现股票数据存储_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储!...
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
- python 从地址获取数据失败怎么解决_python面试题大全
1. (1)python下多线程的限制以及多进程中传递参数的方式 python多线程有个全局解释器锁(global interpreter lock),这个锁的意思是任一时间只能有一个线程使用解释器, ...
- python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息
网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...
- python从网上获取数据失败怎么解决_求助:scrapy爬取数据失败,反复调试都不成功...
目标:爬取某一学习网站上课程信息,前期调试仅获取课程名称 爬虫文件: import scrapy from xtzx.items import XtzxItem from scrapy.http im ...
- python爬虫用多线程还是多进程_python爬虫之多线程、多进程爬虫
多线程对爬虫的效率提高是非凡的,当我们使用python的多线程有几点是需要我们知道的: countdown是一个计数的方法,正常执行它,我们一般使用countdown(10),就可以达到执行的目的,当 ...
- python12306自动抢票为什么进入个人中心,python自动登录12306并自动点击验证码完成登录的实现源代码...
以下代码可自动登录12306 - 包括输入用户名密码以及自动识别验证码并点击验证码登陆.该源码需要稍作修改: 把 username.send_keys('xxxxxxx') 中的 xxxxxx ...
最新文章
- 用Leangoo Scrum看板工具做多团队大规模敏捷
- SAP 请求号单个传输方法
- 看门狗(Watch Dog)是嵌入式系统中一种常用的保证系统可靠性的技术,()会产生看门狗中断。【详细!小白也能看懂!】
- JMetro版本8.6.11和11.6.11已发布
- Sharding-Proxy分库配置_Sharding-Sphere,Sharding-JDBC分布式_分库分表工作笔记020
- 如何解决linux下编译出现的multiple definition of错误
- 管理感悟:深入理解软件
- ProGuard详解 - Java代码混淆
- 零基础通信基础知识入门(4G/5G通信知识入门书籍)
- git提交代码至码云
- 无电流时二极管压降问题
- 在Markdown中打出上下标
- vue 实现html转图片和生成二维码
- 笔记本硬盘坏了还能恢复数据吗 笔记本硬盘坏了怎么修复
- vue 实现 tooltips的效果
- python怎样按某一列值拆分Excel表格
- VUE 中的搜索关键字
- USNews大学排名遭美国计算机研究学会怒怼,指排名荒谬要求撤回
- RabbitMQ-2-工作模式及参数配置
- 云服务器的购买和使用教程(腾讯云为例)
热门文章
- 批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。
- PMP自学不报班5A通过经验总结(附PMBOK高清电子书完整书签)
- 如何把项目改成微服务项目_微服务拆分那点事
- 电信重组又起,对移动软件供应商与SP的影响有哪些!思考:如何从3G网络中找寻我们程序员的价值..
- java cms 开源系统_基于Java的开源CMS系统选择
- 我的物联网大学【第八章】:跟一个女采购见光死的故事
- R语言书籍学习02 《R语言数据分析、挖掘建模与可视化》-第十三章 SVM模型
- 恶意软件的沙盒规避技术
- 微信通讯录java实现_原生JS实现微信通讯录
- Hbase2.3.5安装