python应用实践之boss数据获取
boos直聘,想必对于找工作的同志都非常熟悉,以其'招人快 人才多 匹配准 公开透明'等优点位居行业的前沿,今天我们就用scrapy框架配合selenium进行岗位,薪资.待遇,公司 等信息进行爬取。boss直聘网站: www.zhipin.com
我想爬取过这个网站的同学都知道他的反爬还是很讨厌的,信息都是用cookies渲染生成的,cookies时效很短,很快就失效了,快速访问还会封掉你的ip ,封了ip第一反映就使用代理吧,有时候使用代理你就会发现,会提示ip异常,然后进验证 并且需要接入接码平台了。当然这些都是在获取比较详细的信息的前提下,如果我们只是访问首先信息就没有那么大的难度了,这种情况下我们就直接加上代理IP就搞定了。不过也需要高质量的代理IP才可以,比如由亿牛云提供的隧道IP,我们可以示例下使用隧道IP获取数据的成功率是什么样的。简单示例如下:
#! -*- encoding:utf-8 -*-import base64 import sysimport randomPY3 = sys.version_info[0] >= 3def base64ify(bytes_or_str):if PY3 and isinstance(bytes_or_str, str):input_bytes = bytes_or_str.encode('utf8')else:input_bytes = bytes_or_stroutput_bytes = base64.urlsafe_b64encode(input_bytes)if PY3:return output_bytes.decode('ascii')else:return output_bytesclass ProxyMiddleware(object): def process_request(self, request, spider):# 代理服务器(产品官网 www.16yun.cn)proxyHost = "t.16yun.cn"proxyPort = "31111"# 代理验证信息proxyUser = "username"proxyPass = "password"request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)# 添加验证头encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass # 设置IP切换头(根据需求)tunnel = random.randint(1,10000)request.headers['Proxy-Tunnel'] = str(tunnel)
```这里的代码示例只是给大家分享了代理在爬虫程序中的实现过程,数据获取的详细代码下次可以分享出来有需要的同学可以参考下。代理在数据爬取过程中也是很重要的一部分,不同的网站对IP的需求有差别,只要是有价值的网站对IP的需求肯定比较高的,比较靠谱的代理商中推荐亿牛云代理IP。
python应用实践之boss数据获取相关推荐
- Python财经实践,股票数据获取及可视化展示
来源:志斌的python笔记 今天跟大家分享一下,如何将获取股票数据以及将数据进行可视化展示. 01 股票数据获取 这次跟大家分享一种不需要爬虫就可以获取股票数据的方式.Python有一个第三方库-T ...
- python爬虫实践报告_Python 爬虫实践:浅谈数据分析岗位
原标题:Python 爬虫实践:浅谈数据分析岗位 转自:法纳斯特 讲道理,pyspider确实是一款优秀的爬虫框架,我们可以利用它快速方便地实现一个页面的抓取. 不过带来便捷性的同时,也有它的局限性, ...
- python实训总结报告书_20172304 实验四python综合实践报告
20172304 实验四python综合实践报告 姓名:段志轩 学号:20172304 指导教师:王志强 课程:Python程序设计 实验时间:2020年5月13日至2020年6月14日 实验分析 本 ...
- Python机器学习实践指南pdf (中文版带书签)、原书代码、数据集
Python机器学习实践指南 目 录 第1章Python机器学习的生态系统 1 1.1 数据科学/机器学习的工作 流程 2 1.1.1 获取 2 1.1.2 检查和探索 2 1.1.3 清 ...
- 免费教材丨第55期:Python机器学习实践指南、Tensorflow 实战Google深度学习框架
小编说 时间过的好快啊,小伙伴们是不是都快进入寒假啦?但是学习可不要落下哦! 本期教材 本期为大家发放的教材为:<Python机器学习实践指南>.<Tensorflow 实战G ...
- 分享:Python fabric实践操作
Python fabric实践操作 http://my.oschina.net/guol/blog/97607
- python最佳实践笔记
本文为阅读Python最佳实践指南后的心得体会 结构 README.rst LICENSE setup.py requirements.txt sample/__init__.pycore.pyhel ...
- python程序设计实践教程答案-Python程序设计实践教程
书名:Python程序设计实践教程 定价:29.8 ISBN:9787115532602 作者:储岳中 薛希玲 版次:*1版 出版时间:2020-04 内容提要: 本书是Python语言程序设计的配套 ...
- Python自动化实践
*** Python自动化实践 *** 1.为什么要写代码实现接口自动化 大家知道很多接口测试工具可以实现对接口的测试,如postman.jmeter.fiddler等等,而且使用方便,那么为什么还要 ...
最新文章
- windows server 2016 安装指南
- angr学习笔记(8)(文件内容符号化)
- 服务器子系统是什么,服务器是什么样子的,服务器一般用什么系统!
- java强引用软引用深刻理解_Java-强引用、软引用、弱引用、虚引用
- xbox one 越狱_如何在Xbox One上播放视频和音乐文件
- 老码农:这段代码绝了,切勿模仿!
- DNS攻击原理与防范
- Objective-C 类和对象
- idea中配置maven仓库
- 软件测试实验1:JUnit、Hamcrest、Eclemma
- ERROR:imshow、Mat、waitkey找不到标识符(opencv)
- 开发者必备英文网站合集
- 递归算法计算八皇后问题(Eight Queen Problem with Recursive Algorithm)
- 麻省理工公开课:线性代数视频总结(课1-2)
- [spring源码学习]一、IOC简介
- 千呼万唤始出来—2019 FLAG
- webGl shader的学习记录(六):如何画出一个渐变色填充的三角形
- Java语言基础Day07(API概述、Scanner、匿名对象、Random、对象数组、ArrayList)
- echarts热力背景图_echarts自定义背景图片
- 免费使用谷歌的深度学习云服务
热门文章
- 引领产业智变:第九届中国电子信息博览会将在深圳揭幕
- 解决addClass不起作用的小妙招
- 阿里云代理商:阿里云跨分部抵销前营收267.6亿元,跨分部抵销后营收207.57亿元,抵销后营收环比增长达17.37%。
- 小米手机拦截返回音设置不了_为了让自己的手机更好用,我利用了 MIUI 10 的这些功能...
- benchmarksql测试mysql_使用benchmarkSQL测试数据库的TPCC
- NameValuePair问题
- Flowable流程引擎和各类表说明
- 全球及中国城市轨道交通与设备行业布局规划策略及投资模式分析报告2021-2027年版
- 全球五大违背力学的建筑背后的仿真计算与监测技术
- 协同过滤美食推荐系统(SSM,MySQL)+全套视频教程