八、九月份是一年中的求职高峰期,一大波应届毕业生涌入市场,加上疫情因素下,很多行业都没有那么景气,很多人应届生表示想要找到理想工作变得难上加难!
现在大家找工作都是通过各种招聘app,信息全部罗列出来,可是招聘信息有一些是错综复杂的。而且不能把全部的信息全部罗列出来,这样也让人很苦恼,所以今天我们就通过爬虫技术,为大家解决这个问题。首先我们的爬取目标是获取招聘信息,并批量把地点、 公司名、工资 、等详细资料做成文档。这里我们就以boss直聘为例。在获取数据之前简单的对网站进行了分析,该网站上的反爬主要有两点。1、 直接使用requests库,在不设置任何header的情况下,网站直接不返回数据。2、同一个ip连续访问多次,直接封掉ip。
为了解决这两个问题,最后经过研究,使用以下方法,可以有效解决。1、获取正常的 http请求头,并在requests请求时设置这些常规的http请求头。2、使用代理IP进行访问。代理IP的选择比较多,比如现在我们使用的亿牛云代理,简单实现过程如下:

#! -*- encoding:utf-8 -*-import requestsimport random# 要访问的目标页面targetUrl = "http://httpbin.org/ip"# 要访问的目标HTTPS页面# targetUrl = "https://httpbin.org/ip"# 代理服务器(产品官网 www.16yun.cn)proxyHost = "t.16yun.cn"proxyPort = "31111"# 代理验证信息proxyUser = "username"proxyPass = "password"proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host" : proxyHost,"port" : proxyPort,"user" : proxyUser,"pass" : proxyPass,}# 设置 http和https访问都是用HTTP代理proxies = {"http"  : proxyMeta,"https" : proxyMeta,}#  设置IP切换头tunnel = random.randint(1,10000)headers = {"Proxy-Tunnel": str(tunnel)}resp = requests.get(targetUrl, proxies=proxies, headers=headers)print resp.status_codeprint resp.text
```最后做个小的总结,在获取数据的过程中不建议抓取太多数据,容易对服务器造成负载。本文分享的是爬取招聘网,在实际过程中出现的难点和重点,以及如何防止反爬,做出了相对于的解决方案。对于新手爬虫建议大家积极尝试,有时候看到别人实现起来很简单,但是到自己动手实现的时候,总会有各种各样的问题,只有自己实践了才能掌握到真正的技术。

使用python爬取招聘网站数据相关推荐

  1. Python 爬取招聘网站数据,利用 tableau 可视化交互大屏,指导你如何学习、找工作!

    作者:Huang supreme 来源链接:https://blog.csdn.net/weixin_41261833/article/details/104924038   如果觉得文章写得好,如果 ...

  2. Python爬取招聘网站数据,给学习、求职一点参考

    1.项目背景 随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于"数据"方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么 ...

  3. mysql scrapy 重复数据_大数据python(scrapy)爬虫爬取招聘网站数据并存入mysql后分析...

    基于Scrapy的爬虫爬取腾讯招聘网站岗位数据视频(见本头条号视频) 根据TIOBE语言排行榜更新的最新程序语言使用排行榜显示,python位居第三,同比增加2.39%,为什么会越来越火,越来越受欢迎 ...

  4. python抓取招聘数据_Python爬取招聘网站数据并做数据可视化处理

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于青灯编程 ,作者:清风 前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有 ...

  5. Python爬取招聘网站

    刚学python的时候,看到一位大佬说过的话 : Life is short, you need python.  昨天看了大四的毕业晚会,他们走了之后我们就是大四的了,猝不及防的就要毕业了(小小感慨 ...

  6. Python爬取相关网站数据(已经函数化处理)

    from bs4 import BeautifulSoup from MysqlTest import * import requests import time import datetime#是否 ...

  7. Python | 使用Python爬取Wallhaven网站壁纸并上传百度网盘

    更多详情请查看Honker Python | 使用Python爬取Wallhaven网站壁纸并上传百度网盘 给大家推荐一款超好用的壁纸下载网站-- wallhaven 第一次知道这个网站的时候,惊为天 ...

  8. python爬取网页json数据_python爬取json数据库

    手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二. ...

  9. 使用Python爬取马蜂窝网站的游记和照片

    使用Python爬取马蜂窝网站的游记和照片 特殊原因需要在马蜂窝上爬取一些游记和照片作为后续分析处理的数据,参考网上一些类似的爬虫文章,自己尝试了一下,这次爬取的是马蜂窝上所有有关苏州的游记(包括游记 ...

最新文章

  1. 阿里AI再摘一冠,大幅提高视觉对话世界纪录
  2. 千里之行,始于足下。职场人士必读的寓言
  3. 找不到java.vbs_无法找到脚本*.VBS的脚本引擎解决办法
  4. redis install note
  5. 为什么有转换流,作用是什么?
  6. [BZOJ3545][ONTAK2010]Peaks
  7. centos查看网络速率_CentOS 7查看网络带宽使用情况
  8. Java中的 WeakReference 和 SoftReference
  9. bat命令运行java程序
  10. mysql之查询用户名
  11. java.lang.ClassNotFoundException: org.springframework.web.util.WebAppRootListener
  12. mongodb的常用增删改查命令:
  13. 易语言5.4一键破解工具
  14. 银行笔试用计算机,2018银行招聘笔试:如何备考银行计算机
  15. 华为服务器网口作用,设置网口模式(mode)
  16. U盘安装系统教程 如何用U盘装系统
  17. 【历史】- 一段关于 Unix、Linux 和 Windows 的暗黑史
  18. Immundiagnostik IDK TurbiPEL测定分析
  19. 【视听盛宴】比尔盖茨与巴菲特对话内布拉斯大学的学生
  20. 软件开发人员如何与测试人员相处

热门文章

  1. 谁浇了李彦宏一瓶冷水?
  2. SpringBoot接口数据加解密实战
  3. 06-播放器-搭建媒体服务器测试videojs
  4. “师创杯”山东理工大学第九届ACM程序设计竞赛 正式赛 I.皮卡丘的梦想2【树状数组】水题
  5. SVM简单非线性分类,画出分类面与支持向量(MATLAB)
  6. 练习:三子棋(python 列表list“全局变量”特性、插值字符串格式化、set 元素不重复特性)
  7. FFmpeg简单使用:视频编码 ---- YUV转H264
  8. 2021年安全生产模拟考试(建筑特种作业操作证-建筑焊工模拟考试题库)安考星
  9. win10+python开发django项目day03
  10. thinkphp5.1 + 汉字转拼音 + 获取拼音首字母