在我们人生的路途中,找工作是每个人都会经历的阶段,小编曾经也是苦苦求职大军中的一员。怀着对以后的规划和想象,我们在找工作的时候,会看一些招聘信息,然后从中挑选合适的岗位。不过招聘的岗位每个公司都有不少的需求,我们如何从中获取数据,来进行针对岗位方面的查找呢?

大致流程如下:

1.从代码中取出pid

2.根据pid拼接网址 => 得到 detail_url,使用requests.get,防止爬虫挂掉,一旦发现爬取的detail重复,就重新启动爬虫

3.根据detail_url获取网页html信息 => requests - > html,使用BeautifulSoup

若爬取太快,就等着解封

if html.status_code!=200 print('status_code if {}'.format(html.status_code))

4.根据html得到soup => soup

5.从soup中获取特定元素内容 => 岗位信息

6.保存数据到MongoDB中

代码:

# @author: limingxuan

# @contect: limx2011@hotmail.com

# @blog: https://www.jianshu.com/p/a5907362ba72

# @time: 2018-07-21

import requests

from bs4 import BeautifulSoup

import time

from pymongo import MongoClient

headers = {

'accept': "application/json, text/javascript, */*; q=0.01",

'accept-encoding': "gzip, deflate, br",

'accept-language': "zh-CN,zh;q=0.9,en;q=0.8",

'content-type': "application/x-www-form-urlencoded; charset=UTF-8",

'cookie': "JSESSIONID=""; __c=1530137184; sid=sem_pz_bdpc_dasou_title; __g=sem_pz_bdpc_dasou_title; __l=r=https%3A%2F%2Fwww.zhipin.com%2Fgongsi%2F5189f3fadb73e42f1HN40t8~.html&l=%2Fwww.zhipin.com%2Fgongsir%2F5189f3fadb73e42f1HN40t8~.html%3Fka%3Dcompany-jobs&g=%2Fwww.zhipin.com%2F%3Fsid%3Dsem_pz_bdpc_dasou_title; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1531150234,1531231870,1531573701,1531741316; lastCity=101010100; toUrl=https%3A%2F%2Fwww.zhipin.com%2Fjob_detail%2F%3Fquery%3Dpython%26scity%3D101010100; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1531743361; __a=26651524.1530136298.1530136298.1530137184.286.2.285.199",

'origin': "https://www.zhipin.com",

'referer': "https://www.zhipin.com/job_detail/?query=python&scity=101010100",

'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"

}

conn = MongoClient('127.0.0.1',27017)

db = conn.zhipin_jobs

def init():

items = db.Python_jobs.find().sort('pid')

for item in items:

if 'detial' in item.keys(): #当爬虫挂掉时,跳过已爬取的页

continue

detail_url = 'https://www.zhipin.com/job_detail/{}.html'.format(item['pid']) #单引号和双引号相同,str.format()新格式化方式

#第一阶段顺利打印出岗位页面的url

print(detail_url)

#返回的html是 Response 类的结果

html = requests.get(detail_url,headers = headers)

if html.status_code != 200:

print('status_code is {}'.format(html.status_code))

break

#返回值soup表示一个文档的全部内容(html.praser是html解析器)

soup = BeautifulSoup(html.text,'html.parser')

job = soup.select('.job-sec .text')

print(job)

#???

if len(job)<1:

item['detail'] = job[0].text.strip() #职位描述

location = soup.select(".job-sec .job-location .location-address")

item['location'] = location[0].text.strip() #工作地点

item['updated_at'] = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()) #实时爬取时间

#print(item['detail'])

#print(item['location'])

#print(item['updated_at'])

res = save(item) #调用保存数据结构

print(res)

time.sleep(40)#爬太快IP被封了24小时==

#保存数据到MongoDB中

def save(item):

return db.Python_jobs.update_one({'_id':item['_id']},{'$set':item}) #why item ???

# 保存数据到MongoDB

if __name__ == '__main__':

init()

最终结果就是在MongoBooster中看到新增了detail和location的数据内容

到此这篇关于python爬取招聘要求等信息实例的文章就介绍到这了,更多相关python爬虫获取招聘要求的代码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

python应聘要求_python爬取招聘要求等信息实例相关推荐

  1. python基金筛选_Python爬取基金的排名信息,写入excel中方便挑选基金

    原标题:Python爬取基金的排名信息,写入excel中方便挑选基金 基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式.本文以债券基金(稳定且风险较低) ...

  2. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  3. python爬虫——用selenium爬取淘宝商品信息

    python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

  4. python爬取饿了么评论_python爬取饿了么的实例

    python爬取饿了么的实例 发布时间:2020-11-17 10:55:40 来源:亿速云 阅读:85 作者:小新 小编给大家分享一下python爬取饿了么的实例,相信大部分人都还不怎么了解,因此分 ...

  5. python爬取个人信息_Python爬取个人微信朋友信息操作示例

    本文实例讲述了Python爬取个人微信朋友信息操作.分享给大家供大家参考,具体如下: 利用Python的itchat包爬取个人微信号的朋友信息,并将信息保存在本地文本中 思路要点: 1.利用itcha ...

  6. python爬取电子书_python爬取 “得到” App 电子书信息

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 静觅 崔庆才 PS:如有需要Python学习资料的小伙伴可以加点击下 ...

  7. python爬考研_python爬取考研网的信息

    今天我们使用python来爬取考研网站的信息. 目标网站: https://yz.chsi.com.cn/zsml/queryAction.do 使用的库: requests,bs4,pandas 这 ...

  8. python做壁纸_Python爬取壁纸

    不想一张张看壁纸怎么办,不想一张张下载怎么办,来让我们用python解决一切,爬取一网站所有壁纸. 1.准备前期运行环境 ·python运行环境,安装request模块 (这个问题需要自己去解决) 2 ...

  9. python抓取招聘数据_Python爬取招聘网站数据并做数据可视化处理

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于青灯编程 ,作者:清风 前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有 ...

  10. 杭州python爬虫招聘_python爬取招聘网站(智联,拉钩,Boss直聘)

    刚好最近有这需求,动手写了几个 就贴上代码算了 1.智联 将结果保存为python的一个数据框中 import requests from requests.exceptions import Req ...

最新文章

  1. python的日志库logging,真香!!!
  2. Linux Shell常用技巧(十二) Shell编程
  3. 算法三:无重复字符的最长子串
  4. 在 Windows 上可以用 Docker 吗?| 洞见
  5. Babel+vscode实现APICloud开发中兼容ES6及以上代码
  6. CMake使用介绍(1)
  7. caffe学习笔记(2)
  8. python:DataFrame对单列或多列进行整列的运算(map, apply, transform, agg)
  9. h3 经典地图 第3辑(混战+RPG)
  10. 软件测试理论知识基础详细解说—总结
  11. 原 sublime text 批量删除空白行
  12. 测试高薪必备:3步教测试人员破解子查询
  13. Python 爬影评,《悬崖之上》好看在哪里?
  14. 算法分析与设计实验报告——实现汽车加油问题
  15. 请问有没有一款外放音质较好的手机?真双扬声器、环绕立体声,横屏时扬声器左右对称?
  16. TensorFlow实现语音识别
  17. 学习EBS建议有的知识
  18. 手把手教你搭建个人技术博客,半小时搞定
  19. 从多个pdf文档中截取部分区域拼接成一个pdf文档
  20. “三体”域名纠纷案受关注,企业应如何做好域名品牌保护?

热门文章

  1. C#笔记30:Trace、Debug和TraceSource的使用以及日志设计
  2. IDEA Unable to import maven project: See logs for details
  3. anaconda python36 tensorflow virtualenv
  4. DataGridView:DataGridView控件清空绑定的数据
  5. 【Unity笔记】UGUI的Image、RawImage控件
  6. Salty Fish(区间和)
  7. 赋能生态 变现为王——云市场生态变现之道
  8. tensorflow两种padding方式
  9. Java知识积累——参数个数可变的函数(Varargs)
  10. 最简单的字符串算式计算方法