本人倾向于用bs4匹配,数据量不大,怎么简单怎么来了
url为关键词搜索,位置默认全国
最后写入json文件
import requests
import json
from bs4 import BeautifulSoup
# url = 'https://www.liepin.com/zhaopin/?sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=python'def get_page():"""获取页数/职业"""page = input('请输入页数:')job = input('请输入职业:')url = 'https://www.liepin.com/zhaopin/?&key={}'.format(job)page_url = '&curPage='# 条件:一页/多页if page == '1':full_url = urlelse:for i in range(int(page)):full_url = url+page_url+str(i)parse(full_url,headers)def parse(url,headers):"""解析页面/将数据保存到json文件"""response = requests.get(url=url,headers=headers)res = response.text#创建soup对象soup = BeautifulSoup(res,'lxml')#定位content = soup.select('.sojob-list li')# import os# os.mkdir('./liepin')items = []# 组成json对象for c in content:item = {}# 依次为职位,地区,学历,工作经验,年薪title = c.select('div h3')[0].get_text().strip()area = c.select('p .area')[0].get_text()edu = c.select('p .edu')[0].get_text()time = c.select('.sojob-item-main div p span')[2].get_text()text_warning = c.select('p span')[0].get_text()item['title'] = titleitem['area'] = areaitem['edu'] = eduitem['time'] = timeitem['text_warning'] = text_warningitems.append(item)import timeimport hashlib# 使用MD5构造一个不重名的文件名key = time.time()md = hashlib.md5()md.update(str(key).encode("utf-8"))#加密后的字符串file_name = md.hexdigest()print('正在下载:%s'%file_name)json.dump(items,open('./liepin/'+file_name +'.json','w',encoding="utf-8"),ensure_ascii=False,indent=4)if __name__ == "__main__":headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.16 Safari/537.36',}get_page()

有什么问题可以下面留言,都会回复

爬取猎聘网职位(requests+bs4)相关推荐

  1. python爬虫——使用requests库和xpath爬取猎聘网职位详情

    文章目录 前言 一.页面分析 1.职位列表页面分析 2.职位详情页面URL获取 3.职位详情页面分析 至此,所有页面解析完毕,开始写代码. 二.代码编写 1.导入相应库 2.设置代理和随机请求头 3. ...

  2. 使用python爬取猎聘网的职位信息

    闲来无事,就像看看现在各个行业找工作的情况,写了个简单的爬虫,爬取猎聘网的职位信息. 话不多说,直接上代码. #-*- coding:utf-8 -*- # 抓取猎聘的职位 import time i ...

  3. python笔记-爬取猎聘网招聘信息

    目录 猎聘网信息爬取 爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格 爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...

  4. python爬虫:爬取猎聘网站职位详情

    python爬虫:爬取猎聘网站职位详情 第一次学习python,也是刚开始学习爬虫,完成的第一个实例,记录一下. baseurl.py # @author centao # @time 2020.10 ...

  5. python3 scrapy实战:爬取猎聘网招聘数据至数据库(反爬虫)

    首先注明:感谢拉勾网提供的权威.质量的数据,本人抱着学习的态度,不愿增加其服务器负担,与dos攻击. 继前两篇爬取拉勾网.直聘网后的第三篇文章,同样是使用scrapy来获取网站的招聘信息,并且保存至M ...

  6. python + selenium 爬取猎聘招聘网

    Selenium 本是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,模拟用户操作.而这一特性为爬虫开发提供了一个选择及方向,由于其本身依赖于浏览器,所以使用Python的s ...

  7. 爬取猎聘python_爬取猎聘大数据岗位相关信息--Python

    猎聘网站搜索大数据关键字,只能显示100页,爬取这一百页的相关信息,以便做分析. __author__ = 'Fred Zhao' import requests from bs4 import Be ...

  8. 爬虫分页爬取猎聘_想把python爬虫了解透彻吗?一起盘它 ! !

    原理 传统的爬虫程序从初始web页面的一个或多个url开始,并获取初始web页面的url.在抓取web页面的过程中,它不断地从当前页面中提取新的url并将其放入队列中,直到满足系统的某些停止条件.聚焦 ...

  9. 爬取海量招聘岗位信息-----R语言-----以猎聘网为例(WEB OG LIEPIN)

    我们再来回顾一下 nodes.%>% .text三者之间的关系 .如图1: 再者,我们将爬取的数据存入我们指定的文档中: 如图2 我们先简单爬取岗位信息,以猎聘网网上检索关键词老师为例: 如图3 ...

最新文章

  1. Nginx—核心配置location匹配规则说明
  2. Webhooks上的一个简单方法:恐吓现在停止
  3. 前端随笔整理[5.14]
  4. java掩码校验_Java 检查Ip掩码
  5. Qt工作笔记-仿大佬风格代码(使用#ifdef Q_OS_WIN32)
  6. C++11 并发指南四(future 详解一 std::promise 介绍)
  7. Java 网络实例三(获取URL响应头的日期信息、获取URL响应头信息、解析URL、ServerSocket和Socket通信实例)
  8. 保险条款精解(四)索赔——不可不看,因为您以前可能没听说过
  9. 苏州为什么只能做二线中游?
  10. 文件读取 linux_救命,Linux正在吃掉我的内存
  11. 1命名规则 sentinel_SpringCloud Gateway高阶之Sentinel限流、熔断
  12. 2019年亚太杯数学建模竞赛赛题
  13. Win7系统上的appdata是什么文件夹可以删除roaming
  14. 【Linux】【RedHat】下载 安装 注册
  15. Centos7 NAT网络连接方式以及NetworkManger进行网络连接管理
  16. 万字长文 | 关于Filecoin期货与矿机,你想知道的一切都在这
  17. 【OpenCV学习笔记】之六 手写图像旋转函数---万丈高楼平地起
  18. 基于NB-IoT城市智能井盖监控解决方案
  19. http服务器常见状态码
  20. 大型语言模型综述(二)

热门文章

  1. 服务器测试常用指令-分测试内容
  2. WIN10下CAD在操作时按F8卡顿
  3. 鼠标离开触发ajax,鼠标离开浏览器窗口时的Javascript事件[重复]
  4. 双十一,打包半价理解Vue的nextTick与watcher以及Dep的蓝色生死恋?
  5. 名科全数字纯数字网络IP楼宇对讲系统说明
  6. 真的可以「 人人都是产品经理 」吗
  7. CSS实现不规则图形的立体效果
  8. 【JY】YJK前处理参数详解及常见问题分析:二阶效应和分析求解(四)
  9. honeyselect身高补丁_honeyselect 4k高清画质补丁 V1.1 - honey select超高清画质插件
  10. [Unity3D]Unity3D游戏开发之飞机大战项目讲解