爬取猎聘网职位(requests+bs4)

本人倾向于用bs4匹配，数据量不大，怎么简单怎么来了
url为关键词搜索，位置默认全国
最后写入json文件

import requests
import json
from bs4 import BeautifulSoup
# url = 'https://www.liepin.com/zhaopin/?sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=python'def get_page():"""获取页数/职业"""page = input('请输入页数:')job = input('请输入职业:')url = 'https://www.liepin.com/zhaopin/?&key={}'.format(job)page_url = '&curPage='# 条件:一页/多页if page == '1':full_url = urlelse:for i in range(int(page)):full_url = url+page_url+str(i)parse(full_url,headers)def parse(url,headers):"""解析页面/将数据保存到json文件"""response = requests.get(url=url,headers=headers)res = response.text#创建soup对象soup = BeautifulSoup(res,'lxml')#定位content = soup.select('.sojob-list li')# import os# os.mkdir('./liepin')items = []# 组成json对象for c in content:item = {}# 依次为职位，地区，学历，工作经验，年薪title = c.select('div h3')[0].get_text().strip()area = c.select('p .area')[0].get_text()edu = c.select('p .edu')[0].get_text()time = c.select('.sojob-item-main div p span')[2].get_text()text_warning = c.select('p span')[0].get_text()item['title'] = titleitem['area'] = areaitem['edu'] = eduitem['time'] = timeitem['text_warning'] = text_warningitems.append(item)import timeimport hashlib# 使用MD5构造一个不重名的文件名key = time.time()md = hashlib.md5()md.update(str(key).encode("utf-8"))#加密后的字符串file_name = md.hexdigest()print('正在下载：%s'%file_name)json.dump(items,open('./liepin/'+file_name +'.json','w',encoding="utf-8"),ensure_ascii=False,indent=4)if __name__ == "__main__":headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.16 Safari/537.36',}get_page()

有什么问题可以下面留言，都会回复

爬取猎聘网职位(requests+bs4)相关推荐

python爬虫——使用requests库和xpath爬取猎聘网职位详情
文章目录前言一.页面分析 1.职位列表页面分析 2.职位详情页面URL获取 3.职位详情页面分析至此,所有页面解析完毕,开始写代码. 二.代码编写 1.导入相应库 2.设置代理和随机请求头 3. ...
使用python爬取猎聘网的职位信息
闲来无事,就像看看现在各个行业找工作的情况,写了个简单的爬虫,爬取猎聘网的职位信息. 话不多说,直接上代码. #-*- coding:utf-8 -*- # 抓取猎聘的职位 import time i ...
python笔记-爬取猎聘网招聘信息
目录猎聘网信息爬取爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...
python爬虫：爬取猎聘网站职位详情
python爬虫:爬取猎聘网站职位详情第一次学习python,也是刚开始学习爬虫,完成的第一个实例,记录一下. baseurl.py # @author centao # @time 2020.10 ...
python3 scrapy实战：爬取猎聘网招聘数据至数据库（反爬虫）
首先注明:感谢拉勾网提供的权威.质量的数据,本人抱着学习的态度,不愿增加其服务器负担,与dos攻击. 继前两篇爬取拉勾网.直聘网后的第三篇文章,同样是使用scrapy来获取网站的招聘信息,并且保存至M ...
python + selenium 爬取猎聘招聘网
Selenium 本是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,模拟用户操作.而这一特性为爬虫开发提供了一个选择及方向,由于其本身依赖于浏览器,所以使用Python的s ...
爬取猎聘python_爬取猎聘大数据岗位相关信息--Python
猎聘网站搜索大数据关键字,只能显示100页,爬取这一百页的相关信息,以便做分析. __author__ = 'Fred Zhao' import requests from bs4 import Be ...
爬虫分页爬取猎聘_想把python爬虫了解透彻吗？一起盘它 ! !
原理传统的爬虫程序从初始web页面的一个或多个url开始,并获取初始web页面的url.在抓取web页面的过程中,它不断地从当前页面中提取新的url并将其放入队列中,直到满足系统的某些停止条件.聚焦 ...
爬取海量招聘岗位信息-----R语言-----以猎聘网为例(WEB OG LIEPIN)
我们再来回顾一下 nodes.%>% .text三者之间的关系 .如图1: 再者,我们将爬取的数据存入我们指定的文档中: 如图2 我们先简单爬取岗位信息,以猎聘网网上检索关键词老师为例: 如图3 ...

爬取猎聘网职位(requests+bs4)

爬取猎聘网职位(requests+bs4)相关推荐

最新文章

热门文章