用python爬取前程无忧招聘网

直接上代码了，相比前篇文章智联招聘网的数据，前程无忧网的数据可以爬取很多。

网址：https://search.51job.com/list/040000,000000,0000,00,9,99,%20,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=
简化后：https://search.51job.com/list/040000,000000,0000,00,9,99,%20,2,1.html?
相比之下，这份获取的数据更适合练习学习数据分析。
爬取的方法跟步骤跟智联招聘网那篇一样。都是用到了第三方库requests

import requests
import re
import os
import timeclass Spider(object):page_count = 0def __init__(self):self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}global path, page_countpath = './前程无忧招聘网/'if not os.path.exists(path):os.mkdir(path)self.path = pathwith open(path + "前程无忧招聘.json", "a", encoding='utf-8') as fp:fp.write('{')def response(self, url, headers):"""请求访问服务器获取资源"""try:response = requests.get(url, headers)response.encoding = response.apparent_encodingreturn responseexcept:print('访问失败')return Nonedef parse(self, response):"""解析出我们需要进入的岗位名称及其详情链接"""res = re.findall(r'<span>\s+<a target="_blank" title="(.*?)" href="(.*?)" .*?</a>', response.text,re.S)return resdef parse_S(self, response):try:price = re.findall('<div class="cn".*?<strong>(.*?)</strong>', response.text, re.S)[0]except:price = Nonetry:company_name = re.findall('class="cname">.*?title="(.*?)" class.*?<em.*?', response.text, re.S)[0]except:company_name = Nonetry:add = re.findall('<p class="msg.*?title="(.*?)&nbsp;', response.text, re.S)[0]except:add = Nonetry:num = re.findall('<p class="msg ltype".*?招(\d+)人&nbsp;', response.text, re.S)[0]except:num = '若干人'detail = {}detail['公司名称'] = company_namedetail['工作城市'] = adddetail['招聘人数'] = numdetail['工资情况'] = pricereturn detaildef getContent(self, url):response = self.response(url, self.headers)detail = self.parse_S(response)return detaildef save(self, items):Spider.page_count += 1print(Spider.page_count)with open(path + "前程无忧招聘.json", "a", encoding='utf-8') as fp:fp.write(str(items) + ',')def crawl(self, page):crawl_url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,%2520,2,{}.html?'.format(page)response = self.response(crawl_url, self.headers)res = self.parse(response)items = {}for name, url in res:detail = self.getContent(url)items['name'] = nameitems['detail'] = detailself.save(items)def main(self):for page in range(0, 100):self.crawl(page)with open(path + "前程无忧招聘.json", "a", encoding='utf-8') as fp:fp.write('}')start = time.time()
if __name__ == '__main__':c = Spider()c.main()end = time.time()print(end - start)

如发现可以改进的地方或者哪里做得不好，希望大家能够提出多多交流。

用python爬取前程无忧招聘网相关推荐

大数据项目开发hadoop集群搭建 python爬取前程无忧招聘网信息以及进行数据分析和数据可视化
大数据项目开发实训报告一.Hadoop环境搭建 1: jdk的安装 1):在linux系统下的opt目录下创建software 和 module 两个目录 2):利用filezilla工具将 jdk ...
使用Python爬取51job招聘网的数据
使用Python爬取51job招聘网的数据进行网站分析获取职位信息存储信息最终代码进行网站分析进入https://www.51job.com/这个网站我在这就以python为例搜索职位跳 ...
python爬取前程无忧招聘网站数据搭建Hadoop、Flume、Kafka、Spark用Hive做数据分析Sqoop存储到Mysql并实现可视化
文章目录一.项目总体要求二.环境搭建 1.安装包准备 2.安装jdk (1)查询是否安装java (2)卸载jdk (3)安装jdk (4)配置jdk环境变量 3.配置ssh免密登录 (1)进入到 ...
python爬取前程无忧招聘岗位信息
######################首先使用requests获取前程无忧一级网页 import requests from lxml.etree import HTML import re i ...
Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建项目 sc ...
用python输出所有的玫瑰花数_用Python爬取WordPress官网所有插件
转自丘壑博客,转载注明出处前言只要是用WordPress的人或多或少都会装几个插件,可以用来丰富扩展WordPress的各种功能.围绕WordPress平台的插件和主题已经建立了一个独特的经济生态 ...
python爬房源信息_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
python爬取千图网_python爬取lol官网英雄图片代码
python爬取lol官网英雄图片代码可以帮助用户对英雄联盟官网平台的皮肤图片进行抓取,有很多喜欢lol的玩家们想要官方的英雄图片当作自己的背景或者头像,可以使用这款软件为你爬取图片资源,操作很简单, ...
Python爬取不羞涩网小姐姐图片——BeautifulSoup应用
引言今年提倡原地过年,相信很多朋友都没有回家过年,像我就被迫留在深圳过年了,无聊之余只能去看看电影爬爬山.今天给大家带来一个打发无聊时光的案例,用Python爬取不羞涩网小姐姐图片,并保存到本地,老 ...

用python爬取前程无忧招聘网

直接上代码了，相比前篇文章智联招聘网的数据，前程无忧网的数据可以爬取很多。

用python爬取前程无忧招聘网相关推荐

最新文章

热门文章