爬取猎聘大数据岗位相关信息--Python

猎聘网站搜索大数据关键字，只能显示100页，爬取这一百页的相关信息，以便做分析。

__author__ = 'Fred Zhao'import requests
from bs4 import BeautifulSoup
import os
import csvclass JobSearch():def __init__(self):self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'}self.base_url = 'https://www.liepin.com/zhaopin/?ckid=c1a868fa8b83aa5b&fromSearchBtn=2&init=-1&sfrom=click-pc_homepage-centre_searchbox-search_new&degradeFlag=0&key=大数据&headckid=c1a868fa8b83aa5b&d_pageSize=40&siTag=LGV-fc5u_67LtFjetF6ACg~fA9rXquZc5IkJpXC-Ycixw&d_headId=8e7325814e7ed9919787ee3fe85e1c94&d_ckId=8e7325814e7ed9919787ee3fe85e1c94&d_sfrom=search_fp&d_curPage=99&curPage='self.base_path = os.path.dirname(__file__)def makedir(self, name):path = os.path.join(self.base_path, name)isExist = os.path.exists(path)if not isExist:os.makedirs(path)print("File has been created.")else:print('OK!The file is existed. You do not need create a new one.')os.chdir(path)def request(self, url):r = requests.get(url, headers=self.headers)return rdef get_detail(self, page):r = self.request(self.base_url + page)ul = BeautifulSoup(r.text, 'lxml').find('ul', class_='sojob-list')plist = ul.find_all('li')self.makedir('job_data')rows = []for item in plist:job_info = item.find('div', class_='sojob-item-main clearfix').find('div', class_='job-info')position = job_info.find('h3').get('title')print(position)job_info_list = job_info.find_all('p')job_condition = job_info_list[0].get('title')print(job_condition)job_time = job_info_list[1].find('time').get('title')print(job_time)company_info = item.find('div', class_='sojob-item-main clearfix').find('div', class_='company-info')company = company_info.find('p', class_='company-name').find('a').get('title')print(company)rows.append([position, job_condition, job_time, company])self.save_to_csv(rows)def save_to_csv(self, rows):with open('job.csv', 'a') as f:writer = csv.writer(f)writer.writerows(rows)if __name__ == '__main__':job = JobSearch()for page in range(0, 100):job.get_detail(str(page))

转载于:https://www.cnblogs.com/fredkeke/p/9409560.html

爬取猎聘大数据岗位相关信息--Python相关推荐

爬取猎聘python_爬取猎聘大数据岗位相关信息--Python
猎聘网站搜索大数据关键字,只能显示100页,爬取这一百页的相关信息,以便做分析. __author__ = 'Fred Zhao' import requests from bs4 import Be ...
使用scrapy爬取前程无忧所有大数据岗位并做出数据可视化
项目目录项目要求工具软件具体知识点具体要求数据源爬取字段数据存储数据分析与可视化具体步骤分析网页实现代码抓取全部岗位的网址字段提取可视化分析"数据分析&quo ...
python爬虫：爬取猎聘网站职位详情
python爬虫:爬取猎聘网站职位详情第一次学习python,也是刚开始学习爬虫,完成的第一个实例,记录一下. baseurl.py # @author centao # @time 2020.10 ...
python笔记-爬取猎聘网招聘信息
目录猎聘网信息爬取爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...
使用python爬取猎聘网的职位信息
闲来无事,就像看看现在各个行业找工作的情况,写了个简单的爬虫,爬取猎聘网的职位信息. 话不多说,直接上代码. #-*- coding:utf-8 -*- # 抓取猎聘的职位 import time i ...
python + selenium 爬取猎聘招聘网
Selenium 本是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,模拟用户操作.而这一特性为爬虫开发提供了一个选择及方向,由于其本身依赖于浏览器,所以使用Python的s ...
爬取18年二季度天天基金网基金持仓信息-python【转发】
这里是引添加链接描述用爬取18年二季度天天基金网基金持仓信息-python 爬取18年二季度天天基金网基金持仓信息-python 爬取的目的通过爬取基金持仓信息,我们可以了解基金的资金流向,说白了 ...
python3 scrapy实战：爬取猎聘网招聘数据至数据库（反爬虫）
首先注明:感谢拉勾网提供的权威.质量的数据,本人抱着学习的态度,不愿增加其服务器负担,与dos攻击. 继前两篇爬取拉勾网.直聘网后的第三篇文章,同样是使用scrapy来获取网站的招聘信息,并且保存至M ...
用python爬取前程无忧网大数据岗位信息并分析
爬虫的基本思路 1.在前程无忧官网检索"大数据"的结果中,每条检索结果详情对应的URL存在a标签的href属性中,通过组合选择器可以找到每条检索结果详情的URL. 2.前程无忧的招 ...
爬取18年二季度天天基金网基金持仓信息-python
爬取的目的通过爬取基金持仓信息,我们可以了解基金的资金流向,说白了,就是知道大型基金公司都买了什么股票,买了多少.也可以跟踪一些知名的基金,看看他们都买了什么股票,从而跟买或者不买,估值便宜的股票, ...

爬取猎聘大数据岗位相关信息--Python

爬取猎聘大数据岗位相关信息--Python相关推荐

最新文章

热门文章