猎聘网站搜索大数据关键字,只能显示100页,爬取这一百页的相关信息,以便做分析。

__author__ = 'Fred Zhao'import requests
from bs4 import BeautifulSoup
import os
import csvclass JobSearch():def __init__(self):self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'}self.base_url = 'https://www.liepin.com/zhaopin/?ckid=c1a868fa8b83aa5b&fromSearchBtn=2&init=-1&sfrom=click-pc_homepage-centre_searchbox-search_new&degradeFlag=0&key=大数据&headckid=c1a868fa8b83aa5b&d_pageSize=40&siTag=LGV-fc5u_67LtFjetF6ACg~fA9rXquZc5IkJpXC-Ycixw&d_headId=8e7325814e7ed9919787ee3fe85e1c94&d_ckId=8e7325814e7ed9919787ee3fe85e1c94&d_sfrom=search_fp&d_curPage=99&curPage='self.base_path = os.path.dirname(__file__)def makedir(self, name):path = os.path.join(self.base_path, name)isExist = os.path.exists(path)if not isExist:os.makedirs(path)print("File has been created.")else:print('OK!The file is existed. You do not need create a new one.')os.chdir(path)def request(self, url):r = requests.get(url, headers=self.headers)return rdef get_detail(self, page):r = self.request(self.base_url + page)ul = BeautifulSoup(r.text, 'lxml').find('ul', class_='sojob-list')plist = ul.find_all('li')self.makedir('job_data')rows = []for item in plist:job_info = item.find('div', class_='sojob-item-main clearfix').find('div', class_='job-info')position = job_info.find('h3').get('title')print(position)job_info_list = job_info.find_all('p')job_condition = job_info_list[0].get('title')print(job_condition)job_time = job_info_list[1].find('time').get('title')print(job_time)company_info = item.find('div', class_='sojob-item-main clearfix').find('div', class_='company-info')company = company_info.find('p', class_='company-name').find('a').get('title')print(company)rows.append([position, job_condition, job_time, company])self.save_to_csv(rows)def save_to_csv(self, rows):with open('job.csv', 'a') as f:writer = csv.writer(f)writer.writerows(rows)if __name__ == '__main__':job = JobSearch()for page in range(0, 100):job.get_detail(str(page))

转载于:https://www.cnblogs.com/fredkeke/p/9409560.html

爬取猎聘大数据岗位相关信息--Python相关推荐

  1. 爬取猎聘python_爬取猎聘大数据岗位相关信息--Python

    猎聘网站搜索大数据关键字,只能显示100页,爬取这一百页的相关信息,以便做分析. __author__ = 'Fred Zhao' import requests from bs4 import Be ...

  2. 使用scrapy爬取前程无忧所有大数据岗位并做出数据可视化

    项目目录 项目要求 工具 软件 具体知识点 具体要求 数据源 爬取字段 数据存储 数据分析与可视化 具体步骤 分析网页 实现代码 抓取全部岗位的网址 字段提取 可视化 分析"数据分析&quo ...

  3. python爬虫:爬取猎聘网站职位详情

    python爬虫:爬取猎聘网站职位详情 第一次学习python,也是刚开始学习爬虫,完成的第一个实例,记录一下. baseurl.py # @author centao # @time 2020.10 ...

  4. python笔记-爬取猎聘网招聘信息

    目录 猎聘网信息爬取 爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格 爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...

  5. 使用python爬取猎聘网的职位信息

    闲来无事,就像看看现在各个行业找工作的情况,写了个简单的爬虫,爬取猎聘网的职位信息. 话不多说,直接上代码. #-*- coding:utf-8 -*- # 抓取猎聘的职位 import time i ...

  6. python + selenium 爬取猎聘招聘网

    Selenium 本是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,模拟用户操作.而这一特性为爬虫开发提供了一个选择及方向,由于其本身依赖于浏览器,所以使用Python的s ...

  7. 爬取18年二季度天天基金网基金持仓信息-python【转发】

    这里是引添加链接描述用 爬取18年二季度天天基金网基金持仓信息-python 爬取18年二季度天天基金网基金持仓信息-python 爬取的目的 通过爬取基金持仓信息,我们可以了解基金的资金流向,说白了 ...

  8. python3 scrapy实战:爬取猎聘网招聘数据至数据库(反爬虫)

    首先注明:感谢拉勾网提供的权威.质量的数据,本人抱着学习的态度,不愿增加其服务器负担,与dos攻击. 继前两篇爬取拉勾网.直聘网后的第三篇文章,同样是使用scrapy来获取网站的招聘信息,并且保存至M ...

  9. 用python爬取前程无忧网大数据岗位信息并分析

    爬虫的基本思路 1.在前程无忧官网检索"大数据"的结果中,每条检索结果详情对应的URL存在a标签的href属性中,通过组合选择器可以找到每条检索结果详情的URL. 2.前程无忧的招 ...

  10. 爬取18年二季度天天基金网基金持仓信息-python

    爬取的目的 通过爬取基金持仓信息,我们可以了解基金的资金流向,说白了,就是知道大型基金公司都买了什么股票,买了多少.也可以跟踪一些知名的基金,看看他们都买了什么股票,从而跟买或者不买,估值便宜的股票, ...

最新文章

  1. python querystring encode_百分号 json
  2. centos 8 卸载anaconda_Centos7安装JDK1.8
  3. java 中 synchronized (class) 是什么意思?
  4. 基于python爬虫的岗位数据分析以拉勾网为例_Python拉勾爬虫——以深圳地区数据分析师为例...
  5. LA3942 Remember the Word(Trie+DP)
  6. C++中多态的概念和意义
  7. 89. Leetcode 96. 不同的二叉搜索树 (动态规划-基础题)
  8. DPM2012保护sharepoint场
  9. CentOS+postfix+ExtMail+amavisd-new+Spam_Locker+DSpam配置指南:五、配置maildrop
  10. 一、mysql使用入门
  11. 史上最简单的SpringCloud教程 | 第五篇: 路由网关(zuul)
  12. 如何实现listbox选项,然后双击鼠标实现选项的删除
  13. SpringCloud工作笔记082---自动化部署Jenkins_Windows下安装使用Jekins
  14. IT中一些常见英汉互译
  15. 基于visual Studio2013解决面试题之1102合并字符串
  16. Mysql连接报错:1130-host ... is not allowed to connect to this MySql server
  17. 《Android进阶指北》— Android 书籍
  18. linux系统怎样将图片导出,Linux 下 将PDF文件中的文本,图片导出的方法。
  19. 静态背景下运动目标检测 matlab_动态拉伸、静态拉伸你做对了么?
  20. 树莓派实验中关于配置水位传感器的初步应用

热门文章

  1. MyBatis3_[tp_41-42-43]-_动态sql_trim_自定义字符串截取_choose分支选择_update的set与if-trim 结合的动态更新...
  2. 数据结构---最小生成树
  3. webGL学习笔记一
  4. Distance Dependent Infinite Latent Feature Model 阅读笔记1
  5. Gym 100703F Game of words 动态规划
  6. [iOS] 使用xib做为应用程序入口 with Code
  7. RegularExpressions
  8. Unity3D-射线效果
  9. Xamarin iOS教程之使用按钮接接收用户输入
  10. 使用javascript实现html页面直接下载网盘文件