整个爬虫是基于selenium和Python来运行的,运行需要的包

1 mysql,matplotlib,selenium

需要安装selenium火狐浏览器驱动,百度的搜寻。

整个爬虫是模块化组织的,不同功能的函数和类放在不同文件中,最后将需要配置的常量放在constant.py中

项目地址:github(点击直达)

整个爬虫的主线程是Main.py文件,在设置好constant.py后就可以直接运行Main.py

从主线分析

Main.py

1 # /bin/python
2 # author:leozhao
3 # author@email: dhzzy88@163.com
4
5 “””
6 这是整个爬虫系统的主程序
7 “””
8 import numpy as np
9
10 import dataFactory
11 import plotpy
12 import sqlDeal
13 import zhilian
14 from Constant import JOB_KEY
15
16 #
17 # 启动爬虫程序
18 zhilian.spidefmain(JOB_KEY)
19
20 “””
21 爬取数据结束后对数据可视化处理
22 “””
23 # 从数据库读取爬取的数据
24 # 先得到的是元组name,salray,demand,welfare
25
26 value = sqlDeal.sqlselect()
27 # 工资上限,下限,平均值
28 updata = np.array([], dtype=np.int)
29 downdata = np.array([], dtype=np.int)
30 average = np.array([], dtype=np.int)
31 for item in value:
32 salray = dataFactory.SarayToInt(item[1])
33 salray.slove()
34 updata = np.append(updata, salray.up)
35 downdata = np.append(downdata, salray.down)
36 average = np.append(average, (salray.up + salray.down) / 2)
37
38 # 工资上下限
39 average.sort()
40
41 # 匹配城市信息 暂时还未实现
42
43 # 统计信息
44 # 两种图形都加载出来 方便查看
45 plotpy.plotl(average)
46 plotpy.plots(average)
47
48 print(average, average.sum())
49 print(“平均工资:”, average.sum() / len(average))
50 print(“最高:”, average.max())
51 print(“最低”, average.min())
52 print(“职位数”, len(average))
53
54 # 画图

基本是以爬虫整个执行流程来组织的

从功能文件中导入zhilian.py

1 # /bin/python
2 # author:leo
3 # author@email : dhzzy88@163.com
4 from selenium import webdriver
5 from selenium.webdriver.common.by import By
6 from selenium.webdriver.common.keys import Keys
7 from selenium.webdriver.support import expected_conditions as EC
8 from selenium.webdriver.support.ui import WebDriverWait
9
10 import sqlDeal
11 from Constant import PAGE_NUMBER
12
13
14 def init(key=”JAVA”):
15 # 智联招聘的主页搜索关键字,初始化到采集页面
16 url = “https://www.zhaopin.com/”
17 opt = webdriver.FirefoxOptions()
18 opt.set_headless() #设置无头浏览器模式
19 driver = webdriver.Firefox(options=opt)
20 driver.get(url)
21 driver.find_element_by_class_name(“zp-search-input”).send_keys(key)
22 # driver.find_element_by_class_name(“.zp-search-btn zp-blue-button”).click()
23 driver.find_element_by_class_name(“zp-search-input”).send_keys(Keys.ENTER)
24 import time
25 time.sleep(2)
26 all = driver.window_handles
27 driver.switch_to_window(all[1])
28 url = driver.current_url
29 return url
30
31
32 class ZhiLian:
33
34 def init(self, key=’JAVA’):
35 # 默认key:JAVA
36 indexurl = init(key)
37 self.url = indexurl
38 self.opt = webdriver.FirefoxOptions()
39 self.opt.set_headless()
40 self.driver = webdriver.Firefox(options=self.opt)
41 self.driver.get(self.url)
42
43 def job_info(self):
44
45 # 提取工作信息 可以把详情页面加载出来
46 job_names = self.driver.find_elements_by_class_name(“job_title”)
47 job_sarays = self.driver.find_elements_by_class_name(“job_saray”)
48 job_demands = self.driver.find_elements_by_class_name(“job_demand”)
49 job_welfares = self.driver.find_elements_by_class_name(“job_welfare”)
50 for job_name, job_saray, job_demand, job_welfare in zip(job_names, job_sarays, job_demands, job_welfares):
51 sqlDeal.sqldeal(str(job_name.text), str(job_saray.text), str(job_demand.text), str(job_welfare.text))
52
53 # 等待页面加载
54 print(“等待页面加载”)
55 WebDriverWait(self.driver, 10, ).until(
56 EC.presence_of_element_located((By.CLASS_NAME, “job_title”))
57 )
58
59 def page_next(self):
60 try:
61 self.driver.find_elements_by_class_name(“btn btn-pager”).click()
62 except:
63 return None
64 self.url = self.driver.current_url
65 return self.driver.current_url
66
67
68 def spidefmain(key=”JAVA”):
69 ZHi = ZhiLian(key)
70 ZHi.job_info()
71 # 设定一个爬取的页数
72 page_count = 0
73 while True:
74 ZHi.job_info()
75 ZHi.job_info()
76 page_count += 1
77 if page_count == PAGE_NUMBER:
78 break
79 # 采集结束后把对象清除
80 del ZHi
81
82
83 if name == ‘main‘:
84 spidefmain(“python”)

这是调用selenium模拟浏览器加载动态页面的程序,整个爬虫的核心都是围绕这个文件来进行的。

每爬取一页信息以后就把解析的数据存储到数据库里,数据库处理函数的定义放在另外一个文件里,这里只处理加载和提取信息的逻辑

将数据存入本机的mysql数据库

1 # /bin/python
2 # author:leozhao
3 # author@email :dhzzy88@163.com
4
5 import mysql.connector
6
7 from Constant import SELECT
8 from Constant import SQL_USER
9 from Constant import database
10 from Constant import password
11
12
13 def sqldeal(job_name, job_salray, job_demand, job_welfare):
14 conn = mysql.connector.connect(user=SQL_USER, password=password, database=database, use_unicode=True)
15 cursor = conn.cursor()
16 infostring = “insert into zhilian value(‘%s’,’%s’,’%s’,’%s’)” % (
17 job_name, job_salray, job_demand, job_welfare) + “;”
18 cursor.execute(infostring)
19 conn.commit()
20 conn.close()
21
22
23 def sqlselect():
24 conn = mysql.connector.connect(user=SQL_USER, password=password, database=database, use_unicode=True)
25 print(“连接数据库读取信息”)
26 cursor = conn.cursor()
27
28 cursor.execute(SELECT)
29 values = cursor.fetchall()
30 conn.commit()
31 conn.close()
32 return values

两个函数

第一个负责存入数据

第二个负责读取数据

读取数据以后在另外的类中处理得到的数据

例如10K-20K这样的信息,为可视化做准备

 # /bin/python
 # author:leozhao
 #author@email : dhzzy88@163.com

import matplotlib.pyplot as plt import numpy as np

from Constant import JOB_KEY
 

  # 线型图
 

def plotl(dta):
dta.sort()
print(“dta”, [dta])
num = len(dta)
x = np.linspace(0, num - 1, num)
print([int(da) for da in dta])
print(len(dta))
plt.figure()
line = plt.plot(x, [sum(dta) / num for i in range(num)], dta)

# plt.xlim(0, 250)
plt.title(JOB_KEY + 'Job_Info')
plt.xlabel(JOB_KEY + 'Job_Salray')
plt.ylabel('JobNumbers')
plt.show()

 # 条形图
 

def plots(dta):
fig = plt.figure()
ax = fig.add_subplot(111)
ax.hist(dta, bins=15)
plt.title(JOB_KEY + ‘Job_Info’)
plt.xlabel(JOB_KEY + ‘Job_Salray’)
plt.ylabel(‘JobNumbers’)
plt.show()

最后将得到的数据放入在画图程序中画图

最后计算相关数据

在爬取过程中及时将数据存入数据库,减少虚拟机内存的占比。

下面放上数据结果

上面是金融的工作的薪酬调查

下面是材料科学的薪酬调查

蓝色为平均工资。

注意在平均线以上的基本为博士和硕士的学历要求。

具体的数据处理没时间弄,有时间再做。

 
 
**整理不易,如果觉得有所帮助,希望可以留下您的精彩言论再走。赶快为你们最喜欢的框架打Call吧。
大家如果想要学习Python可以加我的Qun:834+179+111,小编整理了2018最新的学习资料和大神分享直播。欢迎还没有找到方向的小伙伴来学习。
本文转自网络 如有侵权 请联系小编删除**

给大家整理了一篇Python+selenium爬取智联招聘的职位信息相关推荐

  1. 招聘网python职位_Python+selenium爬取智联招聘的职位信息

    整个爬虫是基于selenium和Python来运行的,运行需要的包 1 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的 ...

  2. python+selenium爬取智联招聘信息

    python+selenium爬取智联招聘信息 需求 准备 代码 结果 需求 老板给了我一份公司名单(大概几百家如下图),让我到网上看看这些公司分别在招聘哪些岗位,通过分析他们的招聘需求大致能推断出我 ...

  3. python 爬虫学习:抓取智联招聘网站职位信息(二)

    在第一篇文章(python 爬虫学习:抓取智联招聘网站职位信息(一))中,我们介绍了爬取智联招聘网站上基于岗位关键字,及地区进行搜索的岗位信息,并对爬取到的岗位工资数据进行统计并生成直方图展示:同时进 ...

  4. Python爬虫爬取智联招聘(进阶版)

    运行平台: Windows   Python版本: Python3.6   IDE: Sublime Text    其他工具:  Chrome浏览器 0.写在前面的话 本文是基于基础版上做的修改,如 ...

  5. Python爬虫爬取智联招聘职位信息

    目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 #coding:utf-8 import urllib2 import re import xlwtclass ZLZ ...

  6. Python | 爬虫爬取智联招聘(进阶版)

    上一篇文章中<Python爬虫抓取智联招聘(基础版)>我们已经抓取了智联招聘一些信息,但是那些对于找工作来说还是不够的,今天我们继续深入的抓取智联招聘信息并分析,本文使用到的第三方库很多, ...

  7. 【Python爬虫案例学习20】Python爬虫爬取智联招聘职位信息

    目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 ####基本环境配置: Python版本:2.7 开发工具:pycharm 系统:win10 ####相关模块: im ...

  8. Python爬虫爬取智联招聘!谁说Python岗位少的?

    运行平台: Windows   Python版本: Python3.6   IDE: Sublime Text    其他工具:  Chrome浏览器 0.写在前面的话 本文是基于基础版上做的修改,如 ...

  9. Python用Selenium和Chromedriver爬取智联招聘的职位

    步骤: 1.在智联招聘网站选择好职位关键词和作用地址. 2.运行代码. 其中注意点 1.用driver爬取首页时,会弹出如下图窗口.此时可以在代码中设置睡眠2秒,自己手动取消窗口. 2.在这一次爬取中 ...

最新文章

  1. GIT入门笔记(4)- GIT 安装
  2. 设置vue运行npm run dev时候,项目在浏览器自动打开页面的方法
  3. mssql 插入数据缓慢_SQLPro Studio for Mac(数据库管理器)
  4. 电子计算机说明文作文,电脑事物说明文
  5. 高清变脸更快更逼真!比GAN更具潜力的可逆生成模型来了 | OpenAI论文+代码
  6. Perl 第一章概述
  7. 计蒜客挑战难题:移除数组中的重复元素
  8. 内购订单进行二次处理_游戏内购要涨价?谷歌效仿苹果:安卓内购抽成30%
  9. 常见的web前端面试试题(含答案)
  10. java中的类是什么_java中类是什么意思
  11. 新一代云计算数据中心技术方案
  12. pdf转换成word转换器免费版
  13. Android 发送短信
  14. 老毛桃PE系统,迁移系统机械到固态硬盘
  15. 毕设论文数据分析记录-part2:相关性分析
  16. 天翼云无法连接mysql_天翼云Linux主机异常
  17. Linux修改网络支持巨型帧,RAC私网使用巨型帧 Solaris虚拟化环境修改MTU
  18. c语言任伟,任 伟
  19. 第九届大唐杯省赛知识梳理-5G网络技术(10%)
  20. 学Java可以做什么?这九大领域任你选!

热门文章

  1. redis的zset的底层实现_深入理解Redis Zset原理
  2. hdf5文件转换为jpg/png图片
  3. web视频剪辑 在线视频编辑 开发类似:VE视频引擎 美摄sdk VESDK 蓝松短视频SDK 筷子saas剪辑 系统源码
  4. 【Mac使用笔记】mac 设置开机自启动
  5. 产品设计在生活中——设计与生产的关系(3)
  6. 华为鸿蒙os2.0更新,鸿蒙OS2.0更新了吗? 更新方法、更新包大小、使用体验等都来了...
  7. css 如何让文字标题显示在边框上
  8. Vue.js仿饿了么外卖App--(5)评价列表页实现
  9. 资料搜集-JAVA系统的梳理知识17- RPC
  10. Python编程:PyThink数据库交互模块提高爬虫编写速度