1. 项目背景

互联网时代,网络已经完完全全渗透到我们的生活当中,成为我们生活当中的一部分,其中很多求职、找工作也不例外,因此,很多招聘平台,例如像赶集网、58同城、英才网、智联招聘、前程无忧等求职网站如雨后春笋般的出现在市场上,为每一个求职者提供了便利,相对人才市场举办的线下招聘,其成本少、效率高、速度快等优点深受求职者们的青睐。由于企业招聘的特殊性,目前影响薪资的无非是地理位置、工作经验、学历、技术等,这些并非是呈传统性的线性变化。

本项目利用Python实现某一城市招聘相关信息的爬取,并对爬取的原始数据进行数据清洗,存储到数据库中,通过 Flask+echarts+Bootstrap+jquery搭建系统,分析各个区域所招聘企业的数量以及对学历、工作经验、工资等的数据分析。

招聘可视化系统录像

2. 招聘数据

招聘信息爬取流程为,先获取该市所有的在线招聘信息,以南昌为例,通过构造循环,抓取所有分页下的招聘数据。

base_url = 'https://nanchang.xxxx.com/community/p{}/'
start = 1
end = 100
big_Region = "***"        # 图片按照所在区
address = "***"           # 图片按地址存储地址quyu = "***"
small_Region = "***"      # 大区域所包含小区域
count = 0
for i in range(start, end):if i==1:# 第2要修改的地方url = "https://nanchang.xxxx.com/xxxx/" + quyuelse:url="https://nanchang.xxxx.com/xxxx/" + quyu + "/" + "pg" + str(i)link_req = requests.get(url, headers)# print(req.status_code)html = link_req.textsoup = BeautifulSoup(html, "lxml")uls = soup.find('ul', class_="***Content***")

通过lxml解析器对分析html页面的Dom结构,利用 Bootstrap 进行解析,获取招聘信息的详细字段信息。​

同理,获取招聘下所有在招聘信息: ​

3. 招聘据清洗与存储

抓取的原始数据可能存在数据异常、缺失等情况,需要进行数据清洗和数据类型转换等预处理操作。清洗后的数据存储到sqlite数据库中。

# 获取excel里面的数据集
def get_bossLast(dpath):datalist = []df = pd.read_csv(dpath, encoding="gbk")df = df[["职位","公司名","城市","地区","商业区","工作经验","教育水平","公司行业","规模人数","技能","福利","最低薪资","最高薪资","薪资年薪","平均工资"]]datalist = df.values.tolist()return datalist
# 4.保存数据到sqlite3中
def saveDataDB(datalist, dbpath):init_db(dbpath)conn = sqlite3.connect(dbpath)cur = conn.cursor()for data in datalist:for index in range(len(data)):data[index] = '"' + *** + '"'sql = '''insert into ***print(sql)

4. 招聘可视化分析系统

系统采用 flask 搭建 web 后台,利用 pandas、numpy等工具包实现对当前招聘企业的数量、学历、工作经验、工资等进行统计分析,并利用 bootstrap + echarts +bootstraps + Jquery进行前端渲染可视化。

4.1 区域数据分析 

4.2 学历要求数据分析

4.3 工资数据分析

4.4 招聘福利假期行业等的词云分析

5. 总结

本项目利用Python实现某城市招聘相关信息的爬取,并对爬取的原始数据进行数据清洗,存储到数据库中,通过 flask 搭建后台,分析影响工资的各类因素,最终呈现出相关的数据分析可是画图。

注:由于是第一次写,很多不足,请多指教。

基于Python的招聘信息的大数据可视化分析系统相关推荐

  1. 【计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩】 https://b23.tv/jRN6MVh

    [计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩] https://b23.tv/jRN6MVh https://b23.tv/jRN6MVh

  2. 基于python的汽车信息爬取与可视化分析系统

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介 本项目利用网络爬虫技术从某汽车门户网站采集汽车数据,并利用 Flask + Echarts 前后端框 ...

  3. 【大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析

    [大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析-哔哩哔哩https://b23.tv/saIKtBH flask web框架,数据使用requests模块爬取数据, ...

  4. 基于Neo4j中医方剂药材知识图谱大数据可视化分析系统的设计与开发

    基于Neo4j中医方剂药材知识图谱大数据可视化分析系统的设计与开发 设计背景 这个系统的开发初衷是笔者希望通过这个系统来学习一下Neo4j的相关技术,包括与python.java的对接.可视化等方面, ...

  5. ByteV智能电网大数据可视化分析系统

    ByteV智能电网大数据可视化分析系统是一个面向电力行业管理部门的综合辅助决策平台,旨在通过大数据技术和系统全方位时空动态感知能力,为电力行业管理决策者提供及时.准确的多维数据分析结果信息,直观展现数 ...

  6. 基于python爬虫天气象大数据可视化分析系统

    https://b23.tv/sxy54Qn flask web框架,数据使用requests模块爬取数据,使用bs4模块解析数据,并且存入数据库.数据库使用sqlite数据库.使用flask_sql ...

  7. 数字冰雹-智能电网大数据可视化分析平台

    智能电网大数据可视化分析系统是一个面向电力行业管理部门的综合辅助决策平台,旨在通过大数据技术和系统全方位时空动态感知能力,为电力行业管理决策者提供及时.准确的多维数据分析结果信息,直观展现数据变化趋势 ...

  8. 基于 Python 的招聘信息可视化分析系统

    温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 1. 项目简介 本项目利用 Python 从某招聘网站抓取海量招聘数据,进行数据清洗和格式化后存储到关系型数据库中( ...

  9. 基于hadoop和echarts的教育大数据可视化系统 毕设完整的代码+数据集

    一.摘 要 在线教育平台现在是教育体系的重要组成部分,在当前大数据时代的背景下,促进教育机构建立统一平台.统一资源管理的数字化教学系统.如何评估系统平台的健康程度.学生的学习体验和在线课程的质量对于课 ...

最新文章

  1. python 时间模块备忘
  2. oracle 取前10条记录
  3. 一周一论文(翻译 总结)— [Eursys 17] RFP When RPC is Faster than Server-Bypass with RDMA
  4. HDU 1561 The more, The Better (树形DP,常规)
  5. Journey to Un‘Goro 贪心,找规律,搜索(沈阳)
  6. socket , 套接口还是套接字,傻傻分不清楚
  7. DOS系统功能调用表(INT 21H)
  8. HFSS报错A geometry selection is required for selection
  9. Java临时缓存API –测试早期草案评审RI
  10. 某一个接口403 其他接口可以调通_Neo的务实外设指南 篇三十六:一个就够,65W快充+C口混插+最多6个设备 - 飞利浦65W摩天轮插座_插座...
  11. OneMap Client API
  12. 操作系统实战45讲01:运行HelloOS
  13. 排序算法之 插入排序
  14. JForum3 学习笔记1
  15. 手把手带你入坑H5与小程序直播开发
  16. 项目管理学习——PMP 5A高分通过备考经验分享
  17. WIN10的永久杜比音效的安装(2021)
  18. 如何用Directshow采集摄像头图像
  19. PDF怎么转图片格式?分享三个不错的方法
  20. 都市白领要学会的规则

热门文章

  1. linux下多人聊天室
  2. 【无标题】Doris报错 (too many filtered rows)
  3. delmia机器人模型调入
  4. mysql如何手写代码_mysql手写_mysql
  5. 7-14 大小写转换 (10 分)(PTA题目)
  6. 2018第12届广州国际优质大米及品牌杂粮展览会
  7. 微信,qq第三方登录链接
  8. xunsearch(讯搜)部署安装
  9. python + selenium 爬取12306所有车站车次数据
  10. recipe commences before first target. Stop 错误分析