一:爬取数据

二:上传数据

三:数据分析

四:数据可视化

第一部分:数据的爬取

UP主利用bs4爬取的51招聘的招聘信息。

for i in os.listdir(a):if len(os.listdir(a)) != 0:path = os.path.join(a, i)path = path.split('\\')[-1]os.remove('D:\Dedup\input\\' + path)

这一段代码判断文件夹里有没有已经爬取的文件,如果有就把文件删除。

def job(gw):for i in range(20):url='https://search.chinahr.com/bj/job/pn'+str(i+1)+'/?key='+gwheaders={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53'}response=requests.get(url,headers=headers)response=response.content.decode('utf-8')soup=BeautifulSoup(response,'lxml')result=soup.select('div[class="jobList pc_search_listclick"]')for i in result:litest = i.li.get_text()litest = litest.replace('\n', '').replace(' ', '')ullist=i.select('ul[class="l2"]')ulsalary=ullist[0].select('li[class="job-salary"]')a=ulsalary[0].text.replace('\n', '').replace(' ', '')if a!='薪资面议':file = open('D:\Dedup\input\\'+gw+'.txt', 'a', encoding='utf-8')file.write(litest+':'+a+'\n')gw=input('请输入岗位关键字')
job(gw)

这段是爬虫基础代码。

第二部分:上传数据

此处利用WinSCP,将爬取的数据放到hadoop的 /export/data  文件夹下,之后在linux(CRT)里输入如下语句:
hadoop fs -put /export/data/你爬取的文件名.txt /input

此时已经将爬取的数据文件上传到hadoop了。

进入50070网站检查文件是否上传成功。

第三部分:数据分析

此部分在eclipse中编写。

在准备好的hadoopdemo的maven文件的jsrc/main/java包里创建cn.it包,并创建DedupMapper、DedupReducer和DedupRunner三个文件。

DedupMapper进行处理文件的key-value值(数据预处理)

DedupReduce进行数据分析

DedupRunner是主程序

Map:

Text指定key(file)和value(file2)为string(字符串)类型

用a和b分别记录 :和月的位置

接下来处理爬取的数据  (未处理数据形式如下)

field.set(value.toString().substring(0,a));
        field2.set(value.toString().substring(a+1,b-2));

这两句表示key(file)取到 :之前→(0,a)左闭右开

value取到:之后,元之前

处理后的数据如下:

Reduce:

此处求了各个职业的工资平均值

Runner:

runner后回到50070网站

 点击part-r-00000进行下载后,将part-r-00000放到一个文件夹中。

四:数据可视化

可以用柱状图和词云图等进行操作。

招聘网站职位分析数据可视化系统(Hadoop课设)相关推荐

  1. 大数据项目实战-招聘网站职位分析

    目录 第一章:项目概述 1.1项目需求和目标 1.2预备知识 1.3项目架构设计及技术选取 1.4开发环境和开发工具 1.5项目开发流程 第二章:搭建大数据集群环境 2.1安装准备 2.2Hadoop ...

  2. 数据分析毕业设计 招聘网站大数据分析与可视化系统 - python flask

    文章目录 0 前言 1 课题背景 2 实现效果 3 Flask框架 4 Echarts 5 爬虫 0 前言

  3. Python 基于招聘数据可视化系统

    1 简介 Python 基于招聘数据可视化系统,视频效果如下: 基于Python的招聘信息可视化系统,附源码 随着国内的经济不断的快速发展,现在学生的就业压力也在逐年增加,网络上的招聘信息非常的丰富, ...

  4. 基于hadoop和echarts的教育大数据可视化系统 毕设完整的代码+数据集

    一.摘 要 在线教育平台现在是教育体系的重要组成部分,在当前大数据时代的背景下,促进教育机构建立统一平台.统一资源管理的数字化教学系统.如何评估系统平台的健康程度.学生的学习体验和在线课程的质量对于课 ...

  5. 基于python數據分析的疫情数据可视化系统

    文章目录 前言 1 课题背景 2 实现效果 2.1 整体界面展示 2.2 收集數據 3 實現過程 3.1 爬取疫情數據: 3.1.1 導包 3.1.2 實例化csv 3.1.3 防反爬 3.1.4 爬 ...

  6. AI安防视频分析监控大屏数据可视化系统会如何在现代城市发展?

    相信大家现在对"雪亮工程"."明厨亮灶"."智慧天眼"这类词并不陌生,我们已经建成了强大的视频监控网,视频智能化被运用到了各个独立的行业当中 ...

  7. 大数据 爬取网站并分析数据

    大数据+爬取前程无忧校园招聘+flume+hive+mysql+数据可视化 自己搭建的hadoop博客 1.爬取前程无忧网页和校园招聘 1.1用scrapy爬取前途无忧网站,我爬了10w多条数据,在存 ...

  8. python基于Echarts的城科就业数据可视化系统毕业设计源码150915

    Python城科就业数据可视化系统 摘 要 对于处理广泛的数据并整合到本地,Python爬虫有着自已强大的功能,面对城科就业数据可视化系统研究,我们考虑借助Python爬虫的功能对其实现相应的处理,本 ...

  9. python 爬虫学习:抓取智联招聘网站职位信息(二)

    在第一篇文章(python 爬虫学习:抓取智联招聘网站职位信息(一))中,我们介绍了爬取智联招聘网站上基于岗位关键字,及地区进行搜索的岗位信息,并对爬取到的岗位工资数据进行统计并生成直方图展示:同时进 ...

  10. 从国内招聘网站上的数据也能看

    记得看过某篇文章写到21世纪世界范围内最好的前十大职业有软件工程师一项,平心而论,应该说缺少的是良好职业素养的,有经验的,合格的软件工程师. 从国内招聘网站上的数据也能看出来,近些年由于移动互联网,互 ...

最新文章

  1. 投票系统web服务器,创建一个Web投票系统
  2. Linux动态加载共享库,Linux共享库的动态加载(附测试案例)
  3. 005 Ceph配置文件及用户管理
  4. WordPress更新时提示无法连接到FTP服务器的解决方案
  5. linux mount挂载设备(u盘,光盘,iso等 )使用说明
  6. ACCESS SQL语法参考
  7. 如何进行防SQL注入?
  8. extend()与append()的区别
  9. sql server 2005技术大全_3年2.16~3.2万吨!上机数控子公司与新疆大全签订多晶硅采购长单...
  10. 乔布斯《我生命中的三个故事》
  11. c#文件夹常用操作,属性设置,遍历、压缩
  12. Atitit 团队远景规划与目标总结 v4 目录 1. 使命和组织宗旨 1 1.1. 组织使命 1 1.2. 核心价值观 1 2. 行政目标体系 2 2.1. 打造体系齐全的复合体 2 2.2. 人
  13. GitHub 优秀的 Android 开源项目和框架
  14. Lua EmmyLua 注解详解
  15. ndows10cad安装不上,win10安装cad2014会显示连接不到网络
  16. 腾讯游戏运营总监酒后吹批:运维工程师这些知识点都不会?赶紧找个地埋了吧!
  17. java excel 单元格类型,POI Excel 单元格内容类型判断并取值
  18. 图像形态学处理——灰度梯度(Matlab)
  19. 魔兽地图编辑器触发器中功能函数里各种单位的含义
  20. 奇虎360发财报,搜索发展如何?

热门文章

  1. 用计算机计算教学反思,计算器教学反思
  2. Spring+Spring MVC+MyBatis实现SSM框架整合详细教程【转】
  3. 数据结构与算法之算法篇
  4. 【第1课 项目愿景】PMP敏捷精讲第五章:项目立项 1/4-科科过PMP
  5. jQuery 选择城市,显示对应的即时时区时间
  6. 使用 TF-IDF 算法将文本向量化
  7. 计算机软件职业资格注册,计算机软件职业资格证具体需要考什么科目
  8. 高德地图开放平台概览
  9. SylixOS --- RMS调度详解
  10. 微信小程序在线考试系统 刷题考试小程序毕业设计 毕业论文 开题报告和效果图参考