hadoop实习项目——基于互联网招聘信息的统计分析
一、项目要求
二、项目所需数据
使用爬虫对拉勾网进行爬取,爬取和python有关的数据。同时对数据进行处理,把薪资处理成int型,取中间值。
三、配置虚拟机
结合原本教学中已经配置好的三台虚拟机,之后创建第四台虚拟机hadoop004
之后修改IP地址、主机名、建立映射关系等。
同时使用zookeeper让Hadoop004加入原本的集群中,但是我没配,就没有图了。
四、flume日志采集(使用负载均衡)
过程:把data.txt上传到虚拟机中,同时使用flume监听另一个txt文件,使用重定向,将data.txt文件中的内容写入到这个txt文件中,将内容上传到HDFS中。
hadoop001的文件,和另外两台不一样。有需要的可以留言。
分别在01、02、03使用命令启动,先启动02和03
文件内容写入python.txt
cat pydata.txt >>python.txt
2.上传文件、查看
随机选择一个文件,下载到本地,查看。
这个薪资没有处理,可以先处理再传,也可以传两遍。
五、安装hive
1.下载hive压缩包并上传到虚拟机。
2.解压
3.配置、配置hive-site.xml
4.安装MySQL驱动、更换guava.jar
先删除低版本的
复制
5.进行初始化
./schematool -dbType mysql -initSchema
中间会有大片空白
6.启动Hadoop集群、Windows连接MySQL数据库
7.启动hive
8.出现问题,解决问题
解决办法,另一篇博客有
警告解决办法
9.进入hive
六、数据清洗分析——hive(azkaban)
过程:建立pydata数据库;使用它;建立data表格,从内部导入数据;建立分析表,包括地方岗位表,地方薪资表、学历薪资表和经验薪资表。之后逐个添加数据。
使用azkabban进行调度
新建job文件,编写命令,并打成压缩包。
在azkaban中新建项目,导入压缩包,之后执行这个项目。
建立sql文件,存放语句。这些语句也可以在hive中一个一个执行。这里由于是在hive中已经完成了数据分析的再次尝试,所以数据库名字不太一样,没有影响。
七、sqoop连接数据库,传输数据
sqoop连接数据库
把数据打开远程连接,hadoop也已经开启了。
数据库一致,连接成功。
2.建立数据库和表格。
建立pydata数据库,使用pydata,在下面建立岗位地方表jobname、地方薪资表address_sal、学历薪资表edu_sal和经验薪资表exper_sal。
3.利用sqoop传输数据
3.1岗位地方表jobname
这里只有传输的数据的表格不太一样,语句的其余地方不变
问题,很奇怪的问题
明明语句没有任何问题,但是就不成功,而且报错几乎没有。
这里的我是把端口前面的IP地址换成了主机名或者localhost或者是local host的IP地址,我之前是localhost的不行,换成虚拟机的IP就行了。有的人是连其他的虚拟机也有MySQL,可以尝试其他虚拟机的IP地址。
八、数据可视化
我这里只是一个例子,做的是静态的图片。如果想要做动态的,可以使用springboot,进行尝试。
hadoop实习项目——基于互联网招聘信息的统计分析相关推荐
- python3小项目——爬取招聘信息(智联招聘)
2017年6月,花了大概一周的时间学习了以下内容,并基于此写了一个小项目.这里对其进行总结,说明其中遇到的问题和解决方案以及下一步计划. 学习的内容和网址: 斯巴达网站 斯巴达视频 python零基础 ...
- 实习僧——数据分析岗招聘信息分析 源代码
爬取实习僧网站所有数据分析实习相关的岗位信息,对其做数据分析 import pandas as pd import matplotlib.pyplot as plt import seaborn as ...
- 手把手教你使用Python网络爬虫获取招聘信息
1.前言 现在在疫情阶段,想找一份不错的工作变得更为困难,很多人会选择去网上看招聘信息.可是招聘信息有一些是错综复杂的.而且不能把全部的信息全部罗列出来,以外卖的58招聘网站来看,资料整理的不清晰. ...
- 综合项目:人工智能领域目前职位及薪资现状分析 - 基于主流招聘网站信息
~~~~~~~~本文基于对三大主流招聘网站收集的信息进行清洗.处理.转换的基础上,对当前人工智能领域的行业现状进行了简要分析.通过对数据的特征工程处理生成适合于机器学习算法的数据集,并利用数据集对目前 ...
- 基于SpringBoot框架Wbe Magic爬虫框架爬取招聘信息项目(1)
涉及的技术点:SpringBoot框架.Web Magic爬⾍框架.MySQL.mybatis. 使用语言:Java. 使用工具:idea. 本篇文章主要讲解搭建项目 以及 如何将页面数据输出打印到i ...
- 基于互联网的招聘信息统计与分析(作业)
实习要求: ** 一.基于互联网的招聘信息统计与分析:** 项目流程 1.项目简介: 该项目通过挖掘和分析互联网的招聘信息,并将进行数据统计与分析,把不同的岗位薪酬,相同岗位的不同待遇等方面进行对比. ...
- visual画图软件_历史最全科技互联网类免费书籍、音乐、照片、软件、招聘信息整理汇总分享...
本资源由科技爱好者周刊整理,收集了130多本与科技互联网相关的免费书籍资源,涉及Web 开发.系统管理.编程语言.数据库.软件开发.人工智能.理论书籍等方面.还包括音乐.图片.软件.招聘信息等方面资源 ...
- 互联网/计算机 校园招聘信息大全!
要想找到好工作,及时获得大厂的招聘信息肯定是第一步啦! 微信公众号 "计算机校招",每天都会更新最新的"互联网/计算机/科技类 公司" 校园招聘信息,欢迎关注! ...
- Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息
Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...
最新文章
- 【转载from冰河】来杭十周年
- php map添加元素,html map标签怎么用
- 哪个学校考研考python_python3爬取中国考研网 考研学校名称和地区并进行数据清洗...
- ANN:ML方法与概率图模型
- python入门第六章 信息安全策略-文件备份 用户账户管理
- 第三部分 03 使用HTTP GET进行调用
- php如何安装源码包,php源码包安装步骤是什么
- 独家:中国电信提出建产业统一开发平台 避免个人与政企业务脱节
- sklearn学习笔记之preprocessing
- 记录下macbook中maven环境变量配置遇到的问题
- Project Tungsten:将Apache Spark更接近裸机
- opengl png图片 qt_Qt学习:三维绘图之OpenGL和Qt的结合(转)
- 计算机通电后自动断电,电脑自动断电,教您电脑开机自动断电怎么解决
- 李开复:人工智能对人类真正的威胁是什么?
- 一种基于Gradient Boosting的公交车运行时长预测方法
- 去掉文件夹最大化时豪杰V8的播放按钮
- 原装RFX2401C集成电路2.4GHZ单芯片射频前端IC无线教学模块
- WannaCry2.0勒索病毒两个变种没有本质变化 绿盟科技的防护措施仍然有效
- eclipse的下方控制台不见了怎么调出来?
- OKR——Objectives and Key Results