一、项目要求

二、项目所需数据

使用爬虫对拉勾网进行爬取,爬取和python有关的数据。同时对数据进行处理,把薪资处理成int型,取中间值。

三、配置虚拟机

结合原本教学中已经配置好的三台虚拟机,之后创建第四台虚拟机hadoop004
之后修改IP地址、主机名、建立映射关系等。

同时使用zookeeper让Hadoop004加入原本的集群中,但是我没配,就没有图了。

四、flume日志采集(使用负载均衡)

过程:把data.txt上传到虚拟机中,同时使用flume监听另一个txt文件,使用重定向,将data.txt文件中的内容写入到这个txt文件中,将内容上传到HDFS中。
hadoop001的文件,和另外两台不一样。有需要的可以留言。

分别在01、02、03使用命令启动,先启动02和03



文件内容写入python.txt

cat pydata.txt >>python.txt

2.上传文件、查看

随机选择一个文件,下载到本地,查看。

这个薪资没有处理,可以先处理再传,也可以传两遍。

五、安装hive

1.下载hive压缩包并上传到虚拟机。

2.解压


3.配置、配置hive-site.xml




4.安装MySQL驱动、更换guava.jar



先删除低版本的


复制

5.进行初始化
./schematool -dbType mysql -initSchema

中间会有大片空白

6.启动Hadoop集群、Windows连接MySQL数据库


7.启动hive

8.出现问题,解决问题
解决办法,另一篇博客有
警告解决办法
9.进入hive

六、数据清洗分析——hive(azkaban)

过程:建立pydata数据库;使用它;建立data表格,从内部导入数据;建立分析表,包括地方岗位表,地方薪资表、学历薪资表和经验薪资表。之后逐个添加数据。
使用azkabban进行调度
新建job文件,编写命令,并打成压缩包。

在azkaban中新建项目,导入压缩包,之后执行这个项目。

建立sql文件,存放语句。这些语句也可以在hive中一个一个执行。这里由于是在hive中已经完成了数据分析的再次尝试,所以数据库名字不太一样,没有影响。

七、sqoop连接数据库,传输数据

sqoop连接数据库
把数据打开远程连接,hadoop也已经开启了。


数据库一致,连接成功。
2.建立数据库和表格。
建立pydata数据库,使用pydata,在下面建立岗位地方表jobname、地方薪资表address_sal、学历薪资表edu_sal和经验薪资表exper_sal。

3.利用sqoop传输数据
3.1岗位地方表jobname



这里只有传输的数据的表格不太一样,语句的其余地方不变

问题,很奇怪的问题

明明语句没有任何问题,但是就不成功,而且报错几乎没有。


这里的我是把端口前面的IP地址换成了主机名或者localhost或者是local host的IP地址,我之前是localhost的不行,换成虚拟机的IP就行了。有的人是连其他的虚拟机也有MySQL,可以尝试其他虚拟机的IP地址。

八、数据可视化

我这里只是一个例子,做的是静态的图片。如果想要做动态的,可以使用springboot,进行尝试。

hadoop实习项目——基于互联网招聘信息的统计分析相关推荐

  1. python3小项目——爬取招聘信息(智联招聘)

    2017年6月,花了大概一周的时间学习了以下内容,并基于此写了一个小项目.这里对其进行总结,说明其中遇到的问题和解决方案以及下一步计划. 学习的内容和网址: 斯巴达网站 斯巴达视频 python零基础 ...

  2. 实习僧——数据分析岗招聘信息分析 源代码

    爬取实习僧网站所有数据分析实习相关的岗位信息,对其做数据分析 import pandas as pd import matplotlib.pyplot as plt import seaborn as ...

  3. 手把手教你使用Python网络爬虫获取招聘信息

    1.前言 现在在疫情阶段,想找一份不错的工作变得更为困难,很多人会选择去网上看招聘信息.可是招聘信息有一些是错综复杂的.而且不能把全部的信息全部罗列出来,以外卖的58招聘网站来看,资料整理的不清晰. ...

  4. 综合项目:人工智能领域目前职位及薪资现状分析 - 基于主流招聘网站信息

    ~~~~~~~~本文基于对三大主流招聘网站收集的信息进行清洗.处理.转换的基础上,对当前人工智能领域的行业现状进行了简要分析.通过对数据的特征工程处理生成适合于机器学习算法的数据集,并利用数据集对目前 ...

  5. 基于SpringBoot框架Wbe Magic爬虫框架爬取招聘信息项目(1)

    涉及的技术点:SpringBoot框架.Web Magic爬⾍框架.MySQL.mybatis. 使用语言:Java. 使用工具:idea. 本篇文章主要讲解搭建项目 以及 如何将页面数据输出打印到i ...

  6. 基于互联网的招聘信息统计与分析(作业)

    实习要求: ** 一.基于互联网的招聘信息统计与分析:** 项目流程 1.项目简介: 该项目通过挖掘和分析互联网的招聘信息,并将进行数据统计与分析,把不同的岗位薪酬,相同岗位的不同待遇等方面进行对比. ...

  7. visual画图软件_历史最全科技互联网类免费书籍、音乐、照片、软件、招聘信息整理汇总分享...

    本资源由科技爱好者周刊整理,收集了130多本与科技互联网相关的免费书籍资源,涉及Web 开发.系统管理.编程语言.数据库.软件开发.人工智能.理论书籍等方面.还包括音乐.图片.软件.招聘信息等方面资源 ...

  8. 互联网/计算机 校园招聘信息大全!

    要想找到好工作,及时获得大厂的招聘信息肯定是第一步啦! 微信公众号 "计算机校招",每天都会更新最新的"互联网/计算机/科技类 公司" 校园招聘信息,欢迎关注! ...

  9. Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息

    Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...

最新文章

  1. 【转载from冰河】来杭十周年
  2. php map添加元素,html map标签怎么用
  3. 哪个学校考研考python_python3爬取中国考研网 考研学校名称和地区并进行数据清洗...
  4. ANN:ML方法与概率图模型
  5. python入门第六章 信息安全策略-文件备份 用户账户管理
  6. 第三部分 03 使用HTTP GET进行调用
  7. php如何安装源码包,php源码包安装步骤是什么
  8. 独家:中国电信提出建产业统一开发平台 避免个人与政企业务脱节
  9. sklearn学习笔记之preprocessing
  10. 记录下macbook中maven环境变量配置遇到的问题
  11. Project Tungsten:将Apache Spark更接近裸机
  12. opengl png图片 qt_Qt学习:三维绘图之OpenGL和Qt的结合(转)
  13. 计算机通电后自动断电,电脑自动断电,教您电脑开机自动断电怎么解决
  14. 李开复:人工智能对人类真正的威胁是什么?
  15. 一种基于Gradient Boosting的公交车运行时长预测方法
  16. 去掉文件夹最大化时豪杰V8的播放按钮
  17. 原装RFX2401C集成电路2.4GHZ单芯片射频前端IC无线教学模块
  18. WannaCry2.0勒索病毒两个变种没有本质变化 绿盟科技的防护措施仍然有效
  19. eclipse的下方控制台不见了怎么调出来?
  20. OKR——Objectives and Key Results

热门文章

  1. BIM模型文件下载——某11层建筑Revit模型
  2. 仿途牛旅行应用安卓源码
  3. Matlab自动下载OTB数据集代码
  4. 没学历、没经验、没技能,啥都没有,靠啥找工作?
  5. keyshot渲染玻璃打光_keyshot7耳机渲染打光教程
  6. 「MySQL」从零到删库
  7. STM32F429第二十篇之高级定时器——PWM(OSSI,OSSR)
  8. python机器学习数理基础
  9. 今日小课堂:怎么翻译音频
  10. ​怎么翻译一段音频文件?教你轻松翻译音频文件方法