【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例-哔哩哔哩】 https://b23.tv/zKOtd3L

目  录

一 引言​1

二 系统分析​2

2.1 必要性和可行性分析​2

2.2 技术分析​2

三 总体设计​4

3.1 可视化界面设计​4

3.2 数据库设计​4

3.3 网页设计​5

四 实验实现​6

4.1 大数据实验环境的搭建​6

4.1.1 Linux系统及相关软件的配置​6

4.1.2 JDK的安装​7

4.1.3 Scala的安装​8

4.1.4 Hadoop的安装​9

4.1.5 Spark的安装​11

4.1.6 MySQL数据库的安装​11

4.1.7 安装Tomcat​12

4.2 IDEA开发工具的安装​13

4.2.1 启动IDEA​13

4.2.2 为IDEA安装Scala插件​13

4.2.3 配置项目的JDK​14

4.2.4 使用IDEA开发WordCount程序​15

4.3 电信用户行为分析实现过程​20

4.3.1 本地数据集上传到HDFS​21

4.3.2 在MySQL中创建数据库​21

4.3.3 开发Spark程序分析用户行为​24

4.3.4 使用Spring MVC框架进行数据可视化分析​27

4.3.5把网页应用部署到Tomcat服务器中​35

五 结论​38

电信用户行为分析

(安阳师范学院 软件学院,河南 安阳 455002)

摘  要: 电信用户行为分析是对用户登录电信公司网站的数据集加载到分布式文件系统HDFS中,对数据集进行用户行为分析把分析结果写入到MySQL数据库中,最后通过Spring MVC框架进行可视化分析。网站公司可以根据用户渠道趋势的分析、用户请求方式对比情况以及显示用户的具体信息预测未来网民行为的变化方式,进一步扩展公司的业务。本文介绍了整个项目的系统分析,技术分析以及整个项目的总体设计。

关键词:电信用户行为分析;分布式文件系统;Spring MVC框架;MySQL数据库

一 引言

近些年来,随着移动通信网络和互联网技术的融合与发展,移动互联网己经渗入到人们日常工作和生活的各个领域,成为不可或缺的一部分,人们可以非常便捷地使用终端接入通信网络来访问互联网。网络技术的发展为用户提供了多样化、高速率的网络服务;同时,用户更加期待更加具有差异化与个性化的服务。挖掘发现用户上网的共性及个性特征,对用户的行为偏好进行深入洞察,实现精准用户定位和精细化运营,就成为了在移动互联网时代制胜的关键法宝。本次项目主要是针对一些省市的用户登录电信公司网站的数据进行分析和可视化,由此可以清晰地反映出用户登录渠道的变化趋势;用户通过PC机、平板电脑和手机这三种渠道登录网页的分布状况和所占比例;以及查看各用户的具体信息。

二 系统分析

2.1 必要性和可行性分析

电信用户行为分析中根据浙江省丽水市、福建省南平市和福建省福州市三个地方的用户登录电信网站的数据进行分析,主要对用户登录网站渠道趋势的分析、用户登录网站时的请求方式以及显示用户的具体信息。尽管是网络技术发展快速,但是很少有人去透彻的分析网民的具体行为信息,在一定程度上制约了其发展的速度;网站公司也可以通过对用户行为的分析得到未来用户行为的发展趋向,从而可以进一步的扩大网民的数量,进而提高网站公司的发展速度。除此之外电信用户行为分析过程中先通过安装系统,为后边的实验配置好环境,而且各软件的安装步骤和注意事项都是我们之前学过以及安装练习过的,有一定理论基础和经验,安装过程也不会因此而难住。系统安装成功后对电信行业用户行为的数据集进行可视化分析,我们之前也系统的学习过如何对数据进行可视化分析,除此之外我们也可以根据林子雨老师的步骤进行操作,整个实验过程中所用到技术大多都是我们之前系统的学习过的,因此具有相应技术的理论基础。

2.2 技术分析

(1)Linux系统:Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。本次实验的所有步骤都是在Linux系统下进行的,他是整个实验的基础环境。

(2)MySQL:MySQL是一个真正的多用户、多线程SQL数据库服务器。SQL(结构化查询语言)是世界上最流行的和标准化的数据库语言,它使得存储、更新和存取信息更加容易。MySQL是一个客户机/服务器结构的实现,它由一个服务器守护程序mysqld和许多不同的客户程序以及数据库组成的。MySQL是最好的关系数据库管理系统应用软件之一。也是现阶段我们所学的用于存储数据的数据库,他所使用的语言我们相对比较熟悉;我们在实验中主要是用它存储用户行为分析的结果。

(3)Hadoop:Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(Hadoop Distributed File System)来执行MapReduce程序的MapReduce引擎。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。本次实验主要是利用Hadoop中的组件HDFS对电信用户行为数据集进行存储和管理。

(4)Tomcat: Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP 程序的首选。本次实验主要利用它来响应HTML页面的访问请求,以此用来呈现数据挖掘和分析的结果,提供网页服务。

(5)Spring: Spring是一个开放源代码的设计层面框架,他解决的是业务逻辑层和其他各层的松耦合问题,因此它将面向接口的编程思想贯穿整个系统应用。Spring是一个轻量级的Java 开发框架。本次实验主要是利用Spring、Spring MVC框架和MyBatis框架三者组合开发网页应用,对数据分析结果进行可视化展现。

(6)IntelliJ IDEA:是Java语言开发的集成开发环境,在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、 创新的GUI设计等方面的功能可以说是超常的,具有非常好的特性。本实验主要是采用IDEA进行程序开发,对程序进行打包,生成应用程序JAR包。

(7)Spark:Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,它具有运行速度快、易用性好、通用性强和随处运行等特点,本次实验主要是对数据进行计算处理。

三 总体设计

电信用户行为分析主要是以linux操作系统为环境基础,在其基础上配置以Hadoop为主的大数据技术体系。配置MySQL关系型数据库,在MySQL中创建相应的数据库、表和视图,用户分析的结果都会被写入到数据库中。在linux环境中配置网页服务器Tomcat,通过IDEA工具把程序生成应用程序JAR包,把Spring MVC框架中生成的文件复制到Tomcat中,把网页应用部署到Tomcat中,为两者建立相应的连接,然后再打开浏览器,输入相应的地址,就可以看到相应的数据图表。

3.1 可视化界面设计

本文所得到的可视化实现的页面主要包括:用户渠道分析的折线图、用户请求方式对比情况柱状图、用户渠道的饼图和现实用户的具体信息这几个可视化页面。

3.2 数据库设计

数据库主要是在MySQL中建立,本次实验需要在MySQL中创建相应的数据库、表和视图。创建一个新的数据库spark_web用于存储后面创建的表和视图,在数据库spark_web创建一个数据汇总表sum记录关于用户登录电信公司网站的汇总数据(包含:用户编号、登陆次数和在线时长等等);创建数据明细表detail记录关于用户登录电信公司网站的时间信息(包含:用户编号、首次登陆时间和在线时长等等);创建数据原始明细表cleanMap记录用户登录电信公司网站的细节信息(包含: 用户编号、登陆时间、登陆IP地址、登陆区域、请求类型和渠道等);创建区域维表t_dim_area记录区域编码所对应的城市名称;创建渠道维表t_dim_channel记录渠道编码所对应的渠道名称;创建请求类型表t_dim_requesttype记录请求类型编码所对应的请求类型名称。在数据库中也要建立五个相应的视图来作为网页可视化分析的数据源。用户行为分析的结果会被写入到数据库创建的相应的表中,数据库中的视图作为网页可视化分析的数据源;以上便是对数据库的设计。

3.3 网页设计

由于实验的前期以及把数据集分析的结果存入到了MySQL数据库中,通过使用Spring、SpringMVC、MyBatis框架和可视化图表ECharts编写

【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例】相关推荐

  1. 大数据项目(基于spark)--新冠疫情防控指挥作战平台项目

    大数据项目(基于spark)–新冠疫情防控指挥作战平台项目 文章目录 第一章 项目介绍 1.1 项目背景 1.2 项目架构 1.3 项目截图 1.4 功能模块 第二章 数据爬取 2.1 数据清单 2. ...

  2. 【大数据平台】基于Spark的美国新冠肺炎疫情数据分析及预测

    (本实验系中国地质大学(武汉)2022年秋期大数据平台及应用课程设计) 一.选题背景 新型冠状病毒疫情是由严重急性呼吸系统综合征冠状病毒2(SARS-CoV-2)导致的2019冠状病毒病(COVID- ...

  3. python大数据平台_基于腾讯位置大数据平台的全球移动定位数据Python爬取与清洗...

    前不久投稿了一篇论文是以腾讯位置大数据为基础进行人口空间化研究的,但是还未见刊,见刊后会给大家分享下具体的研究方法. 首先打开腾讯位置大数据星云图链接:https://xingyun.map.qq.c ...

  4. 大数据学习系列----基于Spark Streaming流式计算

    2019独角兽企业重金招聘Python工程师标准>>> 个性化的需求 随着互联网知识信息指数级膨胀,个性化的需求对于用户来说越来越重要,通过推荐算法和用户点击行为的流式计算可以很简单 ...

  5. 大数据最佳实践-基于Spark的ETL开发

    目录 数据同步 RDMBS to RDMBS 数据同步 Hive to Hive 数据同步 RDBMS to Hive 数据同步 hive to rdmbs HDFS 数据监控 数据同步 file t ...

  6. 【大数据基础】基于 TMDB 数据集的电影数据分析

    https://dblab.xmu.edu.cn/blog/2400/ 实验内容 环境搭建 pip3 install bottle 数据预处理 本次项目使用的数据集来自知名数据网站 Kaggle 的 ...

  7. 程序思路分享 计算机毕业设计Python+Spark+Hadoop+Flink微博舆情预警系统 微博舆情可视化 舆情大数据 微博大数据 微博爬虫 大数据毕业设计 大数据毕设

    开发技术 前端:vue.js echarts websocket 后端:springboot+mybaits 大数据计算框架:spark flink 机器学习/深度学习:lstm情感分析 爬虫:Pyt ...

  8. 大数据开发:基于Hadoop的数据分析平台

    互联网的发展,带来了各种数据的爆发式增长,所以接入互联网的相关操作行为,都化为虚拟的数据被记录了下来.大数据时代的带来,一个明显的变化就是全样本数据分析,面对TB/PB级及以上的数据规模,Hadoop ...

  9. 正式进入Hadoop学习 不会再有比我还全面的大数据学习(三) Hadoop生态圈

    废寝忘食整理出来的知识梳理,希望能对大家有所帮助 一.概述 1.1 大数据概念 大数据是需要新处理模式才能具有更强的决策力 .洞察发现力和流程优化能力来适应海量.高增长率和多样化的信息资产 1.2 大 ...

最新文章

  1. 局域网与网络工程课堂笔记(1)(2)
  2. C#机房重构-总结(二)
  3. Struts2 (三)OGLN
  4. centos6.8 安装mysql_Centos6.8通过yum安装mysql5.7
  5. 职称计算机应用能力考试模拟题,2016年职称计算机考试模拟题
  6. SPOJ - QTREE2 Query on a tree II(LCA)
  7. 谈谈iOS获取调用链
  8. Restful 表述性状态传递
  9. 20个 CSS 快速提升技巧
  10. Python----常用模块1
  11. win11中gpedit.msc找不到文件怎么办 windows11gepdit.msc找不到文件的解决方法
  12. mybatis利用mapper代理的方法实现多条件查询
  13. keras 基础入门整理
  14. 【IT人物】周杰(清华,耶鲁):Google技术总监周杰创业“死海”淘金
  15. POE交换机怎么开启poe功能
  16. JAVA 通过属性名称 获取属性值、设置属性值
  17. dd error: resource busy
  18. form-data和x-www-form-urlencoded的区别和延伸
  19. 【静态时序分析】如何寻找时序分析的起点与终点
  20. VIVADO报错:[opt31-67]之MIG ip核综合失败

热门文章

  1. 计算机学渣娃,学渣表示看不懂!WIN10中一个小小计算器都如此牛逼
  2. java带头结点的单链表_java编写带头结点的单链表
  3. Riru core is not installed
  4. 2022国内十大正规现货贵金属交易软件排名
  5. 极简而高效的沟通管理法
  6. python——replace函数
  7. 【数据可视化应用】绘制空间地图(附R语言代码)
  8. python cx oracle 11g,怎么在python中使用cx_Oracle模块连接Oracle数据库
  9. 30个网站产品落地页免费模板(附下载)
  10. pip使用清华源 安装opencv