伴随着大数据科技的发展和成熟,越来越多的企业和机构使用大数据来进行分析和决策。其主要的分析数据来源于日志文件,所以对日志文件的分析是很重要的也是很关键的步骤。

本系统实现的功能是,将日志信息生成、日志信息传送、日志信息分析,最后落地并可视化展示。完成的业务需求是统计课程TOPN信息,按照地市统计课程TOPN信息,按照流量统计TOPN信息。

系统从需求分析、结构设计、数据库设计,最后到系统实现,分别实现了数据采集、数据收集集群、消息队列、大数据集群、spark数据的处理和落地、java web从数据库读取数据并可视化的功能。本文从系统描述、系统分析、系统设计、系统实现和系统测试几个方面对系统进行了描述和开发。系统使用了大数据的各个框架来辅助完成数据采集和分析功能。系统使用了hadoop集群和spark混用的模式,日志采集使用了flume框架对日志进行采集处理,消息队列使用了kafka框架来搭建,使用zookeeper进行集群容错性管理。最后Spark集群上使用了SparkSQL来对大数据进行离线批处理。在可视化的过程中使用了echarts开源框架等技术进行实现。

关键字:sparkSQL;离线批处理;日志采集;mysql数据库;echarts


Abstract
With the development and maturity of big data technology, more and more enterprises and organizations are using big data to analyze and make decisions. The main analysis data comes from log files, so the analysis of log files is very important and a key step.

The function of this system is to generate log information, log information transfer, log information analysis, and finally landing and visualizing display. The completed business requirement is TOPN information of statistics course, according to TOPN statistics of local city statistics course, and TOPN information according to traffic statistics.

From demand analysis, structure design, database design, and finally to the system implementation, the system realizes data collection, data collection cluster, message queue, large data cluster, spark data processing and landing, and Java Web reads data from database and visualizes the data. This paper describes and develops the system from aspects of system description, system analysis, system design, system implementation and system testing. The system uses various frameworks of big data to assist in data acquisition and analysis. The system uses the model of Hadoop cluster and spark, the log collection uses the flume framework to collect and process the log, the message queue uses the Kafka framework to build, and uses zookeeper to manage the fault tolerance of the cluster. Finally, SparkSQL is used to cluster large data on Spark cluster. In the process of visualization, echarts open source framework is used to implement the technology.

Keywords: spark SQL; offline batch processing; log collection; MySQL database;  echarts

目  录
1  概述 6

1.1 开发背景 6

1.2 开发意义 6

1.3 论文结构 7

1.4 本章小结 8

2  关键技术和使用的工具环境等的说明 9

2.1 IDEA简介 9

2.2 HTML/CSS简介 9

2.3 Spark简介 10

2.4 SparkSQL简介 10

2.5. Hadoop简介 11

2.6. ECharts简介 11

2.7. Mysql简介 11

2.5 本章小结 12

3  需求分析 13

3.1 功能需求分析 13

3.2 业务流程分析 13

3.3 数据流图 17

3.4 数据库概念模型设计 20

3.5 本章小结 20

4  总体设计 21

4.1 系统网络架构设计 21

4.2 系统总体设计 21

4.3 系统功能模块设计 22

4.4 数据库逻辑结构设计 24

4.5 本章小结 24

5  详细设计 25

5.1 程序系统的结构 25

5.2  大数据集群框架模块设计说明 25

5.2.1 程序描述 25

5.2.2 功能 25

5.2.3 算法 26

5.3  大数据处理模块设计说明 26

5.3.1 程序描述 26

5.3.2 功能 27

5.3.3 算法 27

5.4  数据可视化模块设计 27

5.4.1 程序描述 27

5.4.2 功能 28

5.4.3 算法 28

5.4  数据库详细设计 28

5.4.1 数据库表设计 28

5.4.2 数据库连接设计 30

6  系统编码 32

6.1 数据清洗的实现 32

6.2 数据库工具类编写实现 34

6.3导入IPUtils工具类对IP进行解析 36

6.4编写Dao层将数据解析并存储到数据库中 36

6.5 对各维度数据的统计并调用Dao入库 40

6.6 构建数据可视化项目 45

6.7 使用echarts进行数据可视化 47

6.8 本章小结 50

7  系统测试 51

7.1 运行环境说明 51

7.2 服务器集群测试 51

7.3 单元测试 52

7.4 测试结果 55

7.5 本章小结 55

结束语 56

参考文献 58

致  谢 59

java大数据日志分析与可视化设计相关推荐

  1. 小白玩大数据日志分析系统经典入门实操篇FileBeat+ElasticSearch+Kibana 实时日志系统搭建从入门到放弃

    大数据实时日志系统搭建 距离全链路跟踪分析系统第二个迭代已经有一小阵子了,由于在项目中主要在写ES查询\Storm Bolt逻辑,都没有去搭建实时日志分析系统,全链路跟踪分析系统采用的开源产品组合为F ...

  2. 大数据日志分析项目架构

    老是弹出由于您编辑时间过长,页面和服务器之间的连接已断开,请先将文章内容另外保存,再刷新本页面继续编辑让我保存页面我也是醉了,图片多没法一次上传,上传图片还一直失败,我只好都放在一个附件里面了.阿里能 ...

  3. 大数据日志分析系统-hdfs日志存储

    先补充spark的博客链接,没在目录显示 hdfs简介: Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统. 项目需求: 使用 ...

  4. 日志易—大数据日志分析行业的新星(第一节)

    第一章日志易的优势 日志易是一款运维日志和业务日志搜索分析引擎,通过方便灵活的日志搜索分析,帮助用户及时发现问题. 日志易提供在大中型企业内数据中心部署的企业版,也通过公有云提供 SaaS 服务. 1 ...

  5. 大数据日志分析项目mapreduce程序

    总体思路: 使用flume将服务器上的日志传到hadoop上面,然后使用mapreduce程序完成数据清洗,统计pv,visit模型.最后使用azkaban定时执行程序. 用户每次登录根据sessio ...

  6. 大数据日志分析系统-logstash

    logstash简介 Logstash 是一个开源的数据收集引擎,它具有备实时数据传输能力.它可以统一过滤来自不同源的数据,并按照开发者的制定的规范输出到目的地. logstash-2.2.2的配置: ...

  7. [计算机毕业设计]大数据疫情分析与可视化系统

    前言

  8. 【大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析

    [大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析-哔哩哔哩https://b23.tv/saIKtBH flask web框架,数据使用requests模块爬取数据, ...

  9. 毕业设计 - 地铁大数据客流分析系统 设计与实现

    文章目录 1 前言 1.1 实现目的 2 数据集 2.2 数据集概况 2.3 数据字段 3 实现效果 3.1 地铁数据整体概况 3.2 平均指标 3.3 地铁2018年9月开通运营的线路 3.4 客流 ...

最新文章

  1. linux libssh2 实例
  2. JS中三目运算符和if else的区别
  3. 活动选择的贪心算法与动态规划
  4. CodeForces - 1355E Restorer Distance(三分)
  5. 健康饮食五谷杂粮系列PPT模板
  6. PerfMon常用计数器
  7. 【C++ Primer学习笔记】第2章:变量和基本类型
  8. 学习opencv3_如何高效学习计算机视觉?
  9. 2.3 logistic 回归损失函数
  10. Tengine(Nginx)配置SSL(https),应用服务器(Tomcat)无需配置
  11. windows下怎么样搭建RobotFramework测试环境
  12. HBase2.4.10 踩坑笔记
  13. Switch使用方法
  14. python 登录新浪微博_Python模拟新浪微博登录
  15. 实现字符和Unicode码互换 (Java经典编程案例)
  16. 歌词LRC、歌曲文件ID3标签与JAudiotagger
  17. 北大博士把“计算机底层原理“讲的如此通俗易懂
  18. JavaWeb商城项目笔记--- Day1 (热门商品,热销商品)
  19. pcm5102a解码芯片音质评测_200元苹果airpods超强平替,新品JEET ONE蓝牙耳机开箱评测!...
  20. 科普丨DNA机器人的技术研究

热门文章

  1. js数组转对象,对象转数组
  2. 企业开展新闻软文营销的步骤有哪些?
  3. 2022-1-24 为什么虚拟机的IP地址会变?
  4. 区块链毕设源码开题论文-基于区块链的餐厅管理系统
  5. linux 文件cache,Linux下哪些文件在消耗我们的Cache?
  6. 2021-05-29Leetcode114.二叉树展开为链表
  7. SQL Server 配置管理器无法打开
  8. 利用语义分割(FCN)区分两种有文字和无文字区域
  9. ~QQ新版对对碰游戏外挂的制作方法~
  10. CANopen eds对象字典1007 Synchronous Window Length