大数据日志分析系统-hdfs日志存储
先补充spark的博客链接,没在目录显示
hdfs简介:
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
项目需求:
使用hdfs进行客户需要的指定域名时间打包日志 以及原始日志存储进行离线计算
遇到的问题:
在这一步遇到的一个重要的问题:
问题:从kafka中日志直接按域名时间分类存入hdfs时速度不够,主要时数据量太大,当数据量减少到1/10的时候满足要求。
试过:
spark:从kafka取出数据日志解析存入hdfs
logstash: 从kfaka中取出数据,然后自定义conf配置文件,按域名按小时直接存入hdfs
flume: flume自定义filter插件(java写的),将原始日志按照时间域名分类存入hdfs
发现这些东西都是存入hdfs速度不够,当然同时也看hdfs日志,hdfs本来就是适合大文件存储,同时每条日志存储有自己的路径有namenode datanode,现在这样一条日志或者百千条日志就进行一次日志存储的效率明显很低。
进行速度测试:
spark - kafka -logstash:从spark从kafka中取出原始日志然后将结果写入kafka的另一个topic这样的速度是OK的, 然后尝试结果数据再次通过logstash从kafka取出写入hdfs速度是跟不上的。
flume: 直接从kafka中取出然后按域名时间分类,写入本地或者直接屏幕上打印速度都是可以的。
最后的解决是:
flume自定义fliter插件(java),outPutSink插件(java),写入本地(这样已经测试速度是OK的,时间域名分割存储还未OK),本地形成大文件后写入hdfs(这里可以直接通过hdfs的api实现,linux定时脚本调用即可)
当然也可以直接用hbase进行原始日志的存储
git地址示例:
https://github.com/penghaoyou5/Flume-plug-in-log
直接上配置:
ubuntu@sp26:~/apps/hadoop-2.6.4/etc/hadoop$ cat core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://sp26:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/ubuntu/hdpdata</value>
</property>
</configuration>
ubuntu@sp26:~/apps/hadoop-2.6.4/etc/hadoop$ cat hadoop-env.sh
export JAVA_HOME=/home/ubuntu/apps/jdk1.7.0_45
ubuntu@sp26:~/apps/hadoop-2.6.4/etc/hadoop$ cat hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/mnt/data2/wlkhadname,/mnt/data3/wlkhadname,/mnt/data4/wlkhadname,/mnt/data5/wlkhadname,/mnt/data6/wlkhadname,/mnt/data7/wlkhadname,/mnt/data8/wlkhadname,/mnt/data9/wlkhadname,/mnt/data10/wlkhadname</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/mnt/data2/wlkhaddata,/mnt/data3/wlkhaddata,/mnt/data4/wlkhaddata,/mnt/data5/wlkhaddata,/mnt/data6/wlkhaddata,/mnt/data7/wlkhaddata,/mnt/data8/wlkhaddata,/mnt/data9/wlkhaddata,/mnt/data10/wlkhaddata</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.secondary.http.address</name>
<value>sp26:50090</value>
</property>
<property>
<name>dfs.datanode.max.xcievers</name>
<value>8192</value>
</property>
</configuration>
ubuntu@sp26:~/apps/hadoop-2.6.4/etc/hadoop$ cat slaves
sp27
sp28
sp29
sp30
大数据日志分析系统-hdfs日志存储相关推荐
- 毕业设计 - 地铁大数据客流分析系统 设计与实现
文章目录 1 前言 1.1 实现目的 2 数据集 2.2 数据集概况 2.3 数据字段 3 实现效果 3.1 地铁数据整体概况 3.2 平均指标 3.3 地铁2018年9月开通运营的线路 3.4 客流 ...
- ByteV智能电网大数据可视化分析系统
ByteV智能电网大数据可视化分析系统是一个面向电力行业管理部门的综合辅助决策平台,旨在通过大数据技术和系统全方位时空动态感知能力,为电力行业管理决策者提供及时.准确的多维数据分析结果信息,直观展现数 ...
- 【计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩】 https://b23.tv/jRN6MVh
[计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩] https://b23.tv/jRN6MVh https://b23.tv/jRN6MVh
- 大数据系统开发综合实践(淘宝双11大数据批处理分析系统、NBA 、淘宝购物大数据实时展示、Spark GraphX)
cqupt || xmu--大数据系统开发综合实践 代码放在了GitHub上 链接 task01 大数据批处理系统 淘宝双11大数据批处理分析系统 task02 大数据查询分析计算系统 NBA 统计大 ...
- 基于Neo4j中医方剂药材知识图谱大数据可视化分析系统的设计与开发
基于Neo4j中医方剂药材知识图谱大数据可视化分析系统的设计与开发 设计背景 这个系统的开发初衷是笔者希望通过这个系统来学习一下Neo4j的相关技术,包括与python.java的对接.可视化等方面, ...
- 大数据离线分析系统:统计网站PV、UV
目录 一.业务需求 二.业务实现方案 1.技术栈 2.业务实现流程 3.离线分析系统架构图 三.技术实现 1.Hadoop CDH集群管理平台 2.Flume采集服务器日志数据到HDFS 3.Spar ...
- 基于Python的招聘信息的大数据可视化分析系统
1. 项目背景 互联网时代,网络已经完完全全渗透到我们的生活当中,成为我们生活当中的一部分,其中很多求职.找工作也不例外,因此,很多招聘平台,例如像赶集网.58同城.英才网.智联招聘.前程无忧等求职网 ...
- 基于python爬虫天气象大数据可视化分析系统
https://b23.tv/sxy54Qn flask web框架,数据使用requests模块爬取数据,使用bs4模块解析数据,并且存入数据库.数据库使用sqlite数据库.使用flask_sql ...
- 基于大数据的网站日志分析系统
本文没有任何代码,只有各个模块工作的大体机制和整体流程.算是一个科普文吧,我也对原理一知半解. 基于大数据的网站日志分析系统 1. 日志数据格式 1.1 访问日志 1.1.1 log_format 1 ...
最新文章
- leetcode算法题--斐波那契数列
- linux out 日志,关于Linux中nohup.out日志过大问题(示例代码)
- Django(part11)--MTV模式及模板
- MYSQL 8.0 OCP
- 示波器抓取RC663身份证的天线耦合波形
- 计算机管理格式化没有顺利完成,TF存储卡“格式化没有顺利完成”问题解决的方法...
- 电脑风扇狂转,声音巨大是什么原因?
- 亚楠魔域单机V6一键端分享
- openwrt路由器安装Transmission软件包与web控制台(中文界面)
- 取色器插件 react-color ChromePicker
- 联想thinkpadE450笔记本电脑自带的键盘不停自动打\\\\\\
- linux自带查看端口流量命令,iftop命令查看linux系统网卡流量的命令
- excel中联系人转换为csv导入手机出现乱码的解决方法
- Unity快速实现回合制游戏
- FPGA开发工具套餐搭配推荐及软件链接 (更新于2020.03.16)
- 厂长来了 | 从个人英雄到软件工程,我们经历了什么
- NiFi分享第一期-安全认证(证书认证)
- sqlserver、mysql、oracle各自的默认端口号
- MUR20060CT-ASEMI快恢复模块200A 600V
- 黑吧安全网--古墓探秘