网站流量日志分析流程及架构

1. 数据处理流程

网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤 :

  • 数据采集
    数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web 服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使用 Flume 等工具把数据采集到指定位置的这个过程叫做数据采集。
    关于具体含义要结合语境具体分析,明白语境中具体含义即可。
  • 数据预处理
    通过 mapreduce 程序对采集到的原始日志数据进行预处理,比如清洗,格式整理,滤除脏数据等,并且梳理成点击流模型数据。
  • 数据入库
    将预处理之后的数据导入到 HIVE 仓库中相应的库和表中。
  • 数据分析
    项目的核心内容,即根据需求开发 ETL 分析语句,得出各种统计结果。
  • 数据展现
    将分析所得数据进行数据可视化,一般通过图表进行展示。

2. 系统架构

相对于传统的 BI 数据处理,流程几乎差不多,但是因为是处理大数据,所以流程中各环节所使用的技术则跟传统 BI 完全不同:
数据采集:定制开发采集程序,或使用开源框架 Flume
数据预处理:定制开发 mapreduce 程序运行于 hadoop 集群
数据仓库技术:基于 hadoop 之上的 Hive
数据导出:基于 hadoop 的 sqoop 数据导入导出工具
数据可视化:定制开发 web 程序(echarts)
整个过程的流程调度:hadoop 生态圈中的 azkaban 工具

其中,需要强调的是:
系统的数据分析不是一次性的,而是按照一定的时间频率反复计算,因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接,即涉及到大量任务单元的管理调度,所以,项目中需要添加一个任务调度模块。

3. 数据展现

数据展现的目的是将分析所得的数据进行可视化,以便运营决策人员能更方便地获取数据,更快更简单地理解数据。
市面上有许多开源的数据可视化软件、工具。比如 Echarts

喜欢就点赞评论+关注吧

感谢阅读,希望能帮助到大家,谢谢大家的支持!

网站流量日志分析流程及架构相关推荐

  1. 网站流量日志分析系统

    网站流量日志分析系统 网站流量日志分析-01 网站流量日志分析的意义 通过分析用户的行为数据 让更多的用户沉淀下来变成会员 赚取更多的钱. 如何进行网站分析 流量分析 质量分析 在看重数量的同时 需要 ...

  2. 网站流量日志分析——day1

    背景 网站分析对于很多人来说是一个全新的行业,大家会存在常见的一些疑问,网站分析是干什么的?都分析哪些内容?为什么要对网站进行分析?这能带来哪些价值? 回答这些之前,我们先反问一下自己:网站为什么会存 ...

  3. 网站流量日志数据分析系统(1)

    1. 点击流数据模型 1.1. 点击流概念 点击流(Click Stream)是指用户在网站上持续访问的轨迹.这个概念更注重用户浏览网站的整个流程.用户对网站的每次访问包含了一系列的点击动作行为,这些 ...

  4. 网站流量日志系统知识详解----【点击流事件详解】

    网站流量日志数据分析系统知识详解 1. 点击流数据模型 1.1 点击流概念 点击流(Click Stream)是指用户在网站上持续访问的轨迹.可以通过对网站日志的分析可以获得用户的点击流数据. 1.2 ...

  5. 大数据综合项目--网站流量日志数据分析系统(详细步骤和代码)

    文章目录 前言: 基本概述 Sqoop概述 什么是Sqoop Flume概述 什么是Flume 为什么需要flume HIve概述 什么是Hive 系统背景: 模块开发 数据采集 使用Flume搭建日 ...

  6. Hadoop离线_网站流量日志数据分析系统_概述

    流量日志数据分析系统 1.点击流数据模型 2.网站流量模型分析 3.流量常见分析角度和指标分类 4.流量日志分析网站整体架构模块 1.点击流数据模型 1.1点击流概念: 点击流(Click Strea ...

  7. Hadoop之网站流量日志数据分析

    网站流量日志数据分析系统 点击流数据模型 点击流是指用户在网站上持续访问的轨迹,按照时间来进行先后区分,基本上所有大型网站都有日志埋点.通过js的方式,可以获得用户在网站上所访问的内容,包括url.埋 ...

  8. 网站流量日志数据分析系统(一)

    网站流量日志数据分析系统(一) 点击流数据模型 点击流概念 点击流模型生成 如何进行网站流量分析 网站流量分析模型举例 网站流量质量分析(流量分析) 网站流量多维度细分(流量分析) 网站内容及导航分析 ...

  9. 网站蜘蛛日志分析解读,SEO站长自查诊断

    什么是网站日志 通过百科我们也可以了解到,所谓的网站日志指的就是记录web服务器接收处理请求以及运行时错误等各种原始信息的以log结尾的文件.这里站长们要注意的是文件以log为后缀,只需将其下载下来使 ...

最新文章

  1. linux shell 符号 变量 参数表示
  2. HDU_2065 红色病毒问题(指数型生成函数)
  3. linux 分卷压缩到指定目录,运用在android下Linux分卷压缩与分卷解压的命令
  4. mfc中怎么集成文件_怎么把几个pdf合并并打印在一份文件中?
  5. 纸牌三角形(蓝桥杯)
  6. web前端(八)——ajax与jsonp
  7. java Session生命周期讨论
  8. POJ 2991 Crane
  9. 如何安装uclient_UClient软件下载-UClient客户端下载 v2.0.0.1580官方版--pc6下载站
  10. 如何用Python抓抖音上的小姐姐
  11. 论文查重颜色分别代表什么含义?
  12. python列表中字典指定value的中文按照首字母拼音排序,数字在后
  13. Android 复杂的列表视图新写法 MultiType (v3.1.0 修订版)
  14. 新书推荐 |《3D用户界面设计与评估》
  15. Windows修改注册表实现开机自启动
  16. java的常量和变量_JAVA-常量和变量
  17. 裴蜀定理详解+例题: BZOJ 1441 MIN
  18. office图标无法正常显示
  19. git推送代码详细教程
  20. zabbix 5.0监控客户端

热门文章

  1. python 实现电脑桌面文件自动归类
  2. java集合的遍历_java集合遍历方法总结
  3. Swift - 根据图片URL获取图片的大小
  4. Flutter开发之——AlertDialog
  5. 2014年面试官识人的五大额外小“潜规则”
  6. oracle ora-12154问题总结,ORA-12154记一次细节错误
  7. java字符流和字节流转换_java中字符流和字节流的转换
  8. mount:未知的文件系统类型“exfat“ 问题思考与解决
  9. drm android 截屏,DRM-X4.0新增防盗录功能Windows智能防录屏,全面防止截屏和屏幕录制...
  10. 热点项目参考——数据中台解决方案(PPT,下载)