背景

网站分析对于很多人来说是一个全新的行业,大家会存在常见的一些疑问,网站分析是干什么的?都分析哪些内容?为什么要对网站进行分析?这能带来哪些价值?
回答这些之前,我们先反问一下自己:网站为什么会存在?每个网站都有自己存在的目的和意义。除了政府和公益类网站之外,大多数网站的目的都是为了产生货币收入,说白了就是赚钱。要创建出用户需要的网站就必须进行网站分析,通过分析,找出用户实际需求,构建出符合用户需求的网站。

网站分析意义
网站分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。

首先,网站分析是网站的眼睛。是从网站的营销角度看到的网站分析。在这部分中,网站分析的主要对象是访问者,访问者在网站中的行为以及不同流量之间的关系。
其次,网站分析是整个网站的神经系统。这是从产品和架构的角度看到的网站分析。在这部分中,网站分析的主要对象是网站的逻辑和结构,网站的导航结构是否合理,注册购买流程的逻辑是否顺畅。
最后,网站分析是网站的大脑,在这部门中,网站分析的主要分析对象是投资回报率(ROI)。也就是说在现有的情况下,如何合理的分配预算和资源以完成网站的目标。
终极意义:改善网站的运营,获取更高投资回报率(ROI)。赚更多的钱。

数据处理流程

  • 数据采集

  • 数据从无到有,或者通过flume等共计进行数据采集搬运

  • 数据预处理

数据预处理(data preprocessing)是指在正式处理以前对数据进行的一些处理

本项目中通过MapReduce程序对采集到的原始日志数据进行预处理,比如数据清洗,日期格式整理,滤除不合法数据等,并且梳理成点击流模型数据。
使用MapReduce的好处在于:一是java语言熟悉度高,有很多开源的工具库便于数据处理,二是MR可以进行分布式的计算,并发处理效率高。

  • 数据入库

  • 数据分析和数据可视化
  • 数据分析使用hive sql
  • 数据可视化使用图标

架构

相对于传统的BI数据处理,流程几乎差不多,但是因为是处理大数据,所以流程中各环节所使用的技术则跟传统BI完全不同:

  • 数据采集:页面埋点JavaScript采集;开源框架Apache Flume
  • 数据预处理: Hadoop MapReduce程序
  • 数据仓库技术:基于hadoop的数据仓库Hive
  • 数据导出:基于hadoop的sqoop数据导入导出工具
  • 数据可视化:定制开发web程序(echarts)
  • 整个过程的流程调度:hadoop生态圈中的azkaban工具

模块开发-数据采集

网站流量日志数据获取

网站日志文件(Log files)

记录网站日志文件的方式是最原始的数据获取方式,主要在服务端完成,在网站的应用服务器配置相应的写日志的功能就能够实现,很多web应用服务器自带日志的记录功能。如Nginx的access.log日志等。

页面埋点js自定义采集。

埋点是指:在网页中预先加入小段javascript代码,这个代码片段一般会动态创建一个script标签,并将src属性指向一个单独的js文件,此时这个单独的js文件(图中绿色节点)会被浏览器请求到并执行,这个js往往就是真正的数据收集脚本。

数据收集完成后,js会请求一个后端的数据收集脚本(图中的backend),这个脚本一般是一个伪装成图片的动态脚本程序,js会将收集到的数据通过http参数的方式传递给后端脚本,后端脚本解析参数并按固定格式记录到访问日志,同时可能会在http响应中给客户端种植一些用于追踪的cookie。

  • 设计实现

网站流量日志分析——day1相关推荐

  1. 网站流量日志分析流程及架构

    网站流量日志分析流程及架构 1. 数据处理流程 网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行.有以下几个大的步骤 : 数据采集 数据采集概念,目前行业会有两 ...

  2. 网站流量日志分析系统

    网站流量日志分析系统 网站流量日志分析-01 网站流量日志分析的意义 通过分析用户的行为数据 让更多的用户沉淀下来变成会员 赚取更多的钱. 如何进行网站分析 流量分析 质量分析 在看重数量的同时 需要 ...

  3. 网站蜘蛛日志分析解读,SEO站长自查诊断

    什么是网站日志 通过百科我们也可以了解到,所谓的网站日志指的就是记录web服务器接收处理请求以及运行时错误等各种原始信息的以log结尾的文件.这里站长们要注意的是文件以log为后缀,只需将其下载下来使 ...

  4. 网站流量日志数据分析系统(1)

    1. 点击流数据模型 1.1. 点击流概念 点击流(Click Stream)是指用户在网站上持续访问的轨迹.这个概念更注重用户浏览网站的整个流程.用户对网站的每次访问包含了一系列的点击动作行为,这些 ...

  5. 网站流量日志系统知识详解----【点击流事件详解】

    网站流量日志数据分析系统知识详解 1. 点击流数据模型 1.1 点击流概念 点击流(Click Stream)是指用户在网站上持续访问的轨迹.可以通过对网站日志的分析可以获得用户的点击流数据. 1.2 ...

  6. 一款非常好用的网站访问日志分析工具,360星图

    原文转载自:豫章小站 » <[分享]360星图,一款非常好用的网站访问日志分析工具> 广大站长有没有这样一个体验,网站流量异常,要通过网站日志来分析的时候非常头疼,日志文件很大,一条一条来 ...

  7. Hadoop之网站流量日志数据分析

    网站流量日志数据分析系统 点击流数据模型 点击流是指用户在网站上持续访问的轨迹,按照时间来进行先后区分,基本上所有大型网站都有日志埋点.通过js的方式,可以获得用户在网站上所访问的内容,包括url.埋 ...

  8. 大数据综合项目--网站流量日志数据分析系统(详细步骤和代码)

    文章目录 前言: 基本概述 Sqoop概述 什么是Sqoop Flume概述 什么是Flume 为什么需要flume HIve概述 什么是Hive 系统背景: 模块开发 数据采集 使用Flume搭建日 ...

  9. Hadoop离线_网站流量日志数据分析系统_概述

    流量日志数据分析系统 1.点击流数据模型 2.网站流量模型分析 3.流量常见分析角度和指标分类 4.流量日志分析网站整体架构模块 1.点击流数据模型 1.1点击流概念: 点击流(Click Strea ...

最新文章

  1. 数据、算法岗的几点经验分享!
  2. SimpleDelegate 委托
  3. C++编程练习(5)----“实现简单的循环队列的顺序存储结构“
  4. kettle读取json文件并读取数据_Labview打开Excel文件读取数据
  5. 学习笔记(10):Python网络编程并发编程-粘包现象
  6. 复合索引字段的排序对搜素的影响
  7. Hbase ImmutableBytesWritable数据类型
  8. add php support,WordPress add_theme_support() 函数详解
  9. 2022年11月(下半年)信息系统项目管理师考试-综合知识真题及解析
  10. 在IT行业中扮演技术支持和程序员的未来分析
  11. Zing实现本地相册识别二维码
  12. canopen服务器协议,CANopen协议详情讲解.docx
  13. 如果说这个世界不是真实存在的,只是一段代码,迄今为止你发现了哪些bug?
  14. linux 服务器运维常用命令
  15. 传美云商系统开发源码
  16. 微信小程序的登录界面实现
  17. windows配置java环境
  18. 802.11 MAC 基础
  19. CEA-2014(简述)
  20. 天地图矢量数据下载_全球谷歌卫星地图影像数据下载

热门文章

  1. 【哈呀呀】怎么样?全方位点评哈呀呀
  2. 关于650w电源能否带动两个GTX 1070ti显卡
  3. java短整型_JAVA个基本数据类型
  4. WPF入门学习----系列基础教程
  5. citespace使用常见问题的帮助
  6. android饿了么购物车,分享一个购物车的demo(效果高仿饿了么软件的购物效果)
  7. AE PR 3D动画 相关插件网站
  8. Azure ML 机器学习: 创建 Workspace 以及获得 Workspace 的多种方法
  9. 中国电子学会-全国青少年软件编程等级考试标准 (Python 语言 1-6 级)
  10. 这几个月最有价值的七个感悟