网站点击流日志数据分析

点击流数据:关注的是用户访问网站的轨迹,按照时间来进行先后区分
基本上所有的大型网站都有日志埋点
通过js的方式,可以获取到你再网站上面点击的所有的链接,按钮,商品,等等,包括你访问的url的链接等等
js埋点,谁来做???专业的前端来做的
埋点收集的数据,都发送到日志服务器 一条日志大概1Kb来算
数据全部在日志服务器
分析用户的点击数据,得到我们的点击流模型

pageView模型:重视的是每一个页面受到的访问情况,每访问一个页面,就算一条记录
visit模型:重视的是每一个session会话内的访问情况,这次会话内,哪个页面进来,哪个页面出去,进入时间,出去时间

**

网站流量模型分析:

**
分析的是我们网站流量的来源:
广告推广
自然搜索 百度搜索 google搜索
付费搜索 百度竞价排名
直接流量: 直接敲网站的网址

网站流量多维度的细分:

访问来源:从什么地方来访问的
访问媒介:访问的新老用户,目标页面等等

流量常见分析分类:

IP:一天之内访问我这个网站不重复IP的个数
一般来说一个IP可能对应多个人

网站内容及导航分析(内容分析):
进入网站首页 ==》 商品分类页 ==》 商品详情页 ==》 订单确认页 ==》 付款页面

网站转化以及漏斗分析(转化分析):

流量常见分析分类:

骨灰级指标

IP:一天之内访问这个网站不重复IP的个数
一般来说一个IP可能对应多个人
实际工作当中,如何区分一个用户???
使用cookie

pageView:每打开一个页面,就算一次 pv值
一共访问了多少次页面

unique page view:以用户的cookie来为依据,不同的用户对应不同的cookie。
一个用户多次访问网站只算一次,去重之后的访问人数

基础指标:

访问次数:session
访客从进入网站到离开网站的一系列活动记为一次访问,也称会话(session),1次访问(会话)可能包含多个PV。

网站停留时间:访问者在网站上花费的时间。
**页面停留时间:**访问者在某个特定页面或某组网页上所花费的时间。

复合级指标

人均浏览页数:平均每个独立访客产生的PV。人均浏览页数=浏览次数/独立访客。体现网站对访客的吸引程度。(总的浏览的页数/去重人数)
跳出率:指某一范围内单页访问次数或访问者与总访问次数的百分比。其中跳出指单页访问或访问者的次数,即在一次访问中访问者进入网站后只访问了一个页面就离开的数量。
**退出率:**指某一范围内退出的访问者与综合访问量的百分比。其中退出指访问者离开网站的次数,通常是基于某个范围的。

基础分析(PV,IP,UV)

趋势分析:根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。
对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。
当前在线:提供当前时刻站点上的访客量,以及最近15分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。
访问明细:提供最近7日的访客访问记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。

友盟:专业做网站流量统计

流量的来源分析:主要分析我们的流量从哪些渠道过来的
seo搜索优化
来源分类:提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。
搜索引擎:提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。
**搜索词:**提供访客通过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化SEO(搜索引擎优化)方案及SEM(搜索引擎营销)提词方案提供详细依据。
最近7日的访客搜索记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。
来路域名:提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。
来路页面:提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。
来源升降榜:提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。

受访分析:网站受到的访问情况
**受访域名:**提供访客对网站中各个域名的访问情况。 一般情况下,网站不同域名提供的产品、内容各有差异,通过此功能用户可以了解不同内容的受欢迎程度以及网站运营成效。
**受访页面:**提供访客对网站中各个页面的访问情况。 站内入口页面为访客进入网站时浏览的第一个页面,如果入口页面的跳出率较高则需要关注并优化;站内出口页面为访客访问网站的最后一个页面,对于离开率较高的页面需要关注并优化。
受访升降榜:提供开通统计后任意两日的TOP10000受访页面的浏览情况对比,并按照变化的剧烈程度提供排行榜。 可通过此功能验证经过改版的页面是否有流量提升或哪些页面有巨大流量波动,从而及时排查相应问题。
**热点图:**记录访客在页面上的鼠标点击行为,通过颜色区分不同区域的点击热度;支持将一组页面设置为"关注范围",并可按来路细分点击热度。 通过访客在页面上的点击量统计,可以了解页面设计是否合理、广告位的安排能否获取更多佣金等。
**用户视点:**提供受访页面对页面上链接的其他站内页面的输出流量,并通过输出流量的高低绘制热度图,与热点图不同的是,所有记录都是实际打开了下一页面产生了浏览次数(PV)的数据,而不仅仅是拥有鼠标点击行为。
**访问轨迹:**提供观察焦点页面的上下游页面,了解访客从哪些途径进入页面,又流向了哪里。 通过上游页面列表比较出不同流量引入渠道的效果;通过下游页面列表了解用户的浏览习惯,哪些页面元素、内容更吸引访客点击。

访客分析
**地区运营商:**提供各地区访客、各网络运营商访客的访问情况分布。 地方网站、下载站等与地域性、网络链路等结合较为紧密的网站,可以参考此功能数据,合理优化推广运营方案。
**终端详情:**提供网站访客所使用的浏览终端的配置情况。 参考此数据进行网页设计、开发,可更好地提高网站兼容性,以达到良好的用户交互体验。
**新老访客:**当日访客中,历史上第一次访问该网站的访客记为当日新访客;历史上已经访问过该网站的访客记为老访客。 新访客与老访客进入网站的途径和浏览行为往往存在差异。该功能可以辅助分析不同访客的行为习惯,针对不同访客优化网站,例如为制作新手导航提供数据支持等。
**忠诚度:**从访客一天内回访网站的次数(日访问频度)与访客上次访问网站的时间两个角度,分析访客对网站的访问粘性、忠诚度、吸引程度。 由于提升网站内容的更新频率、增强用户体验与用户价值可以有更高的忠诚度,因此该功能在网站内容更新及用户体验方面提供了重要参考。
**活跃度:**从访客单次访问浏览网站的时间与网页数两个角度,分析访客在网站上的活跃程度。 由于提升网站内容的质量与数量可以获得更高的活跃度,因此该功能是网站内容分析的关键指标之一。

转化路径分析
分析漏斗模型:
每一步相对于上一步的转化率
每一步相对于第一步的转化率

流量日志分析网站整体架构模块

1、数据采集模块
使用flume来进行采集
2、数据的清洗(预处理)
使用mapreduce来进行实现
3、数据的入库
将我们清洗之后结构化的数据全部load到hive的表里面去
4、数据的分析
开发数据统计分析的hql的语句
5、数据的展示
展示我们的结果数据
主要通过echart或者highChart 前端的数据展示框架


相对于传统的BI数据处理,流程几乎差不多,但是因为是处理大数据,所以流程中各环节所使用的技术则跟传统BI完全不同:
数据采集:定制开发采集程序,或使用开源框架Flume
数据预处理:定制开发mapreduce程序运行于hadoop集群
数据仓库技术:基于hadoop之上的Hive/impala
数据导出:基于hadoop的sqoop数据导入导出工具
数据可视化:定制开发web程序(echarts或highChart)
整个过程的流程调度:hadoop生态圈中的azkaban工具/oozie

其中,需要强调的是:
系统的数据分析不是一次性的,而是按照一定的时间频率反复计算,因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接,即涉及到大量任务单元的管理调度,所以,项目中需要添加一个任务调度模块。

数据的采集功能

使用flume的tailDirSource 可以按照正则匹配,收集我们某一个文件夹下面的多个不同类型的数据

如果数据这一行数据正在写入,那么过一会儿重试采集,直到数据写入成功
a1.sources = r1
a1.sources.r1.type = TAILDIR
a1.sources.r1.channels = c1
a1.sources.r1.positionFile = /var/log/flume/taildir_position.json
a1.sources.r1.filegroups = f1 f2
a1.sources.r1.filegroups.f1 = /var/log/test1/example.log
a1.sources.r1.filegroups.f2 = /var/log/test2/.log.

channel memory channel

sink: hdfs sink 要控制文件的采集的策略,避免hdfs产生大量的小文件
时间长短 文件大小

采集多个文件

数据采集过来的字段
1、访客ip地址: 58.215.204.118
2、访客用户信息: - -
3、请求时间:[18/Sep/2013:06:51:35 +0000]
4、请求方式:GET
5、请求的url:/wp-includes/js/jquery/jquery.js?ver=1.10.2
6、请求所用协议:HTTP/1.1
7、响应码:304
8、返回的数据流量:0
9、访客的来源url:http://blog.fens.me/nodejs-socketio-chat/
10、访客所用浏览器:Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0

数据的每个字段之间都是用空格隔开的

练习:
数据的清洗:过滤一些静态的数据(有预处理代码)

pageView表模型的数据处理

如何从结构化的数据,转换成pageView模型
1.相同的ip的数据放到一起,按照时间排序,排序之后打上标识
2.同一个ip的数据两条数据之间的时间差,如果大于30分钟,那么就认为是不同的session;如果小于三十分钟,那么就认为是同一个session里面的。

以ip作为k2,相同的数据发送到同一个reduce形成一个集合

逻辑代码的实现:

visit表模型的数据的处理.

逻辑代码的实现:

网站点击流日志数据分析相关推荐

  1. Hadoop实战: 论坛点击流日志分析

    简介 网站点击流日志数据,比如,点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项.总体浏览时间等.而所有这些信息都可被保存在网站日志中.通过分析这些数据,可以获知许多对网站运营至关重要的信息 ...

  2. 网站点击流数据分析系统揭晓

    网站点击流数据分析项目业务背景 1.1 什么是点击流数据 1.1.1 WEB访问日志 即指用户访问网站时的所有访问.浏览.点击行为数据.比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项. ...

  3. 网站流量日志系统知识详解----【点击流事件详解】

    网站流量日志数据分析系统知识详解 1. 点击流数据模型 1.1 点击流概念 点击流(Click Stream)是指用户在网站上持续访问的轨迹.可以通过对网站日志的分析可以获得用户的点击流数据. 1.2 ...

  4. 网站流量日志数据分析系统(模块开发----数据仓库设计)

    1. 维度建模基本概念 维度建模(dimensional modeling)是专门用于分析型数据库.数据仓库.数据集市建模的方法.数据集市可以理解为是一种"小型数据仓库". 维度表 ...

  5. 网站流量日志数据分析系统(1)

    1. 点击流数据模型 1.1. 点击流概念 点击流(Click Stream)是指用户在网站上持续访问的轨迹.这个概念更注重用户浏览网站的整个流程.用户对网站的每次访问包含了一系列的点击动作行为,这些 ...

  6. Hadoop之网站流量日志数据分析

    网站流量日志数据分析系统 点击流数据模型 点击流是指用户在网站上持续访问的轨迹,按照时间来进行先后区分,基本上所有大型网站都有日志埋点.通过js的方式,可以获得用户在网站上所访问的内容,包括url.埋 ...

  7. Hadoop离线_网站流量日志数据分析系统_概述

    流量日志数据分析系统 1.点击流数据模型 2.网站流量模型分析 3.流量常见分析角度和指标分类 4.流量日志分析网站整体架构模块 1.点击流数据模型 1.1点击流概念: 点击流(Click Strea ...

  8. 网站流量日志数据分析系统(一)

    网站流量日志数据分析系统(一) 点击流数据模型 点击流概念 点击流模型生成 如何进行网站流量分析 网站流量分析模型举例 网站流量质量分析(流量分析) 网站流量多维度细分(流量分析) 网站内容及导航分析 ...

  9. 大数据入门第一课 Hadoop基础知识与电商网站日志数据分析

    大数据入门第一课 Hadoop基础知识与电商网站日志数据分析 本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS.YARN.MapRedu ...

最新文章

  1. Pass4side CompTIA PK0-002题库下载
  2. jad 反编译java
  3. html 距离上边缘,HTML - CSS边缘恐怖; 边距在父元素之外添加空格
  4. 项目开发过程中遇到的一些问题和解决办法(逐渐添加)
  5. ASP.NET中常用的文件上传下载方法
  6. 通过影响函数理解黑箱预测
  7. win7 C盘空间越来越小 Windows文件夹变大的问题
  8. STC1_FULLSCREEN_TABLE_CONTROL
  9. 后缀表达式----栈
  10. 微信小程序模板消息推送
  11. Qt对象间的父子关系
  12. 姓名签名设计手写简单自己名字怎么写
  13. NB-IoT窄带物联网的优势特点
  14. 一文读懂channel设计
  15. 蓝牙耳机型号有哪些?口碑最好的蓝牙耳机
  16. aac格式怎么转换为MP3格式
  17. 香蕉派 Banana pi BPI-R2 开源智能路由器 MTK 7623N 方案设计
  18. 随机变量乘积的期望和方差
  19. DCDC自举电容(BST电容)介绍
  20. 退出计算机二级培训的申请书,退社团申请书范文3000

热门文章

  1. 计算机win7教案,win7操作系统教案_相关文章专题_写写帮文库
  2. android 小视频添加水印,安卓手机怎么给视频加水印 视频加水印的手机软件|微信小视频怎么加水印...
  3. 红色墙绘设计公司营销网站织梦模板
  4. 《生物信息学:导论与方法》--本体论、分子通路鉴定--听课笔记(二十)
  5. HTTP常见状态码 200 301 302 404 500
  6. Linux - 权限管理(用户)
  7. android加载.swf flash文件
  8. java.lang.IllegalStateException: Underflow in restore - more restores than saves
  9. 微信公众号申请+新浪SAE申请
  10. EXCEL按照文字颜色统计数量