思考该项目(网站流量分析):
1)执行该项目的背景和意义
2)如何去开展网络流量分析(业务)
3)项目整体的框架的流程图+架构
技术流程:围绕着数据的流转(数据从哪里来 数据到哪了)
整体的框架:基于数仓的框架
4)模块开发
数据采集:从零到有:web服务器自带的日志,+自定义收集(埋点采集)
埋点的采集:预先在网页上写下js代码,设置事件,当用户触发这个事件时,会收集相关的信息。
数据的搬迁以及采集:
flume

1.该项目的背景以及意义(网站用户行为分析):
why?
1)有2种网站不需要分析用户:公益性网站+政府网站。其他网站的目的都是盈利
2)该网站是否盈利取决的是用户(比如说爱奇艺是不是充钱变成会员)
3)我们分析用户的行为习惯,根据用户的喜好,推荐用户相关的产品等等,让用户沉淀下来,变成长久性客户(淘宝京东都是如此)

2.如何开展网站分析?
整体是一个金字塔结构(漏斗)形状,分三个部分:流量分析、内容分析、转化分析
塔尖:RIO(投资回报率)。不管从那个角度分析,最终目的都是提高ROI赚钱
塔底:端到端的分析(数据来自于用户,经过分析最终反作用给用户)

质量分析(流程分析):
理解:一个用户打开一个网站,能不能长久性的留下来?留下来时间越长,能不能带来收入
结论:在保证质量的前提下,用户越来越好

多维度分析(流量分析)
细分:通过不同的维度对指标进行分割
扩展:多维度分析模式(麒麟)
什么叫多维度?
比如:统计分析过去3年来自于上海24岁未婚女性购物金额最多前3个。
维度:时间、地域、年龄、婚姻、性别
度量值:sum(金额)---->topN
甚至为了更好的开展多维分析,当下生态圈有一款软件火的一批。Apache kylin.

分析维度:A B C
零维:[]
一维:A B C
二维:AB AC BC
三维:ABC

内容分析:对得到用户的相关信息进行分析
转化分析:
理解:该网站是一个封闭渠道,引导用户按照流程实现最终的目的,意思就是付款
漏斗模型:层层递进 逐级流失
转化率 留存率
流失率

3.项目的流程和技术框架:
流程:先从数据的采集到后台接受到数据为主(now讲的)
1.数据采集分2种:
从无到有:
3.1使用web自带的日志记录功能
优点:简单方便 不需要配置 内置集成可使用
缺点:收集的数据有限 无法自定义
3.2使用前端自定义的埋点功能
埋点:预先在页面上写入js代码,设置事件,当满足一定情况时,触发事件,收集相关的信息
数据的搬运采集
Apache Flume(只针对于海量的日志文件):
基于文件夹监控采集:(source)sqoordir
基于文件实时采集:exec tail -f

2.数据储存
Hadoop hdfs
3.数据预处理
在正式分析数据之前对数据处理动作
理解:变成结构化数据,后期在hive数仓中使用sql便于分析
技术选型
理论上 任何一款软件或者编程语言 只要可以接受数据处理数据并且输出数据 用于预处理。
本项目中:Hadoop MapReduce
java语言程序 熟悉 可以去调用java各种已有工具类
MR是分布式程序 对应大量数据预处理可以并行执行 提高预处理效率
4.数据入库
入库:面向分析的数据仓库
ETL:将业务系统的数据经过抽取,清洗转换后加载到数据仓库的过程
5.数据分析
根据业务需求,编写sql计算各种指标
6.数据应用(可视化)
使用图形或者表格展示数据中的规律,人是视觉动物

以下是网站流量分析的流程图

网站流量分析的整体思路(大数据)相关推荐

  1. Web网站架构演变—高并发、大数据

    转 Web网站架构演变-高并发.大数据 2018年07月25日 17:27:22 gis_morningsun 阅读数:599 前言 我们以javaweb为例,来搭建一个简单的电商系统,看看这个系统可 ...

  2. 专业的网站流量分析和统计分析工具

    蓝太平洋网站决策支持系统(WebEngine)是专业化的网站流量分析系统,可对各类大小型网站进行网站分析.流量统计.可支持几亿流量的大型网站以及网站群,同时可在线处理几年.甚至几十年的数据,是真正的商 ...

  3. 【网站流量分析】某网站网站流量分析报告(CNZZ统计)

    某网站流量分析报告 1思维导图 2流量分析 2.1趋势分析 2.2对比分析 2.3当前在线 3来源分析 3.1来源分类 3.2搜索引擎 3.3搜索词 3.4受访界面 4访客分析 4.1区域分布 4.2 ...

  4. 数据挖掘应用于流失分析的整体思路

    数据挖掘应用于流失分析的整体思路 多看看模型的构建.解读.验证和应用,不要过多纠缠于数字字段是否全面,是否在自己的企业中可以获取以及取值是否完全合理. 了解一些常见的模型,在这个案例中,我们将应用到目 ...

  5. WAP网站流量分析 WAP流量统计 wap网站流量统计

    随着3G在中国的发展以及手机上网用户的增长,免费wap做为手机广告的载体,业内人士预测在未来的中国无线网络营销将大放异彩. WAP的兴盛标志着市场已经走向成熟,WAP站长迫切需要如何了解用户,把握用户 ...

  6. 5W1H(六何分析法)全景洞察大数据

    大数据是什么? 这是一个很大的话题,大数据特点总结起来大约有5个,大量.高速.多样.价值.真实性.笔者也只能根据自己的看法,阐述一二. 大量,根据 中投顾问的数据,最近几年的数据增长为100%-200 ...

  7. 分析型数据库受大数据市场追捧

    文章讲的是分析型数据库受大数据市场追捧,近期,大数据领域有一些值得关注的动向.首先,EMC和VMware正式公布成立新公司Pivotal.其次,Actian公司宣布收购大规模并行处理(MPP)分析数据 ...

  8. 吴继业:LinkedIn商业分析部如何运用大数据实现商业价值

    为什么80%的码农都做不了架构师?>>>    吴继业:LinkedIn商业分析部如何运用大数据实现商业价值 LinkedIn的三大商业解决方案为公司带来了丰厚的利润,这三大解决方案 ...

  9. 网站流量分析,网站流量统计,不用插入代码直接在线免费查询网站流量

    网站流量分析,网站流量统计,不用插入代码直接在线免费查询网站流量 http://www.jaeer.com/site/ 示例:

  10. 分析了100份大数据岗位要求,总结出这4点

    分析了100份大数据岗位要求,总结出这4点 随着大数据应用在生产生活中的普及,大数据人才的需求越来越多,据<中国经济的数字化转型:人才与就业>的报告显示,目前我国大数据技术人才缺口超过15 ...

最新文章

  1. addslashes 及 其他 清除空格的方法是不安全的
  2. 三四线城市高价房内幕:开发商坐庄,中介布局,购房者盲目下注
  3. Window核心编程
  4. 一些关于bootstrap,bagging,Adaboost,random forest, gradient boost的基本理解
  5. ApplicationContextAware
  6. SAP标准培训课程C4C10学习笔记(四)第四单元
  7. 思维导图,流程图模板整合
  8. java.net.SocketException: 权限不够
  9. 【树莓派】给树莓派安装中文输入法Fcitx及Google拼音输入法
  10. linux卸载mysql和myodbc_linux下卸载mysql rpm安装方式和源码安装方式的两种方法
  11. 苹果HTC专利战正酣: 逃离Android?
  12. 华为NP课程笔记22-防火墙
  13. python程序员面试宝典 剑指offer_程序员面试宝典+剑指Offer + 算法100题系列 + 15个经典算法下载...
  14. mysql有rollup函数,Mysql,Oracle使用rollup函数完成行列统计
  15. B站(哔哩哔哩)视频免费下载方式
  16. IT公司内推 互联网内推 bat内推
  17. 在Qt中使用OpenGL(三)
  18. 【进阶版】伪东方project的游戏制作
  19. Chrome安装zotero connector 插件
  20. 参考文献格式生成器(GB/T 7714-2015)

热门文章

  1. java roundup函数_随手记之Linux 2.6.32内核SYN flooding警告信息
  2. dismiss和remove_Android对话框之dismiss和cancel和hide区别
  3. yolox:exceeding yolo series in 2021
  4. LINUX rhcsa小练习题(创建文件/目录,移动/复制文件,重定向/追加重定向,创建别名)
  5. windows下Elasticsearch安装、ElasticSearch-head插件安装使用
  6. 江湖高手专用的“隐身术”:图片隐写技术
  7. PHP 编写“九九乘法表”
  8. SpringBoot2.x系列教程84--SpringBoot中整合日志功能
  9. 如何设计SaaS商业模式
  10. cnn app for android phones,Freedom Apk Download for Android Phones / Tablets Latest Version