1. 数据处理流程

网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤:

Ø 数据采集

数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使用Flume等工具把数据采集到指定位置的这个过程叫做数据采集。

关于具体含义要结合语境具体分析,明白语境中具体含义即可。

Ø 数据预处理

通过mapreduce程序对采集到的原始日志数据进行预处理,比如清洗,格式整理,滤除脏数据等,并且梳理成点击流模型数据。

Ø 数据入库

将预处理之后的数据导入到HIVE仓库中相应的库和表中。

Ø 数据分析

项目的核心内容,即根据需求开发ETL分析语句,得出各种统计结果。

Ø 数据展现

将分析所得数据进行数据可视化,一般通过图表进行展示。

2.

 
 

系统的架构

相对于传统的BI数据处理,流程几乎差不多,但是因为是处理大数据,所以流程中各环节所使用的技术则跟传统BI完全不同:

数据采集:定制开发采集程序,或使用开源框架Flume

数据预处理:定制开发mapreduce程序运行于hadoop集群

数据仓库技术:基于hadoop之上的Hive

数据导出:基于hadoop的sqoop数据导入导出工具

数据可视化:定制开发web程序(echarts)

整个过程的流程调度:hadoop生态圈中的azkaban工具

其中,需要强调的是:

系统的数据分析不是一次性的,而是按照一定的时间频率反复计算,因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接,即涉及到大量任务单元的管理调度,所以,项目中需要添加一个任务调度模块。

3. 数据展现

数据展现的目的是将分析所得的数据进行可视化,以便运营决策人员能更方便地获取数据,更快更简单地理解数据。

市面上有许多开源的数据可视化软件、工具。比如Echarts.

大数据整体技术流程及架构相关推荐

  1. 大数据分析整体技术流程及架构

    本文对项目中所用到的大数据分析整体流程技术及其架构进行简要的总结,以供大家在大数据分析平台对数据处理流程更加明确 1.1 数据处理流程 该项目是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处 ...

  2. 巨龙信息大数据集成技术 海量数据集成架构实践

    巨龙信息大数据集成系统是一款基于分布式并行计算架构开发的ETL数据集成系统.具备高吞吐.高可用.高扩展特性,可以为海量数据的超大规模数据仓库建设提供抽取.整合.清洗.入库等集成业务. 巨龙信息大数据集 ...

  3. 企业大数据平台技术体系架构

    2015年国务院向社会公布的<促进大数据发展行动纲要>明确提出了大数据的基本概念:大数据是以容量大.类型多.存取速度快.应用价值高位为主要特征的数据集合,正快速发展为对数量巨大.来源分散. ...

  4. 大数据|Spark技术在京东智能供应链预测的应用案例深度剖析(一)

    大数据|Spark技术在京东智能供应链预测的应用案例深度剖析(一) 2017-03-27 11:58  浏览次数:148 1. 背景 前段时间京东公开了面向第二个十二年的战略规划,表示京东将全面走向技 ...

  5. 大数据、云计算系统高级架构师课程学习路线图

    大数据之Linux+大数据开发篇 大数据的前景和意义也就不言而喻了,未来,大数据能够对大量.动态.能持续的数据,通过运用新系统.新 工具.新模型的挖掘,从而获得具有洞察力和新价值的东西.源于互联网的发 ...

  6. 02云计算与大数据学习之大数据关键技术与应用

    文章目录 1.应知应会 2.大数据总体框架 架构设计原则 总体架构特点 3.大数据存储技术 4.大数据处理技术 大数据处理模式 大数据处理Storm平台 5.大数据分析技术 大数据分析特点 大数据分析 ...

  7. 大数据、云计算系统顶级架构师课程学习路线图

    大数据之Linux+大数据开发篇 Java Linux基础 Shell编程 Hadoop2.x HDFS YARN MapReduce ETL数据清洗Hive Sqoop Flume/Oozie 大数 ...

  8. 基于智慧防雷系统的大数据应用技术研究

    基于智慧防雷系统的大数据应用技术研究 一.  引言 最近几年随着大数据技术的快速发展和应用,智慧城市随即也被正式提出,而且我们也可以深刻感受到"智慧"正在慢慢改变我们的生活方式和城 ...

  9. TiDB 在大型互联网的深度实践及应用--大数据平台技术栈08

    回顾:大数据平台技术栈 (ps:可点击查看),今天就来说说其中的TiDB! 作者介绍 吕磊,摩拜单车高级 DBA 一.业务场景 摩拜单车 2017 年开始将 TiDB 尝试应用到实际业务当中,根据业务 ...

  10. 谈谈对 Canal( 增量数据订阅与消费 )的理解--大数据平台技术栈系列(3)

    之前说了,大数据平台技术栈 (可点击查看),今天就来说说其中的Cannal 来源:朱小厮, blog.csdn.net/u013256816/article/details/52475190 概述 c ...

最新文章

  1. 基于Python的验证码识别技术
  2. 用Debug函数实现API函数的跟踪
  3. 斯坦福NLP组最新报告:自然语言处理中的学习挑战(附149页报告全文下载
  4. Python+django网页设计入门(8):网站项目文件夹布局
  5. mac composer 安装
  6. 中望3D2022弹簧的设计
  7. IReader Silverlight电子阅读器介绍开源项目
  8. asp.net+扫描仪+图片上传
  9. 怎么把电脑上的文件迁移到另一台电脑?
  10. 无版权高清图片素材库pixabay
  11. 通过pyproj进行WGS84到UTM坐标的转换
  12. 《微积分》的本质笔记
  13. 请你相信心有多大,舞台就会有多大
  14. 上古卷轴5json文件修改_改进名称的新Tempering名称定制SSE
  15. win10无法连接wifi_Wifi出现“已连接但无法上网”怎么办, 用这6个方法就能解决?...
  16. oracle 表在线重建,大表在线重建索引的考虑和碰到的限制问题-ORA-1450
  17. du -sh * 与 ls -lh 显示文件大小不一样
  18. snprintf的使用
  19. 使用 OpenAI API 构建 Next.js 应用程序的初学者指南
  20. 如何搭建一个机器人控制系统

热门文章

  1. h5 video标签
  2. 马尔可夫不等式、切比雪夫不等式、柯西-施瓦茨不等式
  3. 以《西游记》为例 详解游戏设计归纳演绎法
  4. java 设置excel颜色_Java 设置Excel图表背景填充(颜色、图片填充)
  5. 解决Windows Server 2008 System进程占用80端口问题
  6. 华为交换机或路由器释放DHCP已分配的地址
  7. mysql 索引失效的7种情况
  8. 初学者使用HTML简单做一个自我介绍
  9. HDU 2825 Wireless Password
  10. PS制作光束散射的旋转文字效果