2021年大数据基础(四):大数据业务分析基本步骤
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习。
有对大数据感兴趣的可以关注微信公众号:三帮大数据
目录
大数据业务分析基本步骤
明确分析目的和思路
数据收集 flume sqoop kettle
数据处理-ETL MapReduce Spark
数据分析 HiveSQL SparkSQL
数据展现
报告撰写
部门组织结构
大数据业务分析基本步骤
典型的大数据分析包含以下几个步骤:
明确分析目的和思路
明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据的收集、处理及分析提供清晰的指引方向。
目的是整个分析流程的起点。目的不明确则会导致方向性的错误。即思考:为什么要开展数据分析,通过这次数据分析要解决什么问题?
当明确目的后,就要校理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。只有明确了分析目的,分析框架才能跟着确定下来,最后还要确保分析框架的体系化,使分析更具有说服力。
体系化也就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系。避免不知从哪方面入手以及分析的内容和指标被质疑是否合理、完整。所以体系化就是为了让你的分析框架具有说服力。
要想使分析框架体系化,就需要一些营销、管理等理论为指导,结合着实际的业务情况进行构建,这样才能保证分析维度的完整性,分析结果的有效性以及正确性。比如以用户行为理论为指导,搭建的互联网网站分析指标框架如下:
把跟数据分析相关的营销、管理等理论统称为数据分析方法论。比如用户行为理论、PEST分析法、5W2H分析法等等,详细请查阅附件资料。
数据收集 flume sqoop kettle
数据收集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据,第二手数据主要指经过加工整理后得到的数据。一般数据来源主要有以下几种方式:
数据库:每个公司都有自己的业务数据库,存放从公司成立以来产生的相关业务数据。这个业务数据库就是一个庞大的数据资源,需要有效地利用起来。
公开出版物:可以用于收集数据的公开出版物包括《中国统计年鉴》《中国社会统计年鉴》《中国人口统计年鉴》《世界经济年鉴》《世界发展报告》等统计年鉴或报告。
互联网:随着互联网的发展,网络上发布的数据越来越多,特别是搜索引擎可以帮助我们快速找到所需要的数据,例如国家及地方统计局网站、行业组织网站、政府机构网站、传播媒体网站、大型综合门户网站等上面都可能有我们需要的数据。
市场调查:进行数据分析时,需要了解用户的想法与需求,但是通过以上三种方式获得此类数据会比较困难,因此可以尝试使用市场调查的方法收集用户的想法和需求数据。
数据处理-ETL MapReduce Spark
数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段。数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。
数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”’的原始数据也需要先进行一定的处理才能使用。
数据处理是数据分析的基础。通过数据处理,将收集到的原始数据转换为可以分析的形式,并且保证数据的一致性和有效性。
数据分析 HiveSQL SparkSQL
数据分析是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。由于数据分析多是通过软件来完成的,这就要求数据分析师不仅要掌握各种数据分析方法,还要熟悉数据分析软件的操作。
数据挖掘其实是一种高级的数据分析方法,就是从大量的数据中挖掘出有用的信息,它是根据用户的特定要求,从浩如烟海的数据中找出所需的信息,以满足用户的特定需求。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。一般来说,数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律。数据分析与数据挖掘的本质是一样的,都是从数据里面发现关于业务的知识。
数据展现
一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图等。
大多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析所要表达的观点。记位,一般情况不,能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。
报告撰写
数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。
一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼 ,提供视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
另外,数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为我们最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。
最后,好的分析报告一定要有建议或解决方案。作为决策者,需要的不仅仅是找出问题,更重要的是建议或解决方案,以便他们做决策时作参考。所以,数据分析师不仅需要掌握数据分析方法,而且还要了解和熟悉业务,这样才能根据发现的业务问题,提出具有可行性的建议或解决方案。
部门组织结构
-
2021年大数据基础(四):大数据业务分析基本步骤相关推荐
- 【大数据】大数据基础知识科普--数据分层
大数据基础知识科普–数据分层 (ETL.ODS.DW.DWD.DWM.DWS.DIM) 零.数据加载层:ETL(Extract-Transform-Load) 一.数据操作层:ODS(Operatio ...
- 大数据基础--学好大数据必看的文章
大数据的项目流程 数据生产 数据采集 数据存储 需求分析 数据预处理 数据计算 数据存储 8.结果展现 大数据基础知识 目录 什么是服务器? 什么是RAID? 什么是集群? 什么是网络? 什么是交换机 ...
- 「大数据概述四」数据中台建设
数据采集层:既包括传统的ETL离线采集.也有实时采集.互联网爬虫解析等等. 数据处理层:根据数据处理场景要求不同,可以划分为HADOOP.MPP.流处理等等. 数据分析层:主要包含了分析引擎,比如数据 ...
- 大数据基础——Hadoop大数据平台搭建
文章目录 前言 Hadoop大数据平台搭建 一.Hadoop原理和功能介绍 二.Hadoop安装部署 三.Hadoop常用操作 总结 前言 分布式机器学习为什么需求大数据呢?随着海量用户数据的积累,单 ...
- 云计算与大数据基础之大数据
什么是大数据 维基百科将大数据描述为: 大数据是现有数据库管理工具和传统数据处理应用很难处理的大型.复杂的数据集,大数据的挑战包括采集.存储.搜索.共享.传输.分析和可视化等. 大数据的"大 ...
- 初识大数据(四. 大数据与人工智能的关系)
大数据与人工智能有什么关系呢?AI本身就是一种大数据的应用,特别是在对于AI系统进行训练的时候,使用的数据越多,AI系统就越先进.也就是说对于人工智能系统进行训练使用的数据量越大,数据质量越好,人工智 ...
- 大数据业务分析基本步骤
做什么事情都要有流程,要知道做什么,怎么做,of course,BigData也不例外. 明确分析目的和思路-->数据收集-->数据处理-->数据分析-->数据展现--> ...
- 大数据基础知识科普--数据分层(ETL、ODS、DW、DWD、DWM、DWS、DIM)
零.数据加载层:ETL(Extract-Transform-Load) 一.数据运营层:ODS(Operational Data Store) 二.数据仓库层:DW(Data Warehouse) 1 ...
- python储存数据的容器_Python基础四容器类数据
一.上周内容回顾 int bool str 之间的互相转换 int str: str(int) int(str) #字符串必须是数字组成 int bool: bool(int): 非零即True ...
最新文章
- linux shell sed命令 在文本每行 行尾 或 行首 添加字符
- MPLS转发过程中涉及的相关概念—Vecloud微云
- php loading效果,利用CSS3打造十种Loading效果
- 动态规划 —— 线性 DP —— 字符串编辑距离
- 鸿蒙轻内核源码分析:异常钩子模块系统中断异常,如何转储异常信息
- nc65 单据非向导开发 源代码_最受Java开发者喜爱的5款开发工具
- 远程多台前置机连接服务器上配置作业,得到作业运行历史记录
- mysql在学号列创建主码约束_MySQL 数据完整性
- windows启动linux系统,windows 10 启动linux系统
- 网络电话坐享iOS10红利 iphone7免费通话
- 吊炸天的Kubernetes微服务图形化管理工具:Kuboard,必须推荐给你!
- Win7 64位中文旗舰版上Cocos2d-x 3.0的Android开发调试环境架设
- jsp linux 一键安装包,JspStudy免费版|JspStudy(jsp环境一键安装包) v2016.01.01免费版_星星软件园...
- (转载)c++builder/delphi中透明panel及透明窗口的实现方法_delphi教程
- 个人信息安全规范----9、个人信息保护政策模板
- R如何读取txt文件
- linux 定时任务 非root,linux下的计划任务——只执行一次的定时任务,
- N个鸡蛋放到M个篮子中
- 音乐播放器制作 (HTML + CSS + JavaScript)
- linux下搜狗拼音隐藏悬浮状态栏
热门文章
- 2022-2028年中国EBA树脂(乙烯丙烯酸丁酯)产业竞争现状及发展前景规划报告
- Go 学习笔记(65)— Go 中函数参数是传值还是传引用
- Linux shell 学习笔记(8)— 使用结构化命令(if-then 语句、数值比较、字符串比较、文件比较、case 语句)
- linux配置java环境变量(详细)
- 内积和外积的物理意义-数学
- Pytorch两种模型保存方式
- GloVe:另一种Word Embedding方法
- 几何深度学习(Geometric Deep Learning)技术
- 全文翻译(二): TVM: An Automated End-to-End Optimizing Compiler for Deep Learning
- 如何在框架外部自定义C++ OP
- 【大数据】大数据基础知识科普--数据分层