去年下半年,我开始负责公司的用户画像工作,经历了公司用户画像从0到1的搭建过程。从一个大数据小白,开始慢慢了解神秘的大数据是,与数据同事通力合作进行画像标签的清洗输出,设计用户画像分析工具和可视化产品。

本文不是对大数据千篇一律的感悟,而是我一年内工作积累的干货,希望对各位产品经理有帮助。

一、大数据是什么?

大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。

这句话至少传递两种信息:

1、大数据是海量的数据

2、大数据处理无捷径,对分析处理技术提出了更高的要求

二、大数据的处理流程

下图是数据处理流程:

1、底层是数以千亿计的数据源,数据源可以是SCM(供应链数据),4PL(物流数据),CRM(客户数据),网站日志以及其他的数据

2、第二层是数据加工层,数据工程师对数据源按照标准的统计口径和指标对数据进行抽取、清洗、转化、装载(整个过程简称ELT)

3、第三层是数据仓库,加工后的数据流入数据仓库,进行整合和存储,形成一个又一个数据集市。

数据集市,指分类存储数据的集合,即按照不同部门或用户的需求存储数据。

4、第四层是BI(商业智能),按照业务需求,对数据进行分析建模、挖掘、运算,输出统一的数据分析平台

5、第五层是数据访问层,对不同的需求方开放不同的数据角色和权限,以数据驱动业务。

大数据的量级,决定了大数据处理及应用的难度,需要利用特定的技术工具去处理大数据。

三、大数据处理技术

以最常使用的hadoop为例:

Hadoop是Apache公司开发的一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。

集群是指,2台或2台以上服务器构建节点,提供数据服务。单台服务器,无法处理海量的大数据。服务器越多,集群的威力越大。

Hadoop类似于一个数据生态圈,不同的模块各司其职。下图是Hadoop官网的生态图。

Hadoop的LOGO是一只灵活的大象。关于LOGO的来源,网上众说纷纭,有人说,是因为大象象征庞然大物,指代大数据,Hadoop让大数据变得灵活。而官方盖章,LOGO来源于创始人Doug Cutting的孩子曾为一个大象玩具取名hadoop。

从上图可以看出,Hadoop的核心是HDFS,YARN和Map Reduce,下面和大家讲一讲,几个主要模块的含义和功能。

1、HDFS(分布式文件存储系统)

数据以块的形式,分布在集群的不同节点。在使用HDFS时,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的,只需像使用本地文件系统一样管理和存储文件系统中的数据。

2、Map Reduce(分布式计算框架)

分布式计算框架将复杂的数据集分发给不同的节点去操作,每个节点会周期性的返回它所完成的工作和最新的状态。大家可以结合下图理解Map Reduce原理:

  计算机要对输入的单词进行计数:

如果采用集中式计算方式,我们要先算出一个单词如Deer出现了多少次,再算另一个单词出现了多少次,直到所有单词统计完毕,将浪费大量的时间和资源。

如果采用分布式计算方式,计算将变得高效。我们将数据随机分配给三个节点,由节点去分别统计各自处理的数据中单词出现的次数,再将相同的单词进行聚合,输出最后的结果。

3、YARN(资源调度器)

相当于电脑的任务管理器,对资源进行管理和调度。

4、HBASE(分布式数据库)

HBase是非关系型数据库(Nosql),在某些业务场景下,数据存储查询在Hbase的使用效率更高。

关于关系型数据库和菲关系型数据库的区别,会在以后的文章进行详述。

5、HIVE(数据仓库)

HIVE是基于Hadoop的一个数据仓库工具,可以用SQL的语言转化成Map Reduce任务对hdfs数据的查询分析。HIVE的好处在于,使用者无需写Map Reduce任务,只需要掌握SQL即可完成查询分析工作。

6、 Spark(大数据计算引擎)

Spark是专为大规模数据处理而设计的快速通用的计算引擎

7、Mahout(机器学习挖掘库)

Mahout是一个可扩展的机器学习和数据挖掘库

8、Sqoop

Sqoop可以将关系型数据库导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中

除上述模块外,Hadoop还有Zookeeper、Chukwa等多种模块,因为是开源的,所以未来还有出现更多更高效的模块,大家感兴趣可以上网了解。

通过Hadoop强大的生态圈,完成大数据处理流程。

本文转自d1net(转载)

产品经理如何了解高深莫测的大数据?相关推荐

  1. 产品经理书单:《大数据时代:生活、工作与思维的大变革》

    1 书籍基本介绍 书籍名称中文:<大数据时代:生活.工作与思维的大变革> 书籍名称原文:<Big Data:ARevolution That Will Transform How W ...

  2. 大数据时代时代舍恩伯格书资源_产品经理书单:《大数据时代:生活、工作与思维的大变革》...

    一.书籍基本介绍 书籍名称中文:<大数据时代:生活.工作与思维的大变革> 书籍名称原文:<Big Data:A Revolution That Will Transform How ...

  3. 产品经理经常犯的十大顶级错误

    博主导读:本文写的太好,以至于打消了收藏的念头,直接分享出来,希望给更多的同学看到! [7哥导读]做好一个产品经理非常不容易,经常容易犯错误.本文详细描述了产品经理经常犯的十大顶级错误.对产品经理.技 ...

  4. 如何快速全面建立自己的大数据知识体系? 大数据 ETL 用户画像 机器学习 阅读232 作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据

    如何快速全面建立自己的大数据知识体系? 大数据 ETL 用户画像 机器学习 阅读232  作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体 ...

  5. 数据产品经理从零到一:数据产品能力模型构建

    本文为PMCAFF专栏作者田宇洲出品 笔者正在由电商产品经理转型数据产品经理,为了提升自己学习的效率,尝试以这种输出驱动输入的模式,将自己学习的思路和学习内容分享给大家,也希望可以与其他数据产品经理多 ...

  6. 爱肤宝医生产品负责人王照陆:大数据时代下的人工智能医疗

    嘉宾介绍 王照陆:爱肤宝医生产品负责人.前华为研发工程师,CSDN博客专家,同济大学MBA,负责过医疗智能硬件血压.血糖.体脂等产品设计与数据分析:现负责皮肤医疗大数据产品,从0-1实现皮肤轻问诊预约 ...

  7. 什么是产品思维?优秀产品经理应该培养的九大思维

    "什么是产品思维?"每次被小伙伴问到这个问题时,都得踌躇下,这个主题就像"产品经理是干什么的?"一样复杂而庞大,每个人的理解都会不同,但本着存在即合理的原则,就 ...

  8. 【产品经理实战项目系列教程】笔记003:产品经理必看的十大类目网站

    一.聚合类数据 大数据导航: 二.公众号.微博.抖音等当前最火 清博大数据 微榜 新榜 三.浏览 数据报告 百度指数 百度搜索 微博指数 360指数 搜狗指数 四.研究机构 艾瑞数据 企鹅智库 腾讯研 ...

  9. 一个页面区分管理者和普通用户如何设计_产品经理要做的操作权限/数据权限设计...

    产品经理在工作中还需要知道一个:用户权限设计能力.权限设计理念贯穿于后台产品.以及用户前端产品. 权限能力包括两类:数据权限.系统操作权限 有的人会好奇,为什么前端产品会有有权限管理的要求?接下来我将 ...

最新文章

  1. PNAS:水稻微生物组
  2. Innosetup(pascal)标签控件label换行
  3. html+js获取系统当前日期并输出
  4. 使用ilmerge实现.net程序静态链接
  5. jQuery常用选择器有哪些?
  6. 挣多少钱让你觉得生存无忧,有底气做感兴趣的事?
  7. django学习笔记02
  8. MacOS罗技鼠标定义的功能键经常失灵
  9. Java中的动态代理
  10. c语言报告实验反思,c语言实验总结与反思
  11. 11gR2 硬件导致重新添加节点
  12. 打印机有重影问题解决方案
  13. spring技巧之bean加载顺序控制
  14. ssd [Error] UnicodeDecodeError: 'gbk' codec can't decode byte 0x81 in position【已解决】
  15. 在Xml中加注释的方法
  16. 转帖--IT圈子里鬼混---谈谈IT行业的收入和一些生存之道!
  17. SVN :Cannot verify lock on path XXX,no username available
  18. matlab求莫兰指数程序,python计算莫兰指数(Moran's I)并绘制地区热力图——以中国各省pm2.5为例...
  19. 欢迎观看Toni_hou的#生活4
  20. 初试FitNesse

热门文章

  1. 可否帮忙解读一下这组代码(帮忙写个注释)
  2. 数字化转型巨浪拍岸,成长型企业如何“渡河”?
  3. 新走遍美国(二)---故事详情
  4. 转:HEVC、AV1、VVC:如何理解2019年的编解码器世界(干货!)
  5. CCF-CSP真题《202209-1 如此编码》思路+python满分题解
  6. Echarts全国地区地图json获取(包含乡镇)
  7. Python 3.6实现单博主微博文本、图片及热评爬取
  8. uniapp项目实现扫描二维码和NFC识别功能
  9. nyoj 628 小媛在努力 【搜索】
  10. 金融学专业考计算机二级,考计算机二级选哪个科目好 哪个科目简单