利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。有些人已此将大数据吹得神乎其神,好像它能成为万能药。其实,这只是大数据应用中的很小一部分。作为智能决策的支持手段之一,大数据在企业、事业、政府、社会管理和发展上的应用是更重要的挑战。在这里,多源数据的融合就成为大数据分析中的瓶颈。

数据处理新工具使数据科学家从数据准备的繁琐工作中解放出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。

利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。有些人已此将大数据吹得神乎其神,好像它能成为万能药。其实,这只是大数据应用中的很小一部分。作为智能决策的支持手段之一,大数据在企业、事业、政府、社会管理和发展上的应用是更重要的挑战。在这里,多源数据的融合就成为大数据分析中的瓶颈。

每个亲身参加过大数据项目的数据科学家、数据分析师、数据库管理员都会告诉你,项目的80%的时间和经费花在数据的准备工作上。这其中多源数据的融合是最耗费资源的任务之一。难怪最近纽约时报惊呼:“数据科学家把高达 80%的时间用于数据准备而不是用来发现新的商业智能”。

传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。在大数据时代,数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。在这个过程中,数据融合(data blending)就成为不可或缺的一步。

数据融合与数据仓库(Data Warehouse)、数据一体化(Data Integration)不同。它的目的不是将一个企业(Enterprise)或组织的所有数据集中在一起并标准化而产生唯一的真相(Single Truth)。它是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集(Analytic Dataset)。这个分析数据集是个独立的和灵活的实体,可随数据源的变化重组、调整和更新。数据融合胜于数据仓库和数据一体化的另一点是它能包容多源数据。

数据融合有六个基本步骤:

  1. 连接所需多源数据库并获取相关数据
  2. 研究和理解所获得的数据
  3. 梳理和清理数据
  4. 数据转换和建立结构
  5. 数据组合
  6. 建立分析数据集

这个过程的每一步都需要数据工作者认真细致的思考、辨认、测试、清理、最后产生可信赖、有意义的分析数据库。在过去,这个数据准备过程很大程度上是通过手动,十分费时和艰辛。即使有数据处理的软件(如Excel, SAS, SPSS等),每个数据工作者也都是自己使用所熟悉的工具,形成个性化的,充其量是半自动的数据准备程序。最近几年,大数据技术公司将数据处理整合过程中相关技术集合,组合,提升后开发出专门用于数据融合的新工具。应用这些直观、可视、高效的软件工具,数据准备的过程的工效大大提高,在一定程度上解决了数据融合的技术瓶颈。

数据融合的另一瓶颈是思维。打个比方,数据融合就像水泥的现场合成。水泥制作可以从人工搅拌变为机械合成,提高了工效。但水泥配置仍需要正确的配方;沙、石、混凝土的比例,以及相关化学成份的添加对达到水泥的质量标准至关重要。数据处理新工具使数据科学家从数据准备的繁琐工作中解放了出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。

多源的数据可以归纳为三大类:

一手数据(Primary Data),包括企业或组织直接采集掌控的内部运行数据和营销数据,

二级数据(Secondary Data),第三者采集、整理、和提供的二手数据,如经济指标、人口普查、民意调查、网路数据等,

科学数据(Scientific Data),包括科学研究 的成果、指数、算法、模型等。

这三类数据为数据为驱动的智能决策提供了不同的观察角度。一手数据具体、灵活、快速积累能够实时或接近实时地为决策者提供监测、追踪、描述信息。二级数据一般是定期公布的数据,它能提供国家、地区、行业的状况信息,成为数据分析中的可比性坐标。科学数据的更新是不定时的,但它代表着目前科研成果,对数据分析的建模和算法提供科学基础。在大数据分析项目中,数据科学家需要针对具体研究课题同时收集、整理、融合相关的三类数据。数据科学家的水平就体现在将三类数据合理、有效、有意义的融合上。

数据融合是目前大数据应用和智能决策过程中一个瓶颈。这个挑战引发了新一轮大数据工具的快速发展。根据2016年高德纳公司数据管理和分析软件工具的评估报告,自我服务式数据准备软件(Self-service Data Preparation)已成为发展最快的工具之一。这一发展趋势应引起我们的关注。同时,数据融合的思维瓶颈仍是所有数据科学家必须面对的更高层次的挑战。

本文作者:佚名

来源:51CTO

多源数据融合:大数据分析的瓶颈相关推荐

  1. 每日生产万亿消息数据入库,腾讯如何突破大数据分析架构瓶颈

    背景介绍 对于腾讯庞大的大数据分析业务,几千台的 Hadoop 集群,近百 P 级的存储总量,每日产生万亿的消息数据入库,需要针对几十亿 IMEI 手机设备去重,并关联数千亿的历史全表,进行曝光.点击 ...

  2. 面向服务的大数据分析平台解决方案

    近年来, 大数据处理与分析已经成为全球性问题,引起欧美各国政府和产业界高度重视,美国政府于2012年3月率先发布了<大数据研究与发展计划>, Google, Amazon. Faceboo ...

  3. 目前大数据分析领域,主要面临的四大瓶颈

    1.数据分析之数据准备瓶颈:OLAP 我们知道从上个世纪90年代,甚包括80年代末,OLAP就已经被很好地使用了.但是我们知道企业的数据和运营的过程,是 个持续动态变化的过程,它需要在第 时间交给业务 ...

  4. 为何要搭建大数据分析平台

    随着行业认知.科技发展以及行业对数据挖掘的需求,人们逐渐重视数据大集中,从上到下打破数据孤岛,实现基础数据根据数据模型互联互通,从而为上层应用提炼统计指标以及数据挖掘打好数据矿山基础.搭建大数据平台成 ...

  5. 结构化大数据分析平台设计

    前言 任何线上系统都离不开数据,有些数据是业务系统自身需要的,例如系统的账号,密码,页面展示的内容等.有些数据是业务系统或者用户实时产生的,例如业务系统的日志,用户浏览访问的记录,系统的购买订单,支付 ...

  6. 大数据分析题-考试竞赛(分享)

    一.选择题 1.下面哪个程序负责 HDFS 数据存储. A.NameNode B.Jobtracker C.Datanode D.secondaryNameNode 答案:C 2.HDfS 中的 bl ...

  7. 大数据分析神兽麒麟(Apache Kylin)

    1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以 ...

  8. 【转】使用Apache Kylin搭建企业级开源大数据分析平台

    http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭 ...

  9. 去重 指定区域数据_大数据分析常用去重算法分析

    去重分析在企业日常分析中的使用频率非常高,如何在大数据场景下快速地进行去重分析一直是一大难点.在近期的 Apache Kylin 沙龙上, Kyligence 大数据研发工程师陶加涛为大家揭开了大数据 ...

  10. 【2017年第2期】税务大数据分析的技术和典型应用

    汪疆平1,肖戎2 1. 北明软件有限公司技术研究院,广东 广州 510663:2. 广东省地方税务局纳税服务处,广东 广州 510630 摘要:基于某省税务局大数据分析项目的实践,结合税务机关的信息化 ...

最新文章

  1. Linux下getsockopt/setsockopt 函数说明
  2. C#封装类似任务管理器CPU使用记录图
  3. js中字符替换函数String.replace()使用技巧
  4. mysql 中文含数字排序_英语| 124期 Sort 坑爹的字符串排序
  5. 再谈 retain,copy,mutableCopy(官方SDK,声明NSString都用copy非retain)
  6. Matlab--m代码转C与C++代码)2(详尽示例与描述)
  7. python自我复制的程序_Python自我
  8. c语言通过定义变量实现对,C语言中定义变量“#X”,X##, ##X 和“##X##”用意
  9. redis如何进行分库存储和选择模糊清除缓存
  10. 更改mysql默认连接数_修改mysql最大连接数
  11. Maxwell 介绍
  12. 2020年Spring学习笔记目录
  13. zipentry java_ZipEntry getNextEntry()
  14. qq三国2015最新服务器,合服服务器查询
  15. react中使用谷歌地图并定位
  16. PISCES P4-vSwitch 安装以及一次失败的测试
  17. NOI2017退役记
  18. 安装webpack powershell出现 Set-ExecutionPolicy : 对注册表项“HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\PowerShell
  19. 大亚湾国土资源数据库异地容灾备份采购项目
  20. Fluent Mybatis 牛逼

热门文章

  1. 几款优秀的Windows密码抓取工具
  2. 学习笔记——使用HiveSql建表
  3. 用word写小论文时如何实现两栏格式公式居中,编号右对齐
  4. html与css知识点集合
  5. 微信小程序获取后端数据
  6. python文本处理的几个库_6个高效的语言处理Python库,你用过几个?
  7. oracle 排序性能优化,Oracle优化之: 利用索引的有序性减少排序
  8. 电路串联和并联图解_如何识别串联电路和并联电路
  9. 如何刷原生android系统版本,小米手机1原生Android4.1系统刷机教程
  10. 批量下载中国气象科学数据共享网的数据