01

什么是小数据治理

谈小数据治理,首先说一说什么是小数据。在百度百科上我们可以查到小数据的定义是:“小数据(small data),或称个体资料,是指需要新的应用方式才能体现出具有高价值的个体的、高效率的、个性化的信息资产。”小数据,并不是指数据量小,而是围绕个人为中心全方位的数据,及其配套的收集、处理、分析和对外交互。在笔者看来,小数据是相对大数据而言的,在大数据的概念没有出现之前,数据就是数据,没有什么大小之分,但由于应用场合、存储方式、处理方式的不同却分出大小,就有了所谓的大数据、小数据。从广义上来讲,大数据通常指的是大量结构化数据与非结构化数据的集合体,而小数据通常指的是结构化数据。

小数据治理范围包括:主数据管理、数据标准管理、数据质量管理、元数据管理。小数据的治理讲求的是:有序、量化、精准,小数据的一切工作都是围绕这个目标而开展的。而在小数据治理领域,主数据管理的应用十分典型。虽然说小数据不等于是主数据,但主数据却是一种典型的小数据。主数据治理在小数据治理领域是具备一定的代表性的,完全符合小数据治理的“有序、量化、精准”三大目标。

02

什么是大数据治理

对于“大数据”我们都知道他的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)。由于这“4V”特点的存在,导致大数据的处理和利用模式,与传统的结构化数据不同。正如研究机构Gartner给出的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

大数据治理从概念上来说与数据治理没有差别,大数据治理也包含元数据管理、数据质量管理、数据安全管理、数据标准管理、数据全生命周期管理等领域。但从本质上而言,由于大数据的4V特点,传统的数据治理模式和技术并不完全适配大数据治理。

首先

传统数据治理重点是建立数据标准,然后在数据的全生命周期过程中来执行数据标准,从而提升数据质量。而大数据治理,数据来源多样化、数据结构多样化,数据传输存储形式的多样化……,这导致从一开始我们就很难为其定义数据标准。甚至有些数据都不知道他现在有什么价值,对于小数据治理如果数据定义、数据价值说不清楚的话,是没有必要纳入数据治理范围的。但大数据治理就是在这大量的看起来没有关系的数据中找关系,没有价值的数据中挖掘价值,这就是大数据治理的魅力所在。

其次

传统的小数据治理更多的是侧重于样本数据的治理,数据库的模式是Schema on Write,即在数据治理之前要先定义好数据的Schema,包括了数据库的表、视图、存储过程、索引等,以及每个数据库条目对应的映射关系等,其采集、处理的过程是基于定义的Schema进行执行的。而大数据治理关注的全量数据,数据库模式是Schema on Read的模式,即在采集各类数据时不需要定义各种数据库对象,整个采集存储过程没有涉及到任何转置,原始数据没有因为需要结构化或匹配差异系统而遭到破坏。

写时模型,作用于数据源到数据汇聚存储之间,典型使用就是传统数据库,数据在入库的时候需要预先设置schema。

读时模型,作用于数据汇聚存储到数据分析之间,数据先存储,然后在需要分析的时候再为数据设置schema。

03

小数据与大数据的区别

1、大数据重预测,小数据重决定。

大数据的分析方式是自下而上的知识发现和预测过程,通过在一堆杂乱无章的数据中找到其背后的规律,所以大数据是从不确定性中找确定性。小数据分析通常会采用统计学方法,分析方式是自上而下。

2、大数据重感知,小数据重精准。

大数据可以做整体上的感知,影响的范围更广,比如舆情监测、流感监测、网络营销、智慧城市等应用。小数据通常更关注数据的真实性和代表性,小数据更聚焦。大数据往往包含了众多真假难辨的数据,而小数据通常对于数据来源有严格的甄别,所以小数据更精准。

3、大数据重相关,小数据重因果。

大数据通常更注重是什么而不纠结于为什么,通过相关性来给出问题的解决方案。小数据是结果导向,更注重现象背后的内在机理,更关注于为什么。

4、大数据重预测,小数据重决定。

大数据的分析方式是自下而上的知识发现和预测过程,通过在一堆杂乱无章的数据中找到其背后的规律,所以大数据是从不确定性中找确定性。小数据分析通常会采用统计学方法,分析方式是自上而下。

5、大数据重群体,小数据重个体。

大数据的应用通常更注重群体性行为的分析结果,比如网络消费的大数据分析等,小数据往往更注重于个体的行为分析结果,个性化是小数据的重要特点。

数据表示的是过去,但表达的是未来。尽快大数据与小数据从数据处理和应用的角度有着很大的区别,但是对于大数据和小数据并不是“非黑即白”,而在我们的实际应用过程中两者是相辅相成的。我们应用数据不仅需要全量数据,也需要样本数据;不仅要了解相关性,更要明白因果关系;不仅要预见未来,更要量化自我。这就迫使我们从更广泛的角度理解小数据,梳理小数据与大数据的分野,从而将相关思路投射、印证于小数据,考察其核心特点和应用特质。

04

小数据治理靠“人工”

小数据的治理十五字方针:理数据、建标准、接数据、抓运营、重实效。

理数据

小数据治理追求的量化、精准,是以数据梳理为切入点,摸清楚数据问题的“病因、病理”,然后“对症下药”。理数据通常采用自上而下的方法,从数据问题结果出发,分析数据问题发生的原因。通过数据梳理和溯源、识别关键数据资产,厘清数据资产分布情况、数据质量情况、数据管理情况、数据量及存量、数据使用情况等。

建标准

标准体系的建设是需要结合实际的业务应用及管理需求,建立各专业数据定义和使用的规范及标准,并逐步验证标准设计的合理性和可用性。标准体系包含三个方面:一是制定数据标准,定义数据库表的Schema标准,数据分类、数据编码的标准。二是制定数据管理标准,明确数据管理组织、明确数据管理权责,定义数据管理和使用流程,制定数据管理制度和考核办法。三是制定数据交换标准,数据采集、存储、加工、使用的技术标准、接口标准等。

接服务

搭建数据治理平台,依据设计的数据标准和数据结构,结合当前应用系统的使用情况,选择合适的应用系统,并配置相应的信息化基础设施资源,进行数据源的接入。依据已定义的数据标准、数据质量约束、数据接口规范执行,该过程中需要大量的人工干预以完成数据标准化、数据清洗、新旧编码体系的映射等工作,形成一个标准化的数据环境。

抓运营

在数据的产生和使用过程中,需要根据业务和管理的实际情况对数据标准、数据管理制度进行持续的迭代优化,确保数据标准化的落地,和在在长期运行过程中的数据质量,防止数据质量的劣化。建体系容易、执行难,长期有效的坚持运营才是数据治理成功之本。这个过程,也是培养数据治理人才、建设数据文化的过程。一旦数据治理形成一种文化,当人人都以数据说话、以数据思考、以数据决策的时候,就标志着数据治理的成功,也标志着以数据为驱动的数字化时代来临。

重实效

根据不断变化的管理需求和应用需求,适时的调整现有数据管理活动以及规划未来活动的框架,以适应不断变化的应用需求。数据治理不是为治理数据而治理数据,而是为了更好的服务于业务和管理。数据治理要有一定的前瞻性,既要满足当前企业的业务和管理需求,也应满足企业未来的发展需求。

对于小数据治理本质上是对利益相关者的沟通和协调,用于确保管理和保护重要的关键数据。它涉及到个人,方法和创新的简化协调,其顺序使其能够实现企业的数据价值。可见,小数据的治理更多的是人的因素,所以我们说:小数据治理靠“人工”。

05

大数据治理靠“智能”

大数据治理的六字方针:采、存、管、看、找、用。

采。很多数据价值的发现是来自对多源、异构数据的关联和对关联在一起的数据分析。将多个不同的数据集融合在一起,可以使数据更丰富,使大数据分析、预测更准确。然而,由于缺乏统一的数据标准设计,多源数据抽取和融合面临的困难是巨大的,人工智能技术的应用就显得十分重要。在数据实体识别方面,利用自然语言处理和数据提取技术,从非结构化的文本中识别实体和实体之间的关联关系。例如:基于正则表达式的数据提取,将预先定义的正则表达式与文本匹配,把符合正则的数据定位出来。基于机器学习模型进行文本识别,预先将一部分文本进行实体标注,产生一系列分词,然后利用这个模型对其他文档进行实体命名识别和标注。在这个过程中指代消解是自然语言处理中和实体识别关联的一个重要问题,比如:某医生,除了其姓名、职务、专业外,在文本中可能还会使用某医生、某大夫、某专家等代称,如果文本中还涉及其他人物,也用了相关的代称,那么把这些代称应用到正确的命名实体上就是指代消除。

存。与传统的小数据治理不同,大数据环境下数据发展呈多样化,传统数据治理强调的建目标、建体系,似乎很难适应大数据的多变。前文我们说过大数据的数据库模式是读时模式(Schema on Read),在数据采集、存储过程中并不关注数据的Schema (即数据结构),而是在数据分析的时候再为数据设置Schema,这就导致为大数据建立统一的Schema标准是行不通的。在大数据治理过程中,强调的是数据的关联性,数据标准是被弱化的。

管。这部分笔者认为与传统的小数据治理没有太大差别,核心是建立数据治理体系和长效运行机制。

看。传统数据治理从理数据、建标准到接数据、抓运营的整个过程中,都是技术+管理共同推进的。也有人说,数据治理太过技术化,做完以后领导看不到效果。大数据治理是不仅让大数据能被管起来,还能被看到。在大数据治理项目建设过程中,利用数据可视化技术,将底层的数据以可视化的方式展示出来,让用户能够看到,在一定程度上也标志着项目的成功。大数据治理中可视化应用包括:数据资产地图、数据热度分析、数据血缘分析、数据质量问题分析等。

找。在业务场景或业务环节中如果能够准确、高效的找到想要的数据?是大数据治理需要研究的一个课题。一般来说通过技术元数据查找相应的数据是比较容易实现的,但是数据治理目标是为业务服务的,业务人员对技术元数据并不清楚、也不熟悉,如何让业务人员像用搜索引擎一样能够找到自己想要的数据,这就需要建立业务元数据和技术元数据的匹配。而在大数据环境下,业务元数据和技术元数据的匹配关系显然不是通过“人工”的方式可以完成的,这就需要借助人工智能技术。在“找”数据的应用中,知识图谱的应用无疑是一种最佳解决方案。知识图谱通过从各种结构化数据、半结构化数据(形如HTML表格、文本文档中)抽取相关实体的属性-值对来丰富实体的描述,形成实体-属性-值,和实体-关系-实体的图谱描述,从而实现数据的快速定位和精准查询。

用。大数据治理对大数据采、存、管、用的规范化管理,是要让数据不仅能够“管得住”、“找得到”,还要让数据能够“用得好”。事实上,大数据的治理从来与大数据的应用相伴相生的,离开应用搞大数据治理是行不通。智能数据服务就是一个集治理与应用为一体的数据服务形式,通过数据服务的形式对外提供数据。也就是说,通过数据接口你就能够找到想要的数据,将数据接口嵌入到各个想要的业务系统中,遇到数据质量问题的时候也能直接定位到问题所在,而不再是等进入到数据治理系统里才能判定出血缘关系。

总结

在不久的将来,大数据、小数据的界限或将被消除,取而代之的是“全域数据”。大数据、小数据都是从技术层面对数据的描述或表达,而全域数据是从业务角度进行定义和描述。对于每个企业的全域数据覆盖范围是不一样的,全域数据涵盖了企业相关的内外部数据,与企业的业务和商业性质息息相关。未来的数据治理会形成基于小数据治理体系和大数据治理技术,在数据中台落地的数据治理新模式。比如,未来智能交通领域,将有可能用全量实时的数据,来感知城市每辆车所在的具体位置、每个红绿灯路口的车辆信息,并对这些情况进行全局调控,从而大幅提升城市交通运营效率。而实现这一目的,离不开对数据的挖掘和分析,以及人工智能的深度学习。

小数据治理靠“人工”,大数据治理靠“智能”相关推荐

  1. 大数据治理工程师_大数据治理关键技术解析(转自EAWorld)

    在企业数据建设过程中,大数据治理受到越来越多的重视.从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断地发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战.本篇 ...

  2. 大数据如何改善社会治理:国外“大数据社会福祉”运动的案例分析和借鉴

    一.背景 今年,国务院印发<促进大数据发展行动纲要>明确指出大数据将成为提升政府治理能力的新途径,提出:建立"用数据说话.用数据决策.用数据管理.用数据创新"的管理机制 ...

  3. 大数据治理工程师_大数据工程师课|新公布的4个大数据治理面对的问题,这些方面越来越重要...

    [摘要]在这个生产水平高速发展的今天,互联网每刻都会产生庞大的数据,我们将这类有意义的数据统称为大数据,为了将这类大数据用于各种行业里,我们就出现了大数据工程师,很多人都想了解有关于大数据工程师的内容 ...

  4. 大数据治理工程师_大数据治理遇到的问题有哪些?大数据工程师必须认真应对...

    [摘要]大家现在都知道,随着云时代的到来,大数据越来越受到人们的关注,这就需要我们知道大数据治理遇到的问题有哪些?大数据工程师必须认真应对,这也反映出大数据重要,现在就告诉你大数据治理遇到的问题有哪些 ...

  5. DAMA数据治理学习笔记-大数据和数据科学

    大数据和数据科学 定义 对多种不同类型的数据进行收集(大数据)和分析(数据科学.分析.可视化),以此来为在分析的初始阶段未知的问题找到答案 目标 发现数据和业务的联系 支持将数据源迭代集成到企业中 发 ...

  6. 11万字数字政府智慧政务大数据建设平台(大数据底座、数据治理)

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 部分资料内容: 一.1.1 数据采集子系统 数据采集需要实现对全区各委办单位的数据采集功能,包括离线采集.准实时采集和实时采集的采集方 ...

  7. 数据质量专项治理在政务大数据中的应用实践

    根据我们的研究和实践,我们认为数据资产管理活动可以分为三个方面: 第一是让数据用起来 第二是让数据用得放心 第三是让数据创造价值 我们的政府部门,尤其是政府的大数据管理部门,在过去十几年中,针对&qu ...

  8. 童小军:用户是大数据的本质驱动力

    文章讲的是 童小军:用户是大数据的本质驱动力, "大数据"自诞生之日起,业界对它的概念.技术和应用就存在一定争议.究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都 ...

  9. 周末愉快丨读完这10个的小故事,你也想来吐槽大数据?

    约!约!约!友盟全域数据是[友盟+]品牌的微信公众账号之一,我们将持续为您带来第一手资讯与干货! 作者介绍:张玉宏,博士.2012年毕业于电子科技大学,现执教于河南工业大学.中国计算机协会(CCF)会 ...

  10. 看小企业如何玩转大数据? 智慧商贸添助力

    7月22日消息,美国有句谚语"除了上帝,任何人都必须用数据说话",从目前来看,我们正处于一个大数据无限发展的时代,就连最热门的巴西世界杯冠军--德国,据传也是利用一款大数据分析&q ...

最新文章

  1. 90.386(32位)的保护模式 (286是过渡24位) 91.什么是实模式
  2. Linux定时增量更新文件--转
  3. ETL数据处理后的业务分析(一)
  4. shiro 方法级别细粒度权限控制_Shiro的认证和权限控制
  5. .NET Core 开发之旅 (1. .NET Core R2安装教程及Hello示例)
  6. unix和linux命令_Linux vs. Unix,在命令行中清理数据,为儿童准备的15本书,以及更多必读内容
  7. 大数据相关端口号(hive hdfs spark)
  8. 独奏骑士服务器维护,独奏骑士最强流派天赋加点攻略
  9. 风车im即时通讯源码支持打包app/H5/php开源版正常搭建无报错版,带搭建教程
  10. ReactNative Ios打包流程
  11. 2019第十四届中国竞争情报国际年会将于4月在上海召开
  12. niosii spi 外部_niosii 的SPI详解
  13. Jaca定时任务-01-进程级别的Timer,ScheduledExecutorService,springtask
  14. 字符串匹配算法之BM算法
  15. 【HTML+CSS】01.品优购首页制作——快捷导航shortcut制作
  16. 通过 PRTG EXE 高级监控脚本 + python 监控华为防火墙线路健康状态
  17. 胡侃EXCEL服务器设计需要的因素
  18. DELPHI与C#语法比较
  19. Windows 10下删除450 MB的恢复分区
  20. Windows装机指南

热门文章

  1. js小数点toFixed
  2. CentOS7 安装配置FTP服务器详解
  3. html5 支持activeX,HTML5时代activex的命运?
  4. 写给软件测试工程师的话
  5. 苹果cmsv10迅雷下载站模板高权重好看的影视源码
  6. c 语言中引用的作用是什么,C语言为什么开头都加;#includestdio.h有什么作用?...
  7. Laravel快速建站
  8. 游戏载入速度测试软件,游戏加载速度测试对比
  9. IntelliJ IDEA 中 Ctrl+Alt+T 快捷键失效、无法弹出surround with、与qq热键冲突-解决办法
  10. 前端常用编辑器的快捷键