大数据采集

为满足企业或组织不同层次的管理与应用的需求,数据采集分为三个层次。

  • 第一层次,业务电子化。为满足业务电子化的需求,实现业务流程的信息化记录,在本阶段中,主要实现对于手工单证的电子化存储,并实现流程的电子化,确保业务的过程被真实记录。本层次数据采集的关注重点是数据的真实性,即数据质量
  • 第二层次,管理数据化,为满足企业管理的信息需求,实现对企业和相关方信息的全面采集和整合。在业务电子化的过程中,企业逐步学会了通过数据统计分析来对企业的经营和业务进行管理,因此,对数据的需求不仅仅满足于记录和流程的电子化,而是要求对企业内部信息、企业客户信息、企业供应链上下游信息实现全面的采集,并通过数据集市、数据仓库等平台的建立,实现数据的整合,建立基于数据的企业管理视图,本层次数据采集的关注重点是数据的全面性。
  • 第三层次,数据化企业。在大数据时代,数据化的企业从数据中发现和创造价值,数据已经成为企业的生产力。在这一阶段,企业的数据采集向广度和深度两个方向发展。在广度方面,企业不仅仅需要采集内部数据,也需要采集外部的数据,数据的范围不仅仅包含传统的结构化数据,也包含文本、图片、视频、声音、物联网等非结构化数据。在深度方面,企业不仅对每个流程的执行结果进行采集,也对流程中每个节点执行的过程信息进行采集。本层次数据采集的关注重点是数据的价值。

大数据时代的数据采集,除了采集传统的结构化数据外,还需关注以下类型的数据采集:

  • 业务和管理系统的日志采集
  • 文本数据和文档数据的采集
  • 语言数据的采集
  • 图片数据的采集
  • 视频数据的采集
  • 机器产生数据的采集,包括机械、电子设备的采集,如车联网数据
  • 生活数据采集,如可穿戴设备采集、家用电器数据采集
  • 用户上网行为采集
  • 人和物的地理信息和流动信息采集

大数据采集的策略

大数据采集的扩展,也意味着企业IT成本和投入的增加。因此,需要结合企业本身的战略和业务目标,制定大数据的采集策略。企业大数据的采集策略一般有两个方向

  • 第一个方向,尽量多地采集数据,并整合到统一平台中,该策略认为,任何只要与企业相关的数据,尽量采集并集中到大数据平台中,该策略的实施一般需要两个条件:首先,需要较大的成本投入,内部的数据的采集,外部数据的获取都需要较大的成本投入,同时将数据存储和整合到数据平台上,也需要较大的IT基础设施投入;其次,需要有较强的数据专家团队,能够快速地甄别数据并发现数据的价值,如果无法从数据中发现价值,较大的投入无法快速得到回报,就无法持续
  • 第二个方向,以业务需求为导向的数据采集策略。当业务或管理提出数据需求时,再进行数据采集并整合到数据平台。该策略能够有效避免第一种策略投入过大的问题,但是完全以需求为导向的数据采集,往往无法从数据中发现“惊喜”,在目标既定的情况下,数据的采集、分析都容易出现思维限制

对于完全数字化的企业,如互联网企业,建议采用第一种大数据采集策略。对于目标尚处于数字化过程中、成本较紧、数据能力成熟度较低的企业,建议用第二种大数据采集策略

大数据采集的规范

为了满足企业战略的要求,哪些数据需要被采集,将会预先定义,如果能够制定相应的大数据采集规范,并在个各数据采集点实施这些规范,将会有效提升数据采集的质量和全面性。
        数据采集规范应包含以下内容:

  1. 规范制定的目的:明确本规范的适用方面和业务目的
  2. 规范适用的范围:明确哪些数据采集点、哪些系统需要实现符合本规范的数据采集功能
  3. 数据采集的内容:明确哪些数据应被采集,采集的数据应该符合什么格式
  4. 数据质量的标准:明确采集的数据应该遵循的标准
  5. 数据采集的方法:明确对于不同的数据,应该采用何种方式进行采集,采集后应该通过何种方式传送到数据平台

大数据采集的安全和隐私

数据采集的安全和隐私涉及三个方面的问题

  1. 数据采集过程中的客户与用户隐私

大数据时代的数据采集,更多地涉及客户与用户的隐私。传统的数据采集,主要是在业务过程中采集客户与用户的自然属性和社会属性信息,以及与企业发生关系的业务信息,大数据时代中,客户的地点信息、行为轨迹(线上、线下)、生理特性、形象声音等信息都会得到采集。从企业应用的角度,为避免法律风险,在大数据采集的过程中,如果涉及客户和用户隐私的采集,应该注意以下几个方面

  • 告知客户和用户的哪些信息被采集,并要求客户进行确认
  • 客户和用户信息的采集应用于为客户提供更好的产品和服务
  • 向客户和用户明确所采集的信息不会提供给第三方
  • 向客户和用户明确他们在企业平台上发布的公开信息,如言论、照片、视频等,不在隐私保护的范围以内,如果发现的内容涉及版权问题,需要自行维权
  1. 数据采集过程中的权限

在IT治理达到一定水平的企业,每个IT系统都有业务归属部门,IT系统的数据虽然属于整个企业,可以共享,但业务归属部门对这些数据具有管辖权。对较为关键的系统,企业往往会制定相应的管理办法,从该系统中获取数据,需要经过相应流程的审批,其中包含归属业务部门审批。在建设企业级数据平台的过程中,上述治理结构会对数据平台的数据采集带来一些负面影响。每个数据源系统的数据接入,以及接入数据的变更,都需要通过对应业务部门的审批,这将大大提升系统建设的沟通成本。
3. 数据采集过程中的安全管理

企业应为数据采集制定相应的安全标准。数据采集类系统需要根据采集数据的安全级别,实现相应级别的安全保护。在数据采集的过程中,必须要确保被采集的数据不会被窃取和篡改。在数据从源系统采集到数据平台的过程中,也需要确保数据不被窃取和篡改。

数据采集的时效

数据采集的时效越快,其产生的数据价值就越大。从管理者的角度,如果通过数据能实时地了解到企业经营情况,就能够及时地做出决策;从业务的角度,如果能够实时地了解客户的动态,就能够有效地为客户提供合适的产品和服务,提高客户满意度;从风险管理的角度看,如果能够通过数据及时发现风险,企业就能够有效避免风险和损失。数据实时化采集是有比较高的成本,因此哪些数据需要实时化采集,哪些数据可以批量采集,需要根据业务目标来划分优先级

非结构化数据的采集

在传统的数据采集中,考虑得较多的是结构化数据的采集,而现在对于非结构化数据(文档、邮件、图片、音频和视频等信息)的采集已成为当务之急。采集非结构化一般需要获取非结构化之中的有效信息

传统的处理非结构数据的方式,是为非结构化数据打标签,例如,图像信息在存储过程中,与相应的客户、业务、时间、场景描述等环境信息结合起来,随着技术的发展,可以直接从非结构化数据中提取出相应的信息,比如,人脸识别技术可以直接将人脸和人对应起来;音频转换技术,不但可以将语言转化为文本,还可以识别语言中的情绪信息;文本识别技术,可以获取文本中的关键字,给文本加上索引标签。

不管是传统的人工加标签,还是通过新技术自动加标签,对非结构化数据的处理,最重要的就是能够将非结构化数据与客户、业务、雇员、产品等信息进行关联,从而通过索引、分析等技术 ,发挥非结构化数据的价值。

大数据的清理

大数据清理的目的主要有2个:一是无关数据的清理,而是低质量的数据清理。通俗地讲,就是清理垃圾数据。大数据环境下的数据清理,与传统的数据清理有所区别,对传统数据而言,数据质量是一个很重要的特性,但对于大数据,数据可用性变得更为重要,传统意义的垃圾数据,也可以“变废为宝”。
        对于不同的可用性暑假见,数据应建立不同的质量标准,应用于财务统计的数据和应用于分析的数据,在质量标准上应有所不同。有些用途必须严格禁止垃圾数据进入,有些用途的数据需要讲求数据的全面性,但对质量的要求不是那么高;有些用途,如审计与风险,甚至需要专门关注垃圾数据,从一些不符合逻辑的数据中发现问题。
        因此,在大数据应用中不建议直接清理垃圾数据,而是将数据质量进行分级,不同质量等级的数据满足不同层次的应用需求。

文章参考:大数据治理与服务

数据治理-数据生命周期管理-大数据采集相关推荐

  1. es对日志数据进行索引生命周期管理

    前言 在采用ELK分布式日志采集平台的时候,一般都会采用ES来存储采集的日志信息.日志信息一般都是持续增长的,是典型的时序数据. 如果不对采集的日志数据做生命周期管理,很容易导致单个索引体积持续增长. ...

  2. 数据治理-数据生命周期管理-大数据归档与销毁

    数据归档 在大数据时代,存储成本显著降低的情况,企业希望在技术方案的能力范围之内尽量存储更多的数据.但大数据时代同样带来了数据的急剧增长,因此数据归档仍然是数据管理必须考虑的问题.与传统的数据备份和数 ...

  3. 从全生命周期管理角度看大数据安全技术研究

    从全生命周期管理角度看大数据安全技术研究 李树栋1,2, 贾焰2, 吴晓波3, 李爱平2, 杨小东4, 赵大伟5 1. 广州大学网络空间先进技术研究院,广东 广州 510006 2. 国防科技大学计算 ...

  4. 数据API开发如何快速上手:先了解什么是数据API生命周期管理

    任何事务都有一个生命周期,数据API也不例外.上一段视频,我们解释了什么是数据API?.这段视频,我们来了解一下数据API的生命周期管理. 我们把每个数据API生命周期,划分为API规划.API开发. ...

  5. 号脉数据中心全生命周期,业务永续从细节做起

    看什么看,快点蓝字关注我! 阿里巴巴将数据中心建到千岛湖旁边,腾讯将数据中心深藏在山洞中,如今的数据中心除了不能上天,这下水入地似乎无所不能.这虽然是句玩笑话,但也反映出随着规模化.集约化.绿色化等理 ...

  6. 全生命周期管理,是趋势更是未来

    世界正处于新一轮科技革命和产业变革之中,科学技术还从来没有像今天这样深刻影响着我们,从国家前途命运到个人工作生活.在这一过程中,数据中心产业作为科技必要的信息基础设施同样也在发生深刻的改变:由于对数据 ...

  7. 数据治理之数据生命周期管理

    大数据业务系统,在运行过程中会产生大量历史数据,这些历史数据日积月累下来,除了增加集群的存储成本,也会影响大数据集群之上的应用系统的运行效率(因为整个大数据集群的hdfs, hive, hbase等存 ...

  8. 大数据将改变信息生命周期管理

    时至今日,虽然信息生命周期管理(ILM)这个概念不再被常常提及,但是ILM的理念已经深入人心,成了指导企业用户实施数据分层存储及管理的核心原则.昆腾公司全球大数据业务高级副总裁Janae Lee表示: ...

  9. PPT 下载 | 神策数据孙文亮:客户全生命周期管理从方法到实践全解析

    在以"场景赋能·驱动有数"为主题的神策 2018 数据驱动大会现场,神策数据技术经理孙文亮发表了名为<客户全生命周期管理从方法到实践>的主题演讲. 温馨提示:点击文末阅 ...

最新文章

  1. 开课吧python小课值得么-领导想提拔你,从来看的不是努力!
  2. android之相机开发
  3. 通过编程解决问题的正确思路
  4. C/C++轻松写电脑锁机程序
  5. 软件测试:测试一个网站
  6. Java实验8 T1.编程包含一个标签和一个按钮,在“你好”和“再见”之间切换
  7. BAT及各大互联网公司2014前端笔试面试题:JavaScript篇
  8. C++11 auto类型推导
  9. 国内外卫星数据查询地址
  10. 幽默故事:1、小帅哥应聘;2、不交作业(木子家原创)
  11. 苹果手机开不了机怎么办
  12. 竞赛练一练 第15期:电子学会2021年9月青少年软件编程(图形化)等级考试试卷(三级)...
  13. python 函数式编程及递归
  14. 制作自己的ip数据库
  15. 制作APP没有这么难,不必望而却步
  16. 世界上5种著名交易系统
  17. input输入框限制中文汉字只能输入20个字符,英文10个字符!
  18. 如何设置 HomePod?HomePod设置教程分享
  19. 【无标题】导入pymc3包:import pymc3 as pm时出现错误解决思路
  20. AlphaGo Zero 模型框架

热门文章

  1. 全志A40i开发板(4核ARM Cortex-A7)测评合集——开箱上电测试
  2. 【FPGA】: ip核——Fir滤波器
  3. 【c++】Scons|scons对比make
  4. java中Random生成随机数
  5. 腊月廿五链界观区块链资讯
  6. 基于Java+JSP+MySQL共享单车管理系统的设计与实现-计算机毕业设计
  7. SQL时间函数应用(时间、季度、旬、月、星期)
  8. linux拷贝文件函数,linux下文件操作的各个函数
  9. 仅用5000行代码,在V853上AI渲染出一亿幅山水画
  10. 维特比算法的python的简单实现