编 辑:彭文华

来 源:大数据架构师

彭友们好,我是老彭。最近遇到几个项目,都跟非结构化数据脱不开关系。

老彭刚毕业的时候,做的是数据库的活儿,那都是结构化数据。后来有了hadoop技术,可以用来处理物联网、互联网的半结构化数据。

真正做非结构化的场景还是比较少的,大多是在项目中选取一两个点给意思意思一下。

但是现在已经发展这么多年了,大多数企业结构化数据多少有些基础了,非结构化数据治理还是一片空白。今天就唠唠这个话题~~

非结构化数据

这里说的非结构化数据特指:

1、公文、研究报告等各种文档

2、监控视频等各种音视频

3、设计图等各种特殊文件

这些东西想想就很费劲。与数据库里的结构化数据不一样,这些数据的问题更严重。我们随便想想都能罗列几个出来:

1、没有统一存储(各种附件,各种微信传输)

2、没有统一标准(都是各自写的文件)

3、数据种类特别多(除了结构化的,都是非结构化、半结构化的)

4、法外之地,治理盲区(第一次知道处理非结构化数据的方法是TF/IDF词频统计,第一次知道非结构化应用是词云)

5、没人管,不知道怎么管(有档案管理室、档案管理员的企业非常非常少)

如果你原意,自己都还能再列个十条八条的。总之,这就是个巨坑!

非结构化数据治理

其实按我说,绝大多数企业的非结构化数据还远远没有具备“治理”的前期条件。

因为他们连数据都还没准备好,全都散落在各个地方,你就说怎么治?

对于结构化数据,我们知道要盘点,要做标准,要弄主数据,要梳理指标,要做质量控制。因为我们知道数据就在那几个库里。

不管数据库有多少个,表有多少张,我们知道,数据就在那里。但是非结构化数据不一样啊!鬼知道在哪里!

有档案管理室、知识中心的公司,还算好的,不管全不全,总归有个集中的地方。

但是更多的,都是各自存储:OA、邮箱、云盘、个人存储,到处都是!没法弄!

所以,想要做非结构化数据治理,第一步是什么?数据盘点吗?数据汇聚吗?

NONONONONO!

首先要做的,是对企业的非结构化数据的分布进行梳理,知道哪些是我们治理的重心才行!

你就说,这么多各种非结构化数据,哪些多,哪些少?哪些重要,哪些次要?哪些先治理?哪些后治理?哪些对业务影响大?哪些对业务影响小?哪些价值大?哪些价值小?

这些问题都不搞清楚,就闷头干活,谁知道你干了半天是不是有效的?

你可能会问了,那搞清楚了这些,是不是就该汇聚数据了?

NONONONONO!

还是不行。还是那句话,你得有一个牵引才行。一般来说,最好是应用牵引比较好。跟数仓建设逻辑一样,自下而上建设见效快。

第一个项目,必须速胜!给所有人信心才行。否则遥遥无期,谁都受不了。

所以第二步应该是根据业务,拟定一个合适的应用,然后再快速收集部分数据,用NLP等技术将非结构化数据结构化,然后再利用数据库、大数据、图计算等技术处理数据,做出一两个能看到效果的应用。

比如这个:

在报销场景中,用OCR识别,用RPA进行发票验真、数据校对,实现快速报销、记账。

这样就能帮助哥们解放报销的时间了:

小结

非结构化数据管理很难,非常难,不管是技术还是管理,都比结构化数据难上N个量级。工作的方式方法也完全不一样,需要慎重!一定要慎重啊!!!

更多精彩:

CRM数据质量怎么控?全球500强的经验分享给你!

    怎么做好大数据安全访问管控?

    【66页PPT】部委、集团级数据治理项目经验分享

    快⼿数据质量保障体系及在直播场景的实践

    如何打造数据治理闭环?以金融行业为例

    数字化转型需要重新定义数据治理的角色

排版 | 老彭

审校 | 老彭  主编 | 老彭

非结构化数据怎么治理?相关推荐

  1. 结构化数据和非结构化数据的区别_中国天辰携手爱数AnyShare,共同探索非结构化数据治理...

    近日,天辰公司智能数据中台-内容管理平台项目上线会圆满举行.基于爱数 AnyShare Family搭建的天辰内容管理平台,将帮助天辰统一管理并处理.分析非结构化数据,让数据赋能业务,进行数字资产管理 ...

  2. DAMA数据治理与数据质量--非结构化数据的数据质量管理

    本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席  汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...

  3. 非结构化数据治理方案

    随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...

  4. 详解非结构化数据治理

    随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...

  5. 详解:非结构化数据治理

    随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...

  6. 鸿翼档案,将非结构化数据治理能力应用于档案管理的先行者

    数字化时代,每个人每天都要接触大量的数据.人们通过分析数据获取信息与知识,帮助自身更好地理解社会动向,掌握行业发展.我们每天都会接触到多种多样的数据,这些数据根据结构可划分为三种:结构化数据.非结构化 ...

  7. 详解非结构化数据(文档)安全管理解决方案

    随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...

  8. Zilliz2022首届非结构化数据峰会圆满结束

    9 月 24 日至 25 日,2022 首届非结构化数据峰会在线上成功举办,Zilliz 携手来自 Linux Foundation AI & DATA 基金会.中国电信翼支付.百度飞桨社区. ...

  9. 工信部重点实验室非结构化数据技术创新实验基地揭牌成立

    2021年12月31日,信息智能处理与内容安全工业和信息化部重点实验室--非结构化数据技术创新实验基地(以下简称"实验基地")在鸿翼正式揭牌成立,国家工业信息安全发展研究中心数据资 ...

最新文章

  1. 近万个Python开源项目中精选Top34!
  2. PyCharm缺少cv2模块怎么办?怎样在PyCharm中安装自己需要的package?
  3. 更改Cmd默认默认路径(以设置为D:/为例)
  4. c ++一行给多个变量赋值_C语言变量
  5. loj #6235. 区间素数个数
  6. OpenCV android sdk配置OpenCV android NDK开发实例
  7. es6 --- String.prototype.padStart
  8. lintcode :Integer to Roman 整数转罗马数字
  9. 匈牙利算法-指派问题、二分图问题等
  10. php 前置操作方法,前置操作-THINKPHP 5.0 手册最新版
  11. android 渠道方案,Android多渠道打包时获取当前渠道的方法
  12. 手把手教你如何配置DBeaver对接FusionInsigth MRS Spark2x
  13. oracle 11g 延迟验证,取消 11G延迟密码验证
  14. java.util.list e_E remove()
  15. 不参与,你怎么知道能有多刺激——一个币客与市场的深入对话
  16. java如何对一个表达式开根号_java实现开根号的运算
  17. thinkphp 提示验证码错误
  18. 【蓝桥杯】等差素数列
  19. 目标检测之CSK(Exploiting the Circulant Structure of Tracking-by-detection with Kernels)
  20. 分享30个独特的 404 错误页面设计模板

热门文章

  1. 遨博机器人展示_遨博协作机器人
  2. 了解电子招标投标全流程
  3. 【转】AD09常见编译错误总结
  4. 风光互补发电实训系统,QY-GF05
  5. 山寨版鸟巢体育馆图片网络曝光(组图)
  6. android常用词汇带音标,下拉通知栏就能背单词,不知不觉懂了好多 - 贝壳单词 #Android...
  7. Android-25种开源炫酷动画框架
  8. 第一次调网吧服务器的感觉
  9. HP 5200 打印機 打印1張,出來十幾張一樣的
  10. 模拟示波器功能说明(图文)