大数据概念兴起的同时也带热了非结构化数据分析。传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大。有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了。

那为什么说非结构化数据分析技术是忽悠呢?

不存在通用的非结构化数据计算技术

非结构化数据五花八门,有声音图像、文本网页、办公文档、设备日志、….;每类数据的都有各自的计算处理手段,比如语音识别、图像比对、文本搜索、图结构计算等等,但是并不存在一种适用于所有非结构化数据的通用计算技术。语音识别的方法不能用于图像比对、文本搜索和图结构计算也扯不上关系。

一个厂商如果擅长某种技术,那一定会直接宣称自己专业于该领域,而不会泛泛地说自己精于非结构化数据分析。比如人脸识别做得非常精准、或是文本敏感词挖掘的专业公司,显然这样更容易定位用户和应用场景。如果一家公司只说自己擅长非结构化数据分析而不指明具体的领域,那就不知道到底能做些什么了。

面向非结构化数据的通用技术只是存储

虽然许多专业技术领域都可以归类为对非结构化数据的处理,但总体应用范围并不广泛,大多数用户还用不上这些专门技术,而只是需要把这些数据存储下来。非结构化数据没有通用的分析计算技术,但存储和相应的管理(增删检索等)是可以通用化的。非结构化数据占据的空间较大,经常需要不同于结构化数据的特殊存储手段。

不过,如果不是数据量特别大,或者有高并发的检索需求,大多数的网络文件系统(如HDFS)已经能够胜任存储和访问需求。厂家如果只喊能做非结构化数据的存储和基本管理,那会显得没什么技术含量。所以这些厂商会不遗余力地往分析上靠,但没有实质东西。而能提供大容量高性能的访问的专业存储厂商却只会喊存储,而不会刻意提及分析。

通用分析技术在于相伴产生的结构化数据

采集非结构化数据的同时,常常会伴随着采集许多相关的结构化数据,比如音视频的制作人、制作时间、所属类别、时长、…;有些非结构化数据经过处理后也会转变成结构化数据,比如网页日志中拆解出访问人IP、访问时刻、关键搜索词等。所谓的非结构化数据分析,经常实际上是针对这些伴生而出的结构化数据,这个领域有不少较为成熟的通用计算技术(比如关系代数和关系数据库)。

但现在只喊结构化数据显得不够时髦,为了吸引用户,就要把本质上的结构化数据分析说成是非结构化数据分析了。

作为需求方的用户,这时候需要清楚地知道到底要对这些数据做什么处理。如果只是简单存储,那上个HDFS这类开源网络文件系统就够了;如果有高性能访问需求,那要找专业的存储厂商;如果其实要分析的是伴生出来的结构化数据,那就是已经熟悉的数据库类业务了;如果真有特定的处理需求,那也是找专门领域的厂商和技术。总之,不要泛泛地只说需要非结构化数据分析。

非结构化数据分析技术是忽悠相关推荐

  1. 福利 |《非结构化数据分析》书评:探索非结构化数据的魅力

    文末有数据派独家福利哦 在过去的几年里,围绕大数据.物联网和人工智能等信息的宣传铺天盖地.这些新闻源源不断地向我们展示了技术和分析工作如何改变我们的生活和商业模式.将大数据和物联网转化为有实际价值的信 ...

  2. 美国进入“非结构化”数据分析新时代

     美国进入"非结构化"数据分析新时代 目前,对国内大部分企业级客户而言,大数据时代已经真正到来了. 虽然,近年来"大数据"及"数据分析" ...

  3. 【数据分析】搜索和非结构化数据分析值得关注的5大趋势

    大多数组织都很好地利用了结构化数据(表格.电子表格等),但是很多未开发的业务关键的见解都在非结构化数据中. 80%组织正在意识到他们80%的内容是非结构化的. 企业中近80%的数据是非结构化的--工作 ...

  4. 工信部重点实验室非结构化数据技术创新实验基地揭牌成立

    2021年12月31日,信息智能处理与内容安全工业和信息化部重点实验室--非结构化数据技术创新实验基地(以下简称"实验基地")在鸿翼正式揭牌成立,国家工业信息安全发展研究中心数据资 ...

  5. 总结非结构化数据分析「十步走」

    注:诚然,本文中所提到的内容并使非结构化数据结构化的唯一步骤,但该步骤的可行性,以及在创造可持续模式方面的表现已在实践中得到证实. 如今,数据分析逐渐在企业发展中扮演起愈加重要的角色,为求在业务成长过 ...

  6. 我被“非结构化数据包围了”,请求支援!

    阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%.换句话来说,就是我们都被"非结构化数据"包围了.由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使 ...

  7. 【作业】非结构化数据相关知识整理

    文章目录 1.非结构化数据是什么 2.非结构化数据处理困难的原因 3.处理非结构化数据的方法 1.非结构化数据是什么 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑 ...

  8. 非结构化数据定义、处理方法及重要性

    一.非结构化数据定义 不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档. 文本.图片. 标准通用标记语言下的子集 XML. HTML.各类报表.图像和音频/视频信息等等. ...

  9. AI非结构化数据处理和分析软件公司Zilliz宣布完成4300万美元B轮融资

    "数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发+2.0版产业图谱+落地颁奖大会)即将推出,敬请咨询期待! 数据猿发布产业全景图--2020中国数据智能产业图谱 ...

  10. Zilliz2022首届非结构化数据峰会圆满结束

    9 月 24 日至 25 日,2022 首届非结构化数据峰会在线上成功举办,Zilliz 携手来自 Linux Foundation AI & DATA 基金会.中国电信翼支付.百度飞桨社区. ...

最新文章

  1. DenthDepth:深度估计(三维场景构建)——单目视觉挑战激光雷达
  2. 985高校6年招聘8000多青年人才引热议!高校割起年轻博士的韭菜有多疯狂?
  3. php mysql crud demo_基于php和mysql的简单的dao类实现crud操作功能_PHP教程
  4. 【Gym - 101915D】Largest Group(二分图最大团,状压dp)
  5. leetcode511. 游戏玩法分析 I(SQL)
  6. Spring第三篇【Core模块之对象依赖】
  7. 用c语言写出一个榜单程序,C语言依然位居榜单前列,依然值得程序员学习
  8. 职责链模式(Chain of Responsibility Pattern)
  9. 用android做用户管理中心,Android 如何设计用户Session管理?
  10. Linux命令:SAMBA配置与win10共享
  11. Python字符串index()
  12. (转载)MySQL基础(非常全)
  13. 最最最最最最最最基础的C---函数
  14. 微信小程序云开发教程-云函数操作数据库-修改、删除
  15. 小程序php上传图片到服务器,关于微信小程序上传图片到服务器的代码
  16. 证券投资基金基础知识
  17. 400. 第 N 位数字【我亦无他唯手熟尔】
  18. 干货 | 关于离岸银行开户(境外开户),看这一篇就够了
  19. hive启动报错:Relative path in absolute URI:${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D
  20. 计量经济学及Stata应用 第五章习题 5.7 使用回归模型进行餐馆选址。数据集Woody3.dta包含33家Woody‘s连锁餐馆的以下变量……

热门文章

  1. Window平台Git-Bash的主题配置
  2. 如何快速入门Spring Cloud
  3. unity不规则碰撞_Unity中的刚体和碰撞器
  4. 古方怡雪祛斑效果怎么样,实话实说!
  5. oracle 进程cpu 高,oracle进程CPU占用太高
  6. php中下载csv文件怎么打开,php – 下载csv文件
  7. 如何用电脑下载网页中的视频?
  8. 英文转换-在线英文批量转换器免费
  9. Oracle JDK | 迅雷内置浏览器解决 Java 下载需要登录 不能直接复制链接 直接下载慢
  10. 为防止办公用计算机上的数据,2019年9月计算机一级Ms Office提分练习题(总)