大数据世界正在以前所未有的方式发生着变化,特别是企业将数据整合到一起并将其应用到业务的情况下。而企业都面临的挑战是能够发现、识别并带来构建产品、提供服务和了解客户所需的数据。数据集成本身几十年来一直是一种实践和挑战。然而,新的工具和流程正在以新的方式使企业达到一种能够支持人工智能、机器学习和物联网等复杂应用程序的状态。问题是,以数据为中心的文化还很遥远,特别是由于数据仍然存在于孤岛中,跨越不同的设备,并以不同的格式存储,这些可能是很多企业没有准备好充分利用其潜力的部分原因。

以下是未来一年值得关注的一些发展。

非结构化数据存储和搜索

首先,企业需要做些什么来处理输入或生成的不断增长的数据量。调研机构Constellation Research公司副总裁兼首席分析师Andy Thurai说,“改变游戏规则的是非结构化数据的存储、管理和搜索方式。人工智能需要采用大量非结构化数据,这很重要,因为收集到的近80%的数据都是非结构化的。”

他补充说,“许多企业拥有的非结构化数据远远多于他们真正知道该如何处理的数据。非结构化数据被转储到像Amazon S3这样的存储设施中,没有人会费心从中获取见解,除非有迫切的需求。视频、图像和音频文件以及其他类型的非结构化数据会占用大量空间。鉴于存储需求的巨大规模,存储成本成为许多企业的一个主要因素。这种存储需要比传统系统便宜得多。”

他表示,Data Lakehouse就是为了解决这些问题而发明的。数据湖直接从原始来源存储数据,而不需要更传统的数据仓库所需要的格式化、清理和转换。Thurai指出:“Data Lakehouse还支持大规模的机器学习工作负载。”

Thurai表示,现在越来越多的工具和平台以对非结构化数据进行多语言搜索,搜索未标记、未分类的图像为特色。以前很难在扫描文档中搜索图像。视频、图像和音频自动分类功能是另一个非常重要的领域。数据科学家需要花更少的时间来处理这些数据,而花更多的时间来建立模型。

这样的能力使系统能够发现相似之处,这有效地保护了音乐、图像、音乐视频等的版权。Thurai说。“现在可以比较两个非结构化数据片段,例如音乐或视频,看看其中一个是否复制自另一个。此外,这种能力对情感分析也很有用。例如,如果有人在新闻片段中提到某一公司或个人,人工智能可以自动分析未标记的数据,并预防性地提出缓解措施。”

数据网格

云计算已经出现在商业领域很多年了。然而,大数据领域刚刚开始感受到它的影响。OvalEdge公司首席执行官Sharad Varshney说,“云计算技术现在已经很成熟,但非主流的分布式技术仍在推动数据管理领域最令人兴奋的发展。也许其中最重要的是数据网格架构。该技术支持去中心化的数据管理,而不是将数据传输到湖泊或仓库,它是在域中工作的。”

许多有远见的企业已经开始把它纳入他们的数据治理和管理战略。Varshney说。“主要的云计算和数据组织已经采用了数据网格技术,这是一个积极的迹象,表明这一关键战略正变得更容易实现。与此同时,与数据管理领域内或外的任何新技术一样,发起文化变革是最重要的障碍之一。”

他警告说。“数据网格技术要求改变用户和上层管理人员访问和查询数据的方式。有些人很难接受将责任从中央权力机构转移到个人身上。首先也是最重要的是信任的问题。然而,一旦克服了这些最初的障碍,那么该技术的有效性应该可以消除内部担忧。”

随着数字产品的兴起,大数据分析出现了一种新的方法——产品分析。Heap公司数据科学主管David Robinson说,“每一个使用数字产品的人都在提供制造商如何使其更成功的信息,像SaaS​、电子商务和移动应用程序这样的数字产品能够跟踪行为数据——浏览量、点击量和用户在使用产品时进行的其他交互。”

他继续说,“产品分析将数据转化为改进产品的可操作的见解,就像上一代分析师和数据库工程师学会了将仓库转化为商业智能一样,我们正在看到从收集的大量行为数据中获取价值的能力发生转变。产品经理和设计师不再需要一次采访几个用户,他们可以看到现实世界中成千上万的用户如何使用他们的产品。企业的董事不必猜测将战略投资应用到产品的何处,他们可以衡量和比较每项投资的影响。”

然而,Robinson警告说,一个需要解决的潜在问题是因果推理。他说,“寻找可操作的产品洞察力的科学是对原因的推理,需要回答‘如果改变这个产品,会对业务结果产生什么影响?’这个问题,行为数据尤其充满了令人混淆的陷阱,粗心的人可能会把相关性当成因果关系。这个问题出现在产品开发过程的每个阶段。产品经理可以使用行为数据来衡量受错误影响的用户数量,但对他们来说更重要的是衡量错误对业务结果的影响。如果产品经理对行为数据不小心,他们可能会得出一个荒谬的结论——比如‘在所有访问者中,在结帐页面遇到错误的用户购买的可能性是其他用户的10倍’,而只是因为这些用户是最先到达结帐页面的用户。”

机器学习数据集

人工智能的背后是机器学习,它将数据用于训练算法和模型。然而,这些任务和所需的数据量是巨大的。Camunda公司高级产品经理Eric Lundberg表示:“数据科学家仍将45%的时间花在数据准备上,而训练有素的数据科学家在全球都存在短缺。能够提供干净的、机器学习准备好的数据的数据系统可以减少数据科学家的时间,并将项目的投资回报率提高到足够高的水平,从而值得投资。如今的软件供应商越来越多地提供机器学习准备好的数据集,并使任何人都能更容易地创建高质量、有意义的机器学习模型。”

提供机器学习就绪的数据集可以完全消除对基本用例的数据管道的需求。Lundberg说,“这也将人工智能的触角伸向了公民数据科学家。任何团队都可以创建自己的机器学习模型,而不是通过对宝贵的数据工程或数据科学资源的激烈竞争来运行项目。”

他警告说,“与此同时,如果企业不是收集数据的人,就不可能保证数据的质量。数据缺失、数据收集不一致或人为错误需要时间来纠正,而这些都与数据收集方法有关。但事情正在朝着正确的方向发展。”

Verta公司创始人兼首席执行官Manasi Vartak表示,为机器学习操作数据对数据的管理和交付方式有很大影响。他说,“一个例子是特征存储的出现,数据科学家使用它来确保跨模型开发和模型生产环境的机器学习模型特征之间的连续性。随着企业进行数字化转型的创新,第一个合乎逻辑的步骤是获取数据,以便对业务问题的潜在人工智能或机器学习解决方案进行研究和试验。既然模型构建能力已经成熟和稳定,操作模型就有了完全独特的需求。特征库是弥合模型构建和模型操作之间鸿沟的一个方面,但对于企业来说,为机器学习操作数据还有很多其他的考虑。”

道德的数据解决方案

塑造该市场的另一个趋势是,旨在确保更合乎道德地部署人工智能的工具和方法的兴起。Diveplane公司销售工程总监Jack Shu表示,“合乎道德地使用人工智能的核心是合乎道德地使用数据。遵守跨司法管辖的治理往往会妨碍数据的可用性。在某些情况下,需要进一步处理,因为原始数据可能表现出偏见或歧视等潜在属性。”

Shu继续说,“数据监控和可观察性也成为了重要的考虑因素,因为大多数数据源不断更新,可能会随着时间推移而漂移。从道德上管理数据所面临的问题是有多种技术可以解决这些挑战,尽管每种解决方案往往只关注问题的一个子部分。例如,合成数据的应用允许遵守GDPR法规,从而允许跨司法管辖区传输数据。也有各种各样的解决方案来减轻偏见和歧视,还有另一套数据监测工具。这就产生了针对每个子问题的专门软件的需求,这可能很快导致成本和复杂性的增加,因为业务用户需要学习和维护多个软件和模型。”

Shu推荐了基于实例的机器学习的应用,它能够使用单一平台来合成数据,监控数据,并在必要时修复数据不需要的属性。Shu警告说,“虽然这样的解决方案现在已经可用,与现有的企业基础设施和机器学习投资的兼容性可能会减缓新技术的采用,如果能够克服在企业范围内采用基于实例的机器学习的障碍,这将为使用单一平台生成合成数据、减少偏见或歧视以及实时数据监控提供可能性。”

数字集成中心

GigaSpaces公司首席执行官Adi Paz表示,“如今IT基础设施错综复杂,构建新的数字服务是一项艰苦的工作,开发周期很长,远远落后于市场需求。数字集成中心有助于通过将记录系统与数字应用程序分离来克服这些障碍。”他表示,企业能够在现有遗留系统之上快速推出原生云数字服务,将开发工作重点放在交付稳定的高性能数字服务流上,而不是将时间花在系统记录集成上。

这样的中心是“中间件”的一种形式,它需要集成到企业IT架构上,并将其连接到组织的不同记录系统上。Paz警告说,“有些企业在开放他们的IT基础设施和在现有架构上添加外部集成层方面犹豫不决。”

不过他表示,这些中心通过大幅缩短新数字服务的上市时间,促进了业务加速,通过使开发人员能够专注于新的业务逻辑,而不是将时间花在重复的数据集成任务上,有助于推动创新。

交换/数据融合

数据交换和数据融合正在作为预先配置的集成环境出现,它省去了许多减慢数据分析应用程序和功能的前期工作。Smart Sense公司首席产品官Sammy Kolt表示:“数据交换允许企业将其技术合作伙伴平台生成的数据导入到自己的系统中,以便在自己的商业智能或分析工具中使用。当多个数据流被整合到一个数据库中进行额外分析时,就会发生数据融合。像天气和交通这样的外部数据流可以帮助通知和影响需要做出的关键业务决策。例如,当电力、温度、能源、库存和财务数据集组合在一起时,内部数据流会带来复合效应。当供应商和平台超越专有报告,开放他们的系统,并提供对底层结构化数据的访问时,这一切都成为可能。”

Kolt解释说,数据交换和数据融合有助于减轻数据科学团队的工作量。他说,“企业不再只指望使用供应商提供的开箱即用的报告。他们希望能够访问这些数据,这样他们的团队就可以对这些数据进行额外的分析。数据科学团队需要为这种方法做好准备。当企业的数据科学团队没有明确定义或设计良好时,障碍就会出现。创建一个数据科学团队,既关注技术方面,也关注业务分析。”

Kolt说:“那些将自己定位为平台的企业已经发现,他们通过数据交换为客户增加了价值。在某些垂直领域的数据科学成熟度与它们与这一概念的距离之间存在明显的相关性。”

数字资产管理

数字资产管理平台正在崛起,Hyland公司主要内容架构师Alan Porter表示:“在一个存储库中,在正确的时间快速访问正确的资产的需求从未如此之大,而这些资产的数量也从未如此之大。数字资产管理将数据、图像、文件和相关材料集合在一起,消除了这些资产周围的孤岛,并通过适当的元数据输入和标记,使这些资产更容易通过平台检索。”

在早期,数字资产管理主要是由营销部门用于管理内容和资产。他补充说,“快进到今天,技术已经发展到包括产品资产管理,并适用于企业,还包括产品团队和更多的人,以连接内容、数据和其他资产。在庞大的、迅速发展的资产存储库中,员工经常会浪费大量的人力时间来查找和检索所需的文件——或者由于很难找到合适的内容,只能采用拥有的任何资源,从而产生低质量的输出。”

人工智能现在在这些平台的性能中也扮演着关键角色。Porter说:“在该框架之上,一个能够学习不同数据集之间联系的人工智能引擎使这些资产更加有用和实用。”

Porter警告说,DAM平台的有效性依赖于前端准确、完整和详细的元数据输入。为了为搜索特定资产的用户提供最佳结果,平台需要基于最佳数据进行工作。​

责任编辑:华轩来源: e-works

大数据世界中的新技术相关推荐

  1. 第二届大数据世界论坛 聚焦行业需求

    本文讲的是第二届大数据世界论坛 聚焦行业需求,随着现代技术的发展,企业产生的业务数据和客户数据早已汗牛充栋.如何有效的组织管理数据,提供商业解决方案,已经不是单纯的IT技术问题,而是与企业未来发展前途 ...

  2. 王曦:大数据人工智能中的运筹与决策科学

    大数据时代,拥有庞大的数据量不再是制胜的关键,更需要关注用大数据分析所支持的决策.运筹与决策科学正是大数据人工智能的一个核心概念,大数据与决策相辅相成,人工智能离不开运筹学的支持. 王曦:杉数科技联合 ...

  3. 备受关注的未来大数据世界:全球大数据发展的七个方向

    当今科技领域发生了巨大的变化,也为大数据改善各行各业的业务.促进经济增长打开了大门.数据能帮助组织机构更好地开展工作,大数据分析已经超越了热门的IT趋势标签,成为公司业务的一部分. 大数据的行业需求预 ...

  4. 近期活动盘点:大数据应用中日交流论坛、几位专家带你认识Flink、青年自强AI计划 CV免费公开课!(11.12-11.23)...

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 大数据应用中日交流论坛 2018年11月15日 活动简介: [主题]大数据应用中日交流论坛 [日期]2018年11月15日14:00-18 ...

  5. 近期活动盘点:2018数据与媒介发展论坛、大数据应用中日交流论坛(11.04-11.15)...

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 2018数据与媒介发展论坛 2018年11月9日 [活动时间]2018年11月9日 [活动地点]北京·新华网中国智谷平台路演中心(金隅大厦 ...

  6. 运维专家:我在大数据项目中踩过的那些坑

    一.主要讨论人员 提问:陈超,七牛云技术总监 回答:朱冠胤,百度资深大数据专家,连续两次百度最高奖得主. 二.引言 "坐而论道"是一个轮流问答的玩法.本文是大数据主题周中,几位国内 ...

  7. 大数据项目中的QA需要迎接新的挑战

    大数据项目中的QA需要迎接新的挑战 根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元.在大数据和业务分析解决方案上投资增长最快的行 ...

  8. 我们怎样确保从大数据计算中获得价值

    我们怎样确保从大数据计算中获得价值 支持大数据方案并不是在硬件以及软件层次终止,企业要想真正地从大数据中受益,领导者必须改变思考与对待信息的方式.    我们怎样确保从大数据计算中获得价值? 当所有可 ...

  9. print的describe的展示全部数据_大数据项目中的QA需要迎接新的挑战

    根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元.在大数据和业务分析解决方案上投资增长最快的行业包括银行(复合年增长率13.3%) ...

最新文章

  1. java ee jsp程序_JavaEE——jsp介绍
  2. 循环神经网络(RNN)简介
  3. archlinux安装小记
  4. setbuf()关闭缓冲
  5. [转]python新手必碰到的问题---encode与decode,中文乱码--转载
  6. CPU是如何处理指令的
  7. 2018-2019-2 20175230 实验三《Java面向对象程序设计》实验报告
  8. java day05【数组】
  9. c语言任务设计书,C语言课程设计任务书(必备).pdf
  10. 2021杭电计算机考研经验帖
  11. 解密百度前端技术体系
  12. Unirech-最新腾讯云国际版注册流程-无需绑定paypal
  13. 在 Beagleboard-x15 上配置 spi 和 GPIO
  14. 有了AI,程序猿再也不用担心有Bug了
  15. 商丘工学院c语言试卷,商丘工学院New Radio82期:青春
  16. python模糊神经网络预测_MATLAB模糊神经网络的预测算法--预测水质
  17. 使用设计模式出任CEO迎娶白富美(6)–冬日暖阳,二毛茶一壶
  18. 「自控原理」7 非线性系统分析
  19. IE选项注册表控制大全
  20. 高速下载器Aria2配置与启动 macOS

热门文章

  1. nodejs+vue+elementui手办多商家商城交易平台
  2. 计算机毕业设计ssm基于web的社团管理系统r848z系统+程序+源码+lw+远程部署
  3. 刘强东:京东高管降薪10%-20% 拿百亿投向基层员工
  4. 我的世界服务器被无限循环怎么办,我的世界无限循环装置制作方法
  5. Oracle数据库中神奇的dual表
  6. 【BLE】CC2541之Large OAD
  7. 关于图片锯齿产生的原因和如何消除
  8. 若依前后端分离版:增加新的登录接口,用于小程序或者APP获取token,并使用若依的验证方法
  9. 学大伟业:学长是如何对待数学竞赛的
  10. FDTD超表面仿真详细教程,几何相位,共振相位,传播相位