大多数组织都很好地利用了结构化数据(表格、电子表格等),但是很多未开发的业务关键的见解都在非结构化数据中。

80%组织正在意识到他们80%的内容是非结构化的。

企业中近80%的数据是非结构化的——工作描述、简历、电子邮件、文本文档、研究和法律报告、录音、视频、图片和社交媒体帖子。虽然这些数据过去非常难以处理和使用,但神经网络、搜索引擎和机器学习的新技术发展,正在扩展我们使用非结构化内容进行企业知识发现、搜索、业务洞察和行动的能力。

搜索加人工智能正在解决现实世界的问题

想想你智能手机上的应用程序——Siri, Alexa, Shazam, Lyft等等。您可能没有意识到这一点,但它们都是由一大批搜索引擎在幕后工作提供动力的。这些应用程序将搜索与人工智能技术(如自然语言处理、神经网络和机器学习)相结合,可以处理你的语音命令或文本输入,搜索不同的数据源,并返回所需的答案,所有这些都是实时且非常准确的。

在企业内部,这些技术可以将员工与他们所需要的内容和答案联系起来,而不管答案在哪里——在文档、财务系统、人力资源系统或政策和程序数据库中。

搜索已经从寻找文件发展到提供答案

到2020年,我们希望看到更多的人工智能搜索和基于搜索的分析应用支持企业。

下面是搜索和非结构化数据分析领域中值得关注的五大趋势。

1. 神经网络和搜索引擎

埃森哲的《峡湾趋势2020》显示,神经网络是支持创新型企业人工智能系统的关键技术,它可以通过模式识别“学习”执行任务。通过分析大量的数字数据,神经网络可以学会识别照片,识别语音命令,并对自然语言搜索查询作出反应。神经网络超越了简单的关键词搜索,使搜索引擎能够理解用户的意思和意图,从而提供最个性化、最相关的结果。

最新的神经网络(BERT及其衍生产品)能够创建一个“语义空间”——对企业内容的抽象理解——可以用于:

  • 深入搜索:识别具有相同含义的句子,而不是仅仅包含相同的搜索关键词(如“公司费用政策”和“商务旅行报销”)

  • 更好的分类:为更好的导航或管理对内容进行分类(例如,合规性、筛选、补救等)

  • 提问/回答:从文件中提取事实,回答与原始材料相关的具体问题(例如:“美国上季度的收入是多少?”)

这些神经网络已经被用于高度管理的内容,如知识库文章、政策和程序、文档、测试标准等等。在接下来的几年里,我们希望看到更多的组织应用神经网络来更好地理解他们的文档内容和用户查询,提供高度相关的、基于上下文的答案。

2. 语义搜索

语义搜索扩展到神经网络,处理范围广泛的企业用户的查询和请求,并可以直接从业务系统得到即时的回答。这使得语义搜索成为用户社区所需的文档、问题、事实和业务数据的单一访问点。语义搜索的目的是为用户的问题提供精确、准确、即时的答案,包括短尾和长尾。语义搜索包括四个部分:

  • 理解查询中的实体(业务对象)

  • 理解查询的目的

  • 将请求映射到应答代理

  • 获取答案并将其报告给最终用户

语义搜索已经使搜索引擎从基于关键词显示结果列表发展到理解这些词的意图并显示用户真正需要的目标内容。如果用户正在搜索“Q1营收”,他/她可能不是在寻找包含“Q1营收”的结果列表,而是一个快速响应,比如“1.23亿美元”。“更多的是什么?也许收入数字甚至可以按市场细分进行细分。

许多因素支持语义搜索的兴起:

  • 数据仓库、数据湖和内容摄入技术的增长正在打破数据竖井,使有价值的内容在组织之间随时可用。

  • 为实现业务应用程序语义搜索而设计的新工具的出现,帮助组织解决了集成挑战,并极大地降低了实现成本。

  • 新的机器学习方法,如先进的神经网络,允许语义搜索引擎更好地理解用户的搜索请求,分析查询中的对象,并将查询映射到意图和确定回答代理。

请阅读我的短文,进一步了解语义搜索和示例业务用例。

3.文档的理解

当计算机阅读文档时,它们不会注意文体细节,比如某个单词在页面上的位置,或者它与其他单词的关系。但是表示元素——定位、颜色、字体、图形元素等等——包含了文本本身无法传达的重要语义信息。作为人类,我们无需思考就能理解这一切。例如,我们知道,字体大小可以表示重要性,标题、段落或图像的位置可以影响这些项目在文档中的意义。然而,由于计算机目前忽略了大多数这些表示元素,组织无法从其文档中提取实质性的价值。

人工智能正在通过检查这些表现元素,使从非结构化内容中提取洞察力成为可能。可以对智能文档处理引擎进行培训,使其能够阅读这种表示性信息并向最终用户交付洞察力。想象一下可以利用文档理解的各种企业用例:

  • 自动PDF发票处理:提取表,总计,名称/值对

  • 从纸质流程到电子流程的转变:药品生产从批记录到电子批记录;或从pdf文件到实验室信息管理系统记录实验室测试程序

  • PowerPoint内容搜索:搜索幻灯片,突出显示幻灯片内的搜索,提取标题,删除页脚

  • 搜索地球科学报告:找到测井、地震剖面、地图和其他元素,并将这些项目与全球的地理位置联系起来

  • 自动邮件路由和表格填写:减少邮件项目的处理时间,包括蜗牛邮件和电子邮件

  • 工程图纸的自动转换:转换为材料清单,并最终转换为连接图和流程图

  • 策略和过程文档搜索:搜索和匹配各个段落,或从文本中提取直接答案

  • 和更多的

关于我们如何为企业构建这些文档理解应用程序的内容。

4. 图像和语音搜索

2019年埃森哲数字消费者调查发现,大约一半的受访者已经在使用数字语音助手(DVA), 14%的人计划在未来12个月内购买。虚拟助手——Siri、Alexa、谷歌助理等等——正变得无处不在。在人工智能技术的推动下,它们使人类和计算机在日常互动中能够对话。它们带来了更深入的自然语言理解,不仅增强了搜索功能,而且提供了一种全新的查找信息的方式。

语音助理已经进入企业,使客户和员工能够更容易地与企业数据进行交互。例如,员工现在可以问“我们在欧洲的数据科学专家是谁?”或“我如何预订巴黎办公室的会议室?”从外部来看,语音和图像搜索功能超越了传统的文本搜索,为客户和合作伙伴提供了在公司网站上查找信息的更简单的方法。

“到2021年,那些重新设计网站以支持视觉和语音搜索的早期采用率品牌将增加30%的数字商务收入。

这些工具和语义搜索(上面讨论过)之间有天然的协同作用。在许多情况下,聊天机器人可以被删除——后端可以完全由一个健壮而全面的语义搜索引擎来处理。

5. 知识图谱

根据我们去年的预测,知识图的发展将继续推动整个企业更智能的搜索交互。

将组织的现有数据聚合到一个存储库(通常是企业数据湖)是一个起点。但是我们如何利用这些数据呢?我们需要给它添加上下文、关系和意义。从不同企业功能的片段数据记录中,自然语言理解(NLU)算法可以创建一个相互连接的信息网络,表明数据记录是如何相互连接的,从而创建企业知识图。当用户提出问题时,搜索引擎和问答系统可以立即抓取相关信息的快照,并提供相关的见解。

请注意,知识图可以跨越广泛的复杂性:

  • 适度相互联系:雇员和雇员信息业务单位和主要团队成员办公室的位置产品和支持人员物理平面机械位置

  • 丰富的相互关联的:组织层次结构办公室走廊、楼梯和会议室位置机器部件及其邻近性/相互连接性产品类别、血统及配套配件物理设备和机器的相互连接客户、联系人、销售人员和购买的产品策略和过程约束、条件和要求

随着新的数据点和深刻的关系的无限增加,知识图将会不断增长。

除了搜索

展望2020年和未来几年,我们预计这五项发展将进一步发展,并在企业内部得到更广泛的利用。重点将放在如何应用这些智能技术来发现和最大限度地使用非结构化数据。超越传统的搜索应用程序,新的搜索和人工智能驱动的用例每天都被发明出来,以提供更多的价值和更好的结果。随着人工智能技术和方法的改进,它们可以被组织用来以更低的成本和更强大的结果解决技术和组织的挑战。有了实际的策略、领域的专业知识和专家的实施,组织可以为创新释放无限的机会。

本文 http://jiagoushi.pro/node/1156
讨论:知识星球【首席架构师圈】或者加微信小号【cea_csa_cto】或者加QQ群【792862318】
公众号 【jiagoushipro】
【超级架构师】
精彩图文详解架构方法论,架构实践,技术原理,技术趋势。
我们在等你,赶快扫描关注吧。
微信小号 【cea_csa_cto】
50000人社区,讨论:企业架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化.

QQ群 【792862318】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。
加QQ群,有珍贵的报告和干货资料分享。

视频号 【超级架构师】
1分钟快速了解架构相关的基本概念,模型,方法,经验。
每天1分钟,架构心中熟。

知识星球 向大咖提问,近距离接触,或者获得私密资料分享。 知识星球【首席架构师圈】
喜马拉雅 路上或者车上了解最新黑科技资讯,架构心得。 【智能时刻,架构君和你聊黑科技】
知识星球 认识更多朋友,职场和技术闲聊。 知识星球【职场和技术】
微博 【智能时刻】 智能时刻
哔哩哔哩 【超级架构师】
抖音 【cea_csa_cto】超级架构师
快手 【cea_csa_cto】超级架构师
小红书 【cea_csa_cto】超级架构师 首席架构师智库

谢谢大家关注,转发,点赞和点在看。

【数据分析】搜索和非结构化数据分析值得关注的5大趋势相关推荐

  1. 福利 |《非结构化数据分析》书评:探索非结构化数据的魅力

    文末有数据派独家福利哦 在过去的几年里,围绕大数据.物联网和人工智能等信息的宣传铺天盖地.这些新闻源源不断地向我们展示了技术和分析工作如何改变我们的生活和商业模式.将大数据和物联网转化为有实际价值的信 ...

  2. 美国进入“非结构化”数据分析新时代

     美国进入"非结构化"数据分析新时代 目前,对国内大部分企业级客户而言,大数据时代已经真正到来了. 虽然,近年来"大数据"及"数据分析" ...

  3. 【人工智能AI大数据】AI 的未来:ChatGPT 世界中值得关注的 4 大趋势

    AI 的未来:ChatGPT 世界中值得关注的 4 大趋势 The future of AI: 4 trends to watch for in a ChatGPT world 目录 AI 的未来:C ...

  4. 总结非结构化数据分析「十步走」

    注:诚然,本文中所提到的内容并使非结构化数据结构化的唯一步骤,但该步骤的可行性,以及在创造可持续模式方面的表现已在实践中得到证实. 如今,数据分析逐渐在企业发展中扮演起愈加重要的角色,为求在业务成长过 ...

  5. 2020年数据中心值得关注的8大趋势

    随着网络.云计算的发展,数据中心市场在以下方面正悄悄变化着:未来市场的所有者是谁.技术创新趋势.以及客户购买和管理数据中心产品的方式.由于新物联网设备和边缘计算需求的激增,数据中心正变得越来越重要,到 ...

  6. 非结构化数据定义、处理方法及重要性

    一.非结构化数据定义 不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档. 文本.图片. 标准通用标记语言下的子集 XML. HTML.各类报表.图像和音频/视频信息等等. ...

  7. AI非结构化数据处理和分析软件公司Zilliz宣布完成4300万美元B轮融资

    "数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发+2.0版产业图谱+落地颁奖大会)即将推出,敬请咨询期待! 数据猿发布产业全景图--2020中国数据智能产业图谱 ...

  8. 我被“非结构化数据包围了”,请求支援!

    阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%.换句话来说,就是我们都被"非结构化数据"包围了.由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使 ...

  9. 夺权!非结构化数据制霸大数据

    结构化 数据与非结构化数据之争已经见到了眉目,而我国的 大数据 产业也正处在由结构化为主到非结构化为主的过程中.那么非结构化数据为何可以取代结构化数据制霸大数据市场呢? 一朝天子一朝臣,一个时代一尊神 ...

最新文章

  1. 6.1.1 验证注解的使用
  2. mysql更新linux_MySQL更新语句UPDATE深入探索
  3. html+form+multipartform-data,表单 – 如何处理node.js中的multipart / form-data
  4. IE 弹出框处理经验
  5. rsync的介绍及参数详解,配置步骤,工作模式介绍
  6. samba-设定文件共享
  7. 452. 用最少数量的箭引爆气球(JavaScript)
  8. fastrtext︱R语言使用facebook的fasttext快速文本分类算法
  9. 谷歌搜索算法分析及应对策略
  10. atmega168p与328p_ATMEGA328P-MU产品说明
  11. 软件Copyright中年份有什么意义?
  12. 面试拆解:系统上线后Cpu使用率飙升如何排查?
  13. 设置了position: fixed; 并且能够左右滚动 #html #Css
  14. Oracle 一种简单粗暴的办法解析XML文件的例子
  15. 气象学需要计算机知识吗,没毕业就被签走的铁饭碗专业 气象学
  16. 第一次博客(比特虫):网站favicon.ico图标介绍,制作
  17. 海康威视H99 Pro 的Windows/Linux 磁盘映射
  18. JSP实习实训管理系统myeclipse开发mysql数据库WEB结构java编程
  19. 智能仓储硬核资料分享
  20. 数据、算法、场景:工程化的“三驾马车”

热门文章

  1. RGB565 与RGB888的区别
  2. python绘制七巧板_CSS3制作七巧板动画
  3. librtmp h265 推流
  4. PDF怎么修改文字?其实修改PDF内容很简单
  5. Error creating document instance
  6. 机器学习-线性模型及广义线性模型
  7. Android8.0 核心app或者service crash多次会进入Recovery
  8. 【QT-3】tableWidget控件
  9. SRGAN 论文学习
  10. 发布包到maven公共仓库图文教程(1) --- 注册账号和提交申请