行业知识图谱调查报告(一):知识图谱概述

目录

  • 行业知识图谱调查报告(一):知识图谱概述
    • 前言
    • 一、知识图谱概述
      • 1.1 知识图谱概念及分类
      • 1.2 行业知识图谱基本情况
      • 1.3 知识图谱发展历程
    • 参考文献

相关系列笔记:
行业知识图谱调查报告(一):知识图谱概述
行业知识图谱调查报告(二):知识图谱构建及行业知识图谱构建举例
行业知识图谱调查报告(三):行业知识图谱应用及实践

我自己整理的,有错误或者更好的资料欢迎指正,谢谢大家!!!

前言

  当前人工智能的发展仍然处于弱人工智能的状态,研究重心由感知智能过渡到认知智能领域。知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱支持非线性的、高阶关系的分析,帮助机器实现理解、解释和推理的能力,是认知智能的底层支撑。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。

  知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义 Web、数据挖掘与机器学习方向的交叉研究。知识图谱于2012年由谷歌提出并成功应用于搜索引擎,知识图谱属于人工智能重要研究领域——知识工程的研究范畴,是利用知识工程建立大规模知识资源的一个杀手锏应用。1994年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义——将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要利用知识工程为大数据添加语义/知识,使数据产生智慧(smart data),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。 知识图谱在下面应用中已经凸显出越来越重要的应用价值:

  • 知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集成服务;
  • 语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是互联网网页;
  • 问答和对话系统:基于知识的问答系统将知识图谱看成一个大规模知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;
  • 大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。

  知识图谱逐渐成为人工智能又一热点产业,2019年知识图谱相关的融资金额较2018年增长超过200%,产业链已初具规模,互联网公司、人工智能公司及大数据智能公司纷纷入局。2019年知识图谱核心产品市场规模约65亿元,预计2024年将突破200亿元;2019年知识图谱技术带动经济增长规模约391.8亿元,预计2024年将突破1000亿元。其中2019年市场中以金融领域和公安领域应用份额占比最大,金融领域因标准化数据积累丰富,行业认知与直接需求最为明显等因素,成为数据智能最早落地并产生价值的行业;公安领域经过三年的感知智能基础设施建设,已经初步形成人工智能应用环境,在党中央和公安部的号召指导下,公安大数据建设将成为下一阶段的主题,这一趋势也在2019年相关招标项目中得以体现。随着整体市场数据基础的完善和需求唤醒,大数据智能领域规模持续走高,但在行业可落地性和理性建设的限制下,预计市场增速将呈现下降趋势,期间咨询性需求将会大量出现,从整体发展来看增速处于良性区间,对真正有价值的公司和产品有正向意义。

  本报告从知识图谱概述、知识图谱构建、行业知识图谱构建基本过程、行业知识图谱应用、企业中的行业知识图谱实践等五个部分对知识图谱技术在其他行业中的代表性应用场景进行梳理,对知识图谱未来的发展和应用做出展望,同时对人工智能“新基建”下,城市数字化、智慧化发展的创新场景进行展示。

一、知识图谱概述

1.1 知识图谱概念及分类

  知识图谱最早于2012年由谷歌公司正式提出,其初衷是为了改善搜索性能,提升用户搜索体验。目前对知识图谱没有统一的定义,普遍被接受的一种定义为:知识图谱本质上是一种语义网络,网络中的节点代表实体或者概念,边代表实体/概念之间的各种语义关系。一种更为宽泛的定义为:知识图谱使用图作为媒介来组织与利用大规模不同类型的数据,并表达明确的通用或领域知识

  从覆盖的领域来看,知识图谱可以分为通用知识图谱和行业知识图谱(又叫行业知识图谱)。前者面向开放领域,而后者则面向特定的行业。通用知识图谱强调的是广度,即更多的实体,通常难以形成完整的全局性的本体规范。行业知识图谱主要用于辅助各种复杂的分析应用及决策支持场景,它需要考虑领域中的典型业务场景及参与人员的背景和交互方式,因而需要完备性和严格且丰富的模式定义,并保证对应的实例知识具有丰富的维度,即一定的深度。行业知识图谱当前已经在金融证券、生物医疗、图书情报、电商、农业、政务、运营商和传媒等行业中得到了较多成功的应用。

1.2 行业知识图谱基本情况

  行业知识图谱的架构分两种: 一种是行业知识图谱自身的逻辑结构; 另一种是行业知识图谱的构建技术 (体系) 架构, 如图1所示。

图1 行业知识图谱体系架构

  号称“硅谷最神秘科技公司”的Palantir是行业知识图谱领域的典型代表,其软件允许客户对大量的敏感数据进行语义关联分析,以防止欺诈,确保数据安全等。

  行业知识图谱相对通用知识图谱拥有如下特性:

  ① 领域性更强,能具体到某一个行业细分问题。
  ② 数据来源更加复杂,包括企业的数据库、日志、文本报告等数据。
  ③ 规模非常大,一般来说,明略科技构建的行业知识图谱规模都在百亿规模以上。
  ④ 对实时性和数据质量的要求非常高,因为要依赖于知识图谱做分析决策。
  ⑤ 需结合行业知识搭建更多的复杂行业应用。

  行业数据的特点包括:

  ① 数据来源多:内部数据、互联网数据、第三方数据。
  ② 数据类型多:包含结构化、半结构化、非结构化数据,且后两者越来越多。
  ③ 数据模式无法预先确定:模式在数据出现之后才能确定;数据模式随数据增长不断演变。
  ④ 数据量大:在大数据背景下,行业应用的数据的数量通常都以亿级别计算,存在通常在TB、PB级别甚至更多。

  行业知识图谱的落地,存在不少技术挑战。

  比如,要对海量多源异构数据做数据融合,构建知识图谱。再如,解决大规模知识图谱的存储计算问题。此外,要把数据转化成为真正的行业知识,满足行业应用的需求。

  为了帮助客户更高效地沉淀行业知识,指导实际业务,从知识图谱的构建、存储到应用,需要形成了一套成熟的产品体系,例如,其核心技术可能包括基于智能化文本挖掘技术的文本抽取、智能数据字段识别和映射结构化抽取,以及最核心的混合存储的知识图谱系统,用于支撑应用层的社区挖掘、群体的分析,智能问答等。

1.3 知识图谱发展历程

  知识图谱的发展是人工智能重要分支知识工程在大数据环境中的成功应用。回顾知识工程四十年来发展历程,总结知识工程的演进过程和技术进展,体会知识工程为人工智能所做出的贡献和未来面临的挑战,可以将知识工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维网 1.0 时期\群体智能时期以及知识图谱时期

图2 知识工程发展历程

  • 1950-1970 时期:图灵测试

  人工智能旨在让机器能够像人一样解决复杂问题,图灵测试是评测智能的是手段。这一阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。这一阶段具有代表性的工作是通用问题求解程序(GPS):将问题进行形式化表达,通过搜索,从问题初始状态,结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。这一时代人工智能和知识工程的先驱Minsky,Mccarthy和Newell以Simon四位学者因为他们在感知机、人工智能语言和通用问题求解和形式化语言方面的杰出工作分别获得了1969年、1971年、1975年的图灵奖。

  • 1970-1990 时期:专家系统

  通用问题求解强调利用人的求解问题的能力建立智能系统,而忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。70年开始,人工智能开始转向建立基于知识的系统,通过知识库+推理机实现智能,这一时期涌现出很多成功的限定领域专家系统,如MYCIN医疗诊断专家系统、识别分子结构的DENRAL专家系统以及计算机故障诊断XCON专家系统等。94年图灵奖获得者Feigenbaum教授在70年代提出知识工程的定义,确立了知识工程在人工智能中的核心地位。这一时期知识表示方法有新的演进,包括框架和脚本等。80年代后期出现很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。

  • 1990-2000 时期:万维网 Web 1.0

  在1990年代到200年,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet, 采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的Hownet。Web1.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。这一时期还提出了本体的知识表示方法。

  • 2000-2006 时期:群体智能 Web 2.0

  Web1.0万维网的出现使得知识从封闭知识走向开放知识,从集中知识成为分布知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。也是在2001年,万维网发明人、2016 年图灵奖获得者Tim Berners-Lee 提出语义 Web的概念,旨在对互联网内容进行结构化语义表示,并提出互联网上语义标识语言RDF(资源描述框架)和OWL(万维网本体表述语言),利用本体描述互联网内容的语义结构,通过对网页进行语义标识得到网页语义信息,从而获得网页内容的语义信息,使人和机器能够更好地协同工作。

  • 2006 年至今:知识图谱

  “知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从 2006 年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。与 Cyc、 WordNet 和 HowNet 等手工研制的知识库和本体的开创性项目不同,这一时期知识获取是自动化的,并且在网络规模下运行。当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。 典型的例子是谷歌收购 Freebase 后在2012 年推出的知识图谱(Knowledge Graph),Facebook的图谱搜索,Microsoft Satori以及商业、金融、生命科学等领域特定的知识库。

  具代表性大规模网络知识获取的工作包括DBpedia,Freebase, KnowItAll,WikiTaxonomy 和YAGO,以及BabelNet ConceptNet,DeepDive,NELL,Probase,Wikidata,XLore,Zhishi.me等。这些知识图谱遵循 RDF 数据模型,包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。

  现在我们看知识图谱的发展和应用状况,除了通用的大规模知识图谱,各行业也在建立行业和领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识图谱的创新应用还有待开发。

参考文献

[1] 知识图谱发展报告[R].北京:中国中文信息学会语言与知识计算专委会,2018.08.
[2] 人工智能之知识图谱[R].北京:清华大学人工智能研究院,2019.01.
[3] 面向人工智能“新基建”的知识图谱行业白皮书[R].北京:认知智能重点实验室&艾瑞咨询研究院2020.11.
[4] 公安知识图谱标准与白皮书[R].北京:中国电子技术标准化研究院,2019.08.
[5] Bordes A, Glorot X, Weston J, et al. Joint learning of words and meaning representations for open-text semantic parsing[C], in Proceedings of AISTATS 2012, 127-135.
[6] Lin Y, Liu Z, Luan H, Sun M, Rao S, Liu S. Modeling Relation Paths for Representation Learning of Knowledge Bases[C], in Proceedings of EMNLP 2015.
[7] Yang Y, Carbonell J G, Brown R D, et al. Learning approaches for detecting and tracking news events. IEEE Intelligent Systems and Their Applications, 1999, 14(4):32–43.
[8] Valerie Bonstrom, Annika Hinze, Heinz Schweppe. Storing RDF as a Graph.In Proceedings of LA-WEB’2003. pp.27-36.
[9] Jacopo Urbani, Spyros Kotoulas, Jason Maassen, Frank van Harmelen, Henri E. Bal: OWL Reasoning with WebPIE: Calculating the Closure of 100 Billion Triples. Proceedings of the Extended Semantic Web Conference (ESWC 2010), 180-195, 2010.
[10] Jens Lehmann: DL-Learner: Learning Concepts in Description Logics. Journal of Machine Learning Research 10: 2639-2642 (2009)
[11]许闲.保险行业知识图谱构建之初探[J].上海保险,2019(11):16-18.
[12]王昊奋,丁军,胡芳槐,王鑫.大规模企业级知识图谱实践综述[J].计算机工程,2020,46(07):1-13.
[13]赵紫英,张化军,刘振业.基金行业知识图谱的构建与应用[J].金融纵横,2020(08):9-15.
[14]刘烨宸,李华昱.领域知识图谱研究综述[J].计算机系统应用,2020,29(06):1-12.
[15]郄楠,侯鸿志,李烨.以知识图谱为核心的保险行业人工智能解决方案[J].人工智能,2020(06):44-53.
[16] 时空中的金融科技, 白硕. 理深科技时评. 2016.
[17]关于“智能投顾”的技术和业态浅析,白硕.《金融电子化》,2016(9):18-20.

行业知识图谱调查报告(一):知识图谱概述相关推荐

  1. 2020年中国知识图谱行业分析报告(附全文下载)

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 [导读]最近知识图谱在自然语言处理领域中算比较热门的一个研究方向,本文为大家整合了由艾瑞咨询研究 ...

  2. 领域应用 | 2020 年中国知识图谱行业分析报告

    本文转载自公众号:艾瑞咨询. 核心摘要: 人工智能本质是解决生产力升级的问题,人类生产力可以归类为知识生产力和劳动生产力,人工智能走入产业后,可以分为感知智能.认知智能和行为智能,后两者更与生产力相对 ...

  3. 连载 | 知识图谱发展报告 2018 -- 前言

    OpenKG 将开始连载<知识图谱发展报告(2018)>,希望该连载能够让更多的人深入了解知识图谱.欢迎各位读者留言讨论. 1. 知识图谱的研究目标与意义 知识图谱(Knowledge G ...

  4. 知识图谱发展报告(2018)笔记/思维导图

    <知识图谱发展报告(2018)>由中国中文信息学会语言与知识计算专委会发布,原报告下载地址为:知识图谱发展报告(2018) <知识图谱发展报告>是语言与知识计算专委会邀请知识图 ...

  5. 阅读 | 003《知识图谱发展报告2022》(三)实体抽取

    文章目录 第三章 实体抽取 一. 任务定义.目标和研究意义 二. 研究内容与挑战 三. 研究现状与发展趋势 1.模型架构:从序列标注到生成模型 2.学习算法:从粗粒度有监督学习到细粒度小样本学习 3. ...

  6. Go 语言 2019 调查报告发布(内含 Go 语言图谱下载)

    <关注公众号,回复 Go 即可下载清晰知识图谱> 对 Go 语言感兴趣但又不知从何学起的同学,可以参考一下 Go 语言系列文章: 为什么你要选择 Go? Go 面向失败编程 带着服务器编程 ...

  7. 会议交流 | DataFunSummit 知识图谱在线峰会——链接知识图谱最前沿技术和最落地产业化应用的桥梁!...

    随着人工智能技术的发展与应用,知识图谱作为AI进步的阶梯越来越受到学术界和产业界的重视,并且已经在很多领域.场景中体现出自身的价值.从最初的互联网搜索.推荐.问答等ToC场景,逐渐进入到垂直行业ToB ...

  8. 知识图谱的皇冠:知识图谱推理的前世今生

    作者:费斌杰 本文约4200字,建议阅读8分钟 本文聚焦于知识推理的理论研究和产业实践,剖析知识图谱推理的前世今生以及最近研究进展,以飨读者. [ 导读 ]业界和学界对知识图谱的关注主要集中于两大领域 ...

  9. powerbuilder查询符合条件的数据并且过滤掉其他数据_论文浅尝 ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询...

    论文笔记整理:胡楠,东南大学博士. 来源:ISWC 2020 动机 像Wikidata这样的现代知识图已经捕获了数十亿个RDF三元组,但是它们仍然缺乏对大多数关系的良好覆盖.同时在NLP研究的最新进展 ...

  10. 论文浅尝 - ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询

    论文笔记整理:胡楠,东南大学博士. 来源:ISWC 2020 动机 像Wikidata这样的现代知识图已经捕获了数十亿个RDF三元组,但是它们仍然缺乏对大多数关系的良好覆盖.同时在NLP研究的最新进展 ...

最新文章

  1. 傅里叶变换才是本质?谷歌这项研究GPU上快7倍、TPU上快2倍
  2. PAT题解-1118. Birds in Forest (25)-(并查集模板题)
  3. java中关键字、标识符、常量、变量、数据类型
  4. [译]Kinect for Windows SDK开发入门(八):骨骼追踪进阶 上
  5. avast从隔离区恢复后,仍无法打开被误杀文件的解决方案
  6. Laravel学习笔记之Demo1——URL生成和存储
  7. objective-C 数据类型转换
  8. vmlinuz的产生
  9. Excel怎么制作二维码图片?
  10. sai 绘图软件快捷键
  11. 国际反垃圾邮件组织有哪些?
  12. Tomb.Finance的每周更新(5.16-5.22)「Harry大财主的每周二更新」
  13. 关于windows10在学习爬虫是用到appium配置java的jdk出现了,javac不是内部命令的解决方法(¥57)
  14. 单片机仿真指示灯开关控制器
  15. 《萌小甜动图字帖》使用简介
  16. SAP FICO-模块 关于固定资产年结和折旧的问题
  17. 美国时间格式化成通用时间
  18. android 十六进制加密,使用十六进制十进制值的Android加密和解密?
  19. 洛谷P2404 自然数的拆分问题(回溯)
  20. 小米盒子4c android,小米盒子4/4C规格曝光 有一定升级

热门文章

  1. 计算机上静音快捷键是什么,电脑静音快捷键是什么(电脑静音快捷键怎么设置)...
  2. 报刊订阅管理系统(数据库课程设计)
  3. token什么意思中文在C语言中,token什么意思(token里面包含什么信息)
  4. python三个单引号成对用于什么_python中三个单引号是什么意思
  5. 浏览器主页被篡改解决方法
  6. 【MySQL学习】3、MySQL视图
  7. 超好用的在线OCR识别,文档/证件/发票/票据都支持,居然还免费
  8. 初中英语语法(003)-be动词和一般动词的一般过去式
  9. 也许你不知道:越自我,越自由!
  10. 复制csdn或者博客园文章时,图片无法直接粘贴过来解决办法