1. 引言

最早接触知识图谱是在一篇分析人工智能的文章,文章提出一个很有意思的观点:“在感知层面,人工智能进步很大,在更高级的认知层面,我们现在了解的仍然很少。” 我对这句话的粗浅理解是,人工智能在学习数据的内在表示(无监督学习),或者对数据的输出结果判别方面表现出了强大的能力,甚至在计算机视觉、语音识别、机器翻译等方面接近或超过人类的表现水平,但这些都还停留在对数据内容的归纳和感知层面,对于需要复杂背景知识和前后上下文的认知和推理层面了解仍然不够,例如我有一堆数据,我想让机器自己学习和推理出正确的知识,以及知识和知识的联系。当然知识图谱也知识在认知计算领域走出了一步,远未达到人们对认知的期望。

具体到知识图谱,简单理解就是一个知识库,我们能利用这个知识库,给定你要查询的内容,然后到知识库中去进行关联分析和推理,试图让机器了解你的意图,反馈和你查询相关内容的更多关联信息。举一个简单例子,我们用所有的菜谱构建知识图谱,然后问“夏天西红柿怎么做汤”,知识图谱会查询“夏天”、“‘西红柿”和“汤”在所有菜谱中的直接和间接关系,进而推荐给你几个最匹配的菜谱。就我的总结,知识图谱有两大类主要应用:a) 搜索和问答类型的场景;b)自然语言理解类的场景。典型的应用场景如下:

那知识图谱是怎么表示的呢?大多数知识图谱用RDF(Resource Description Framework)表示,RDF表征了实体和实体的关系,这种关系有两种:一种是属性关系,即一个实体是另一个实体的属性;另一种是外部关系,表明两个实体之间存在外部关联。。RDF形式上表示为SPO(Subject Predicate Object)三元组,所以实体通过关系链接成无向的网络。例如:

2. 知识图谱的架构体系

可以用知名的知识图谱平台PlantData为例,介绍知识图谱的架构体系:

从图中我们可以看出知识图谱的体系分成4个过程:数据采集、知识抽取、知识链接和融合、知识的应用。

首先说数据采集,构建知识图谱是以大量的数据为基础的,需要进行大规模的数据采集,采集的数据来源一般是:网络上的公开数据、学术领域的已整理的开放数据、商业领域的共享和合作数据,这些数据可能是结构化的、半结构化的或者非结构化的,数据采集器要适应不同类型的数据。

知识抽取是对数据进行粗加工,将数据提取成实体-关系三元组,根据数据所在的问题领域,抽取方法分成开放支持抽取和专有领域知识抽取。

知识链接和融合,由于表征知识的实体-关系三元组抽取自不同来源的数据,可能不同的实体可以进一步融合成新的实体,实现在抽象层面的融合;根据融合之后的新实体,三元组集合可以进一步学习和推理,将表达相同或相似含义的不同关系合并成相同关系,检测相同实体对之间的关系冲突等。

知识图谱构建完成之后,形成了一个无向图网络,可以运用一些图论方法进行网络关联分析,将其用于文档、检索以及智能决策等领域。例如,阿里的知识图谱以商品、标准产品、 标准品牌、 标准条码、标准分类为核心, 利用实体识别、实体链指和语义分析技术,整合关联了例如舆情、百科、国家行业标准等9大类一级本体,包含了百亿级别的三元组,形成了巨大的知识网,然后将商品知识图谱广泛地应用于搜索、前端导购、平台治理、智能问答、品牌商运营等核心、创新业务。

3. 知识图谱的构建

知识图谱的构建有两大类方法:如果知识领域比较贴近开放领域,可以先从网络上找一个开放知识图谱,然后以此为基础进行扩充;如果知识领域只某个专有行业的,例如信息安全领域,则开发知识图谱图谱中可直接使用的知识表示相对较少,需要花更多的精力构建专业的知识图谱,一个典型的工具是Deepdive允许通过机器学习和人工参与的方式不断迭代提升知识图谱。

不管构建哪一类的知识图谱,都要经历:数据收集、信息抽取、链接和融合数据、数据可视化以及分析等过程。目前中国的知识图谱从业者们建立了一个非常好的开放知识图谱共享网站:OpenKG.CN,网址是:http://www.openkg.cn/,网站的主要内容如下:

其中,“数据”栏目里给出了开源知识图谱或者用于构建知识图谱的专业数据集。“工具”栏目里给出了几十种用于自然语言处理、知识抽取、知识存储、知识表示、知识链接、知识推理、知识查询、对话系统等用于构建知识图谱和应用知识图谱的工具。“成员”里列出了参与的科研机构和知识图谱从业企业单位。

我们可以利用OpenKG.CN里提供的数据集和工具帮助我们构建知识图谱。数据集可以帮助我们建立一个知识图谱的初始版本,即从里面获得初始的知识表示:SPO三元组,然后根据我们收集的真实业务数据再进行知识抽取和知识推理。构建知识图谱的前提是收集数据,收集的数据越全面,则可供提取的知识表示越丰富,知识图谱的用处越大。

3.1 数据收集

收集数据的方法包括:

a) 收集通用的百科知识,包括百度百科、维基百科等;

b)收集自然语言处理或者类似OpenKG.CN这类网站提供的公开数据集,例如自然语言处理的语料库、同义词近义词库,OpenKG.CN提供的疾病、菜谱、人物、商品、音乐、企业年报、突发事件、脑科学、中文地理、中医药等领域的数据集;

c) 业务领域的数据,从业者所在的企业或者机构所能获取的问题领域的数据。

以上数据的规模较大,需要一个大数据平台来支撑数据的收集、存储和查询,例如利用Hadoop系统或者单独的非关系数据库(Redis、Mongodb、Hbase和postgresql等数据库)进行存储。

3.2 知识抽取(生成SPO三元组)

收集数

自然语言处理之知识图谱相关推荐

  1. 智能音箱背后的自然语言理解和知识图谱技术

    原文地址 http://www.tmtpost.com/2543921.html 部分内容 海知智能,降低打造机器人大脑的门槛 下图是我们总体的技术架构,左边是IOT智能硬件.机器人.即时通讯的工具. ...

  2. 知识图谱、深度学习、AutoML,推荐系统与新技术结合将碰撞出怎样的火花?

    近日,来自意大利米兰理工大学 Maurizio 团队发表的一篇极具批判性的文章火了.这篇文章剑指推荐系统领域的其他数十篇论文,并通过多项试验证明这些论文中基于深度学习的推荐算法大部分都存在不同程度的数 ...

  3. 汇聚6年思想变迁:知识图谱报告幻灯片大全

    本文汇总了中文知识图谱计算会议CCKS报告合集,涵盖从2013年至2018年,共48篇,从中可以看出从Google 2012年推出知识图谱以来,中国学术界及工业界这6年来知识图谱的主流思想变迁. 作者 ...

  4. 知识图谱升温之势已现,不要错失下一个AI风口

    近年来,随着大家对高级认知能力的积极探索,知识图谱因为表达能力强,扩展性好,并能兼顾人类认知与机器自动处理,引起了学术界.工业界以及政府部门的高度关注. 最先被大家熟知的应用领域应属搜索引擎,为了让用 ...

  5. 美团是怎么玩儿AI的?今晚8点揭秘美团超大规模知识图谱--美团大脑

    主题:美团大脑:知识图谱的建模方法及其应用 时间:8 月 30 日(今日) 20:00-21:00 形式:免费线上直播+社群答疑 报名地址:https://edu.csdn.net/huiyiCour ...

  6. 报名 | 美团是怎样给你推荐外卖的?美团大脑知识图谱详解

    作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索.推荐.问答.解释与决策等应用提供基础支撑. 从具体任务来看,知识图谱能显著提升一些具体任务的效果.知识图谱支撑下 ...

  7. 知识图谱从哪儿来?实体关系抽取的现状和未来

    12月17日晚,2019年清华特奖获得者之一,清华大学自然语言处理实验室大四本科生高天宇,在智源论坛Live第1期,以<实体关系抽取的现状和未来>为主题,与150位观众进行了在线交流.本文 ...

  8. 中国队刷新知识图谱“世界杯”,但点开冠军团队一看,我愣住了

    博雯 发自 凹非寺 量子位 | 公众号 QbitAI 知识图谱领域的"世界杯"OGB(Open Graph Benchmark)wikikg2榜单,又被刷新了! 上榜的这支团队首次 ...

  9. 我的机器学习入门之路(下)——知识图谱、推荐、广告

    继上一篇<我的机器学习入门之路(中)--深度学习(自然语言处理)>,这一篇博客主要记录了我对知识图谱.推荐和广告等方向的一些涉猎与基础学习. 一.知识图谱 从自然语言处理到知识图谱,是一个 ...

最新文章

  1. 让服务器iis支持.apk文件下载的设置方法
  2. MFC_自定义事件响应
  3. MySQL5.7多源复制的实验
  4. JAVA-MyBatis ORM
  5. eShopOnContainers 看微服务③:Identity Service
  6. fat32硬盘格式能在苹果系统里读写操作吗?
  7. css文字在图片下方_【HTML+CSS】文字和图片保持同一水平线的三种方式
  8. 保姆级教学,起点中文网字体反爬。
  9. Matlab计算标准时间格式下时间差
  10. java pageoffice_JAVA调用PageOffice在线打开、编辑Word文档
  11. JAVA基础篇(一)
  12. python-多态_new魔法方法_单态模式_连贯操作
  13. 管理经济学 知识点总结(一)
  14. 轻量级神经网络MobileNet全家桶详解
  15. 虚拟机中 win10 和 Win11 Edge和Chrome 浏览器中设置与快捷菜单字体模糊问题
  16. echarts 象形图背景、柱状图顶部装饰
  17. qrcode生成固定大小的二维码
  18. 避障小车的原理和代码实现
  19. 肖锰:浪潮GS开发平台学习札记(五)——数据对象和数据模型
  20. PostgreSQL主库创建表空间导致备库宕机

热门文章

  1. 滥用公司资源出书、策划婚礼? Meta二号人物受到内部调查
  2. android Launcher3 动态设置一个快捷图标(添加快捷图标)
  3. 初步了解MATLAB金融工具箱
  4. 衍射光学:超短激光脉冲如何影响光束整形光学
  5. 优选法和newton法在实践中的比较(分析原因)
  6. java数据类型 两大类_JAVA的数据类型分为两大类型
  7. ubuntu安装docker软件,使用deb 安装
  8. 3.临床预测模型的构建--基础知识
  9. scatter python_Python中scatter()函数--转载
  10. 数据库sql语句的总结