一、议题

昨日,阿里达摩院唐呈光老师与我就行业知识图谱的schema的构建对于业务人员是不是有困难以及其中的难点或者耗时点做了一个简短的讨论,我觉得很有趣,发出来与大家一同思考。
唐:唐呈光,阿里巴巴算法专家小蜜对话开发平台对话引擎负责人
刘:刘焕勇,中国科学院软件研究所工程师、数据地平线算法总监

二、 正文

唐:焕勇,有个问题想和你探讨一下,你觉得行业知识图谱的schema的构建对于业务人员是不是有困难?这其中的难点或者耗时点,到底在哪里?

刘:唐老师,简单说两点自己的拙见。

刘:1、是的,尤其是刚入行不久的业务小白,构造一个标准的知识本体都很难。业务人员需要需要了解什么是主体、客体、复杂的怎么拆分,什么是属性,属性关系和实体关系怎么去区分,等等,这个既需要了解细节的业务,也需要将业务抽离、抽象,这个对于业务人员来讲是很难的。我觉得,知识架构师,知识产品经理是未来知识图谱的一个十分必要的工种。

刘:2、难点的话,包括1)一个是对业务的梳理或者说理解,既需要有跳出来的宏观把控,只有跳出来才能尽可能地建模场景元素,也需要对细节的把控,针对不同的需求,如问答、检索等,制定不同的本体,这个要求比较高;2)另外一个就是动态的schema的问题,schema的版本都会一直变化,根据业务变化,也会根据自己对业务的认识而变化,如何尽可能地减少这种变化,也是一个难点。

唐:分析得很到位[强],你觉得从技术角度,我们能从哪方面发力,降低这个构建难度呢?

刘:是两个域

刘:kg技术就是基于schema而展开的,是schema的后续操作。如果要做的话,那做shcema的自动生成,辅助schema的编辑?

唐:你觉得schema自动生成,这个技术的难点在哪里?我们自己搞了半年,效果也不太好啊

刘:我反问一个问题,为什么事件抽取搞来搞去都是ace那8大类23小类

刘:schema不存在一个标准的benchmark去评测,所以说好与不好也很难讲,现有的技术做不了太细的东西,可以笼统地搞一些出来,但业务不一定接受。

刘:换句话说,如果存在一种技术能够自己把某个行业知识体系搭出来,那么这个技术本身就相当于这个行业的专家水准,这是个悖论。

唐:因为事件是动态的,事件的类别发展太快了,没办法实时更新覆盖,这也导致事件不容易大范围定义 也不容易标注,所以大家都在常用公开数据 在都认可的事件类别上做模型方法和研究。
唐:这是我的理解。

刘:这是一方面,一是因为动态,类别发展太快,另一个是事件类型自身都是变化的,而且具有相对的主观性,所以很难有统一的标准,现在虽然有很多基于抽象泛化的方法去生成schema,但效果很差。与此相类似,kg的schema也是一样的,很难统一、很难细化、很难全量。

唐:那这个未来怎么才能做到规模化应用呢?

刘:不过,选择一个封闭的领域,找一个相对简单的场景,做下理论研究还是可以的。

刘:这个未来会很未来【我比较悲观】,规模化应用的话,还是上面说的,选择一个封闭的领域,找一个相对简单的场景去做小规模化,比如小蜜的问答,结构清晰的问答场景。

唐:明白

唐:我的感觉,现在的benchmark可以总结为三种:一是业务人员从应用出发的评价标准;二是研究人员从方法模型上的评价标准;三是实际使用情况反应的评价标准;三种标准都有道理,但是是三个角度,gap还挺大

刘:[强],到位

三、总结

知识图谱schema这个东西对于一个从无到有进行知识图谱构建的人来说,是个十分头疼的事情,无论是业务人员,还是技术人员,都存在诸多困惑,schema是对领域或者行业知识的一个高度抽象化建模,是个十分耗时的过程。对话中抛出几个观点,知识架构师,知识产品经理是未来知识图谱 的一个十分必要的工种,技术人员用技术的方式去学习生成图谱的schema,难度比较大,并且也不一定会为业务人员买账。所以,schema这个东西,道路且长。

关于作者

刘焕勇, Liu Huanyong,2017年硕士毕业,目前就职于中国科学院软件研究所,兼任数据地平线科技算法总监。专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统,并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享,目前累计对外开放自然语言处理实践项目六十余项,其中知识图谱和事理图谱项目十六项。在openkg开放知识图谱联盟中开放工业应用知识库七类,主笔数地工场技术类系列文章二十余篇。

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的自然语言处理开源项目:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,事理类知识库数据集,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,以事理为核心的金融情报探索:https://datahorizon.cn.

唐刘之辩:行业知识图谱的schema构建的难点、重点与困惑相关推荐

  1. 中科院刘焕勇老师知识图谱关于schema博客

    https://blog.csdn.net/lhy2014/article/details/111247018?spm=1001.2014.3001.5501

  2. 万字综述:行业知识图谱构建最新进展

    万字综述:行业知识图谱构建最新进展:https://mp.weixin.qq.com/s/iVIoaZxhS1EyC2etRnBf4Q 摘要 行业知识图谱是行业认知智能化应用的基石.目前在大部分细分垂 ...

  3. 技术论坛 | 10月22日在微软:“行业知识图谱+ ”论坛通知

    大数据创新学习中心 <国务院新一代人工智能发展规划>的"跨媒体分析推理技术"强调"重点突破跨媒体统一表征.关联理解与知识挖掘.知识图谱构建与学习.知识演化与推 ...

  4. CCKS-2017 行业知识图谱构建与应用-下篇

    http://www.sohu.com/a/192557627_99934777 摘要: 这篇是PPT的下半部分,更加偏重于实战中关键技术的难点剖析. 行业知识图谱关键技术 上篇我们讲行业知识图谱生命 ...

  5. 线下课程推荐 | 知识图谱理论与实战:构建行业知识图谱 (第四期)

    知识,是智能的前提. 2012年,Google推出"Google Knowledge Graph",并利用其在搜索引擎中增强搜索结果,这便是"知识图谱"名称的由 ...

  6. 如何构建行业知识图谱 (以医疗行业为例)

    The world is not made of strings,but is made of things. - 辛格博士,from Google 随着人工智能走到台前,人们越来越认识到,场景才是盘 ...

  7. 领域应用 | 完备的娱乐行业知识图谱库如何建成?爱奇艺知识图谱落地实践

    转载公众号 | 爱奇艺技术产品团队 2012年5月16日,谷歌首次正式提出了知识图谱的概念,希望利用结构化知识,来增强搜索引擎,提高搜索质量和用户体验. 也就是说,从诞生之日起,知识图谱就和搜索引擎密 ...

  8. 开源开放 | 开源网络通信行业知识图谱(新华三)

    转载公众号 | 数字化领航 OpenKG地址:http://openkg.cn/dataset/network-communication 文章作者:新华三集团 出品平台:数字化领航 OpenKG是中 ...

  9. 研讨会 | “人工智能与行业知识图谱技术实战”研讨会

    人工智能时代 2017年7月,国务院<新一代人工智能发展规划>明确提出"建立新一代人工智能关键共性技术体系"的重点任务和设立"新一代人工智能重大科技项目以及& ...

最新文章

  1. 谈谈Android重打包--初语
  2. 第十四届智能车竞赛规则浅聊
  3. linux基本知识点学习
  4. Ie6/ie7 不支持 JSON
  5. 华为服务器显示红色的心跳,服务器心跳检查
  6. Leaflet中使用awesome-markers插件显示带图标的marker
  7. C++for循环中i++与++i的区别
  8. CodeForces730E Award Ceremony(拓扑排序+结论)
  9. mybatisGenerator 代码自动生成报错 Result Maps collection already contains value for BaseResultMap...
  10. 年近而立,Java何去何从?
  11. 十、Mysql执行计划详细解析
  12. 参数化测试 junit_JUnit参数化测试
  13. sql语句截取字符串
  14. 瑞昱rtl8197fs芯片怎么样_代理台湾瑞昱芯片路由器芯片RTL8197FS-VE4-CG和VE5-CG
  15. 13. nginx四层 https代理https 前后端证书配置
  16. ie11兼容问题汇总及解决方案
  17. 厦门大学计算机英语考试,【图片】一战厦大计算机上岸,经验帖。慢更【考研吧】_百度贴吧...
  18. javaSE 笔记全!
  19. centos7 installation source 阿里源
  20. 零基础JavaScript-DOM入门(第一天)(第二天)

热门文章

  1. 从单片机步入Linux之文件系统的构建
  2. 操作系统中抢占式和非抢占式内核的区别
  3. RK3288/RK3399 CPU定频方法
  4. 分布式系统服务器要求,浅谈分布式系统
  5. Linux下XPath对xml解析
  6. 【Pytorch神经网络基础理论篇】 02 pytorch环境的安装
  7. python中的threading_python中的threading模块使用说明
  8. Vue3 Composition API(三)——生命周期钩子、Provide函数 和 Inject函数、封装Hook案例、setup顶层编写方式
  9. LeetCode 1769. 移动所有球到每个盒子所需的最小操作数(前缀和)
  10. LeetCode 1353. 最多可以参加的会议数目(排序+贪心,优先队列,难)