众包实体消解

实体消解(Entity Resolution,简称ER)旨在发现不同知识图谱中指称真实世界相同对象的实体。众包实体消解(Crowd ER)在使用机器的基础上,还使用人来完成实体消解任务。众包实体消解的一个常见流程如下图所示:

(Waldo: AnAdaptive Human Interface for Crowd Entity Resolution. SIGMOD 2017)

在众包实体消解中,存在一系列关键问题亟待解决,包括:1)如何呈现一个实体消解任务?2)如何选择合适的人来完成任务?3)如何在给定预算限制下挑选任务?等等。论文作者发现,当前研究很少关注第1个问题,即如何通过呈现一些关键信息(例如实体的重要属性和取值)来帮助单个人更高效和精准地完成一个实体消解任务。

一个例子


论文作者关注多实体消解任务(multi-entityresolution,简称MER),下图展示了一个包含3个实体的多实体消解任务,它们拥有了相似的属性和取值,有待人来完成消解。

相关工作


  • 基于列表的多实体消解任务呈现方式,类似于传统搜索引擎。

  • 基于成对的多实体消解任务呈现方式,每次仅比较两个实体并对齐它们间的相似属性。

考虑到属性和取值的数量可能很多,上述两类方法常通过生成摘要来提高人的消解效率。然而,这两类方法对于多实体消解任务而言,也均存在一些不足。例如,由于缺乏直接对比,基于列表的方法需要人在心里记录并比较不同实体;又如,基于成对的方法虽然能使人更加专注两个实体的比较,但是可伸缩性差。更为重要的是,这两类方法在形成列表或成对的过程中,会丢失实体消解结果间的传递性和聚类性等。

本文方法


论文作者提出了一种基于对比表(comparativetable)的多实体消解任务呈现方法,将实体和重要属性分别组成表的行和列头,并将重要取值填入表单元中。拟解决的关键问题是实体的属性和取值的异构性及规模性与有限的表格呈现空间之间的矛盾。方法框架如下图所示,包括3个主要步骤:

  1. 全体属性匹配,包括属性间相似度计算和属性团生成两个子步骤。

  2. 优良性评估,考虑了属性团的判别性、丰富性、语义性和多样性4个特征。

  3. 对比表生成,包括属性团的选择和取值的选择两个子步骤。

下图展示了根据上述例子生成的一个多实体消解任务对比表。

实验结果


论文作者从10个流行领域各选取了25个DBpedia实体作为种子,并通过维基百科消歧页面为每个种子实体随机选取2 ~ 4个Freebase、Wikidata和YAGO实体,再从中随机选择出10个实体构成一个多实体消解任务。共计250个任务,2500个实体,指称804个真实世界对象。

实验从3个方面检验了基于对比表的方法有效性,包括:1)全体属性匹配的准确性;2)属性团排序的有效性;3)通过雇佣60位研究生进行实操,从效率、精度和打分3个方面与基于列表和基于成对的两个代表性方法进行了比较。

[1] Jiacheng Huang, Wei Hu*, Haoxuan Li, Yuzhong Qu. Automated Comparative Table Generation for Facilitating Human Intervention in Multi-Entity Resolution. In: ACM SIGIR Conference on Research and Development in Information Retrieval. 585–594, 2018

-- End --

实验室介绍:南京大学万维网软件(Websoft)研究组在瞿裕忠教授的带领下,长期从事知识图谱(语义网)及相关技术的研发,研究组成员包括胡伟副教授、程龚副教授以及30余位博士和和硕士研究生,近期的研究方向主要包括:智能问答、知识融合和语义搜索。
联系方式:胡伟,whu@nju.edu.cn,微信号:whu1982
网站:http://ws.nju.edu.cn


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

胡伟 | 面向多实体人机协作消解的对比表生成自动化方法相关推荐

  1. 面向制造领域人机物三元数据融合的本体自动化构建方法

    面向制造领域人机物三元数据融合的本体自动化构建方法 人工智能技术与咨询 点击蓝字 · 关注我们 摘要 当前,智能制造面临的许多问题都具有不确定性和复杂性,单纯地利用专家经验和机理模型难以有效解决.鉴于 ...

  2. 用于多UxV管理的人机协作中智能体的透明度研究

    牛博  翻译 目标:在多机器人管理的人机协作环境中,我们研究了智能体透明度水平对操作员绩效.信任和工作负载的影响. 背景:参与者扮演了一个异构无人机(UxV)操作员的角色,并被指示通过计算机界面向Ux ...

  3. 当AI渗透到财务管理 未来人机协作机器人有望“独当一面”

    在人工智能(AI).区块链(Block Chain).云计算(Cloud).大数据(Digital)四大科技技术场景纷纷落地之时,AI技术无疑成为国内大型企业降低成本最有效的手段,也成为应用最广泛的场 ...

  4. 人机协作机器人发展趋势_人机协作引领机器人产业新趋势

    图集 原标题: 在第十九届中国国际工业博览会上,机器人新产品传递出行业发展新动向-- 人机协作引领机器人产业新趋势 在第十九届工博会上,中国工程院院士倪光南(右一)在遨博智能科技有限公司展台观看其展出 ...

  5. [转帖]龙芯胡伟武:补课18年 未来几年将同国际主流产品竞争

    龙芯胡伟武:补课18年 未来几年将同国际主流产品竞争 https://www.cnbeta.com/articles/tech/857999.htm 龙芯的发展 道阻且长,行则将至事不经过不知难是不经 ...

  6. 胡伟武关于计算所购买MIPS结构授权的几点说明

    胡伟武关于计算所购买MIPS结构授权的几点说明 关于计算所购买MIPS结构授权的考虑 胡伟武 1. 龙芯处理器的研制和应用推广情况 中科院计算所从2001年开始龙芯处理器的研制.经过8年的积累和努力, ...

  7. 训练AI来检测人类意图,扩大制造领域的人机协作

    机器和机器人的广泛使用无疑让我们的生活变得更加轻松,更加方便.它们以精确和快速的方式完成工作,而且机器与人类不同,他们不需要休息,因为他们永远不会累. 然而,真实工作环境中仍有许多任务需要人类的灵巧性 ...

  8. 人机协作机器人发展趋势_移动机器人:人机协作是未来的发展趋势

    随着互联网.人工智能等技术的不断发展.在很多行业中,充分融合了智能机器人.智能设备与软件算法等,实现了一定程度上的"人机协作",以这个模式替换了传统的人工模式.目前协作机器人在汽车 ...

  9. 德国汽车厂发生机器人杀人事件 人机协作是大势所趋

    OFweek机器人网讯:<金融时报>报道称,德国大众汽车制造厂中一个机器人杀死了一名人类工作人员.当时这名21岁的工人正在安装和调制机器人,后者突然"出手"击中工人的胸 ...

最新文章

  1. MySQL 水平分区方案Spock Proxy
  2. 摘:设置向文件中的输出格式
  3. SQL*PLUS常用命令
  4. XCTF easyCpp buu [MRCTF2020]EasyCpp
  5. 《深入理解Nginx》阅读与实践(四):简单的HTTP过滤模块
  6. 字典与文本文档的转换
  7. 安装Kubernetes V1.18.2
  8. bat 两个文本字符替换_Excel中最全最实用的文本函数公式大全
  9. 如何在 Mac 上的程序坞中使用文件夹?
  10. CRMEB Min电商系统商城源码 v4.3.2
  11. 伺服电机常用参数设置_松下伺服电机一般都设置哪些参数
  12. IAR 设置程序下载地址
  13. 力扣438. 找到字符串中所有字母异位词 C++ (滑动窗口 + 数组)
  14. win10无线网一直未连接到服务器,win10系统未识别无线网络无法连接怎么办
  15. 优先调度规则(PDR)
  16. 基于BIM+3DGIS物联网技术,如是实现智慧园区(楼宇)可视化管控平台的?
  17. 局域网计算机配置扫描系统,fly42局域网计算机配置检测系统
  18. VMWARE虚拟机以及LINUX的详细安装教程
  19. Metasploit -- 生成木马(msfvenom)
  20. pyinstaller使用多帧ICO图标

热门文章

  1. Android 之自定义组件
  2. 使用epoll+时间堆实现高性能定时器
  3. 收藏这些芯片原厂的代码仓库
  4. 为什么不能在中断上半部休眠?
  5. 你会选择深圳还是佛山?
  6. 你需要知道的Linux 系统下外设时钟管理
  7. long类型python_Python类型long vs C'long long'
  8. AntDesign组件库的使用
  9. Web框架——Flask系列之session机制(十六)
  10. Paddle 基于预训练模型 ERNIE-Gram 实现语义匹配