关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】

文章链接:https://mp.weixin.qq.com/s/Ie2nt0zOi2VK97x4jXYUwA

《 LIMES -- A Time-Efficient Approach for Large-Scale Link Discovery on the Web of Data 》

LIMES是一个基于度量空间的实体匹配发现框架,适用于大规模数据链接发现,编程语言是java。可以通过配置文件以及图形用户界面轻松配置,LIMES可以作为独立工具下载,用于执行链接发现或作为Java库。

官网链接:http://openkg.cn/tool/limes

论文链接:https://www.ijcai.org/Proceedings/11/Papers/385.pdf

使用方法:https://mp.weixin.qq.com/s/h-39Cuhubzg6X9ynC1phXA

原理介绍

通过利用度量空间的三角不等式特征来过滤大量不满足映射条件的实例对,从而减少比较次数,使链接发现更高效。

  • 整体框架图

  • LIMES核心原理

    • 对空间A上任意三个点x,y,z和度量空间m,有如下不等式:m(x,y) <= m(x,y) + m(y,z)。

    • 将上式中的y称为样本点exampler。由上式易得:m(x,y) - m(y,z) > 0 —> m(x,z) > 0。

    • 上述意味着如果空间A中的x,y和样本点y之间的距离差大于阈值,意味着x,z之间的距离比阈值大,说明二者相似度低,在计算距离的过程中便不需要计算x,z之间的距离。

  • 整体流程

    给定源数据集S,目标数据集T,阈值θ。

    1、样本选取:从T中选取样本点E来代表T中的数据,过程中可的m(e,t);所谓样本点,也就是能代表距离空间的点。应该在距离空间上均匀分布,各个样本之间距离尽可能大。

    2、过滤:计算s∈S和e∈E之间的距离m(s,e),利用三角不等式进行过滤,过滤掉m(s,e)-m(e,t)>θ的实体对(s,t);

    3、相似度计算:计算剩余实体对(s,t)的距离m(s,t)。因为步骤2会过滤掉大量的数据,因此本步骤的比较次数会显著减小;

    4、序列化:存储为用户指定格式。存储3得到的结果(s,t,m(s,t))

知识融合:一文看懂LIMES理论基础相关推荐

  1. 怎么查询显卡hdmi接口版本_涨知识丨一文看懂笔记本电脑HDMI接口

    上一期文章我们同大家简单介绍了笔记本电脑Type-C接口及其日常用途,今天我们来聊聊笔记本电脑上另一个常备的电脑接口HDMI,它究竟是什么,有哪些用途,我们一一为您揭晓! 如图所示,有着HDMI标识的 ...

  2. 笔记本怎么查看hdmi版本_涨知识丨一文看懂笔记本电脑HDMI接口

    上一期文章我们同大家简单介绍了笔记本电脑Type-C接口及其日常用途,今天我们来聊聊笔记本电脑上另一个常备的电脑接口HDMI,它究竟是什么,有哪些用途,我们一一为您揭晓! 如图所示,有着HDMI标识的 ...

  3. 一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

    一文看懂大数据生态圈完整知识体系 徐葳 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈 ...

  4. 一文看懂开源许可证丨开源知识科普

    一文看懂开源许可证丨开源知识科普 1. 一文看懂开源许可证丨开源知识科普 1.1. 什么是开源许可证? ("Open Source License") 1.2. 常见开源许可证 1 ...

  5. 海普天刷卡机刷卡的时候显示服务器连接失败,一文看懂智能消费机解决方案,解锁新知识...

    原标题:一文看懂智能消费机解决方案,解锁新知识 文章来源:海普天一卡通 消费机的市场发展也呈现出一个快速发展的趋势.据调查报告表明,未来消费机的发展将会以25%的增长趋势发展,智能消费机的发展使得它应 ...

  6. 2021-11-06一文看懂融合定位技术6种打开方式,深圳核芯物联国产蓝牙aoa融合定位生态合能伙伴方案展示 核芯物联岳毅恒

    一文看懂融合定位技术6种打开方式,深圳核芯物联国产蓝牙aoa融合定位生态合能伙伴方案展示 原创 市大妈 物联传媒 今天 方案素材:属于核芯物联国产蓝牙aoa融合定位生态伙伴所有 本文来源:物联传媒 本 ...

  7. 一文看懂推荐系统:概要01:推荐系统的基本概念

    一文看懂推荐系统:概要01:推荐系统的基本概念 提示:最近系统性地学习推荐系统的课程.我们以小红书的场景为例,讲工业界的推荐系统. 我只讲工业界实际有用的技术.说实话,工业界的技术远远领先学术界,在公 ...

  8. 一文看懂推荐系统:物品冷启05:流量调控

    一文看懂推荐系统:物品冷启05:流量调控 提示:最近系统性地学习推荐系统的课程.我们以小红书的场景为例,讲工业界的推荐系统. 我只讲工业界实际有用的技术.说实话,工业界的技术远远领先学术界,在公开渠道 ...

  9. 一文看懂“语音识别ASR” | AI产品经理需要了解的AI技术概念

    原标题:一文看懂"语音识别ASR" | AI产品经理需要了解的AI技术概念 温馨提示:文末有[重大福利]:优惠券(金额很大) for 三节课<产品经理P2(进阶)系列课程&g ...

最新文章

  1. vue-concise-slider vue滑动组件
  2. 互联网分布式架构--演进过程
  3. starting mysql. success!_启动mysql报错解决问题过程
  4. Math.random()获取随机数
  5. 用CSS3来代替JS实现交互
  6. 工作158:vue里面为什么要加key
  7. oracle运行环境配置,oracle 环境配置开机自启动
  8. urllib2的Post和Get请求
  9. linux命令之awk终极系列
  10. 基于Ubuntu12.04下的Keystone源码安装
  11. iPhone Objective-C EXC_BAD_ACCESS问题
  12. 网页保存视频最有效的几种方法
  13. BZOJ 3097 Hash Killer I
  14. 2022软考高项十大领域知识整理(三)--项目质量管理、沟通管理
  15. 如何设置微信公众号在被添加关注之后, 自动回复文字和图片两条消息
  16. DeepLab系列理解
  17. 《数据挖掘导论》 - 读书笔记(3) - 数据 [2016-8-13]
  18. Halcon 深度学习自定义网络模型-ResNet通用网络产生器
  19. Html 分页自动控制、分页自动生成、分页数量可控制
  20. windows7/10中Excel以单独进程窗口打开设置方法?

热门文章

  1. C#获取指定controlName的控件;遍历控件,反射控件类型等
  2. android自定义实例化,android:如何使用attributeset构造函数实例化我的自定义视图...
  3. math question
  4. php 图片在线编辑功能,15个强大的在线图片编辑网站
  5. 类似于支付宝账单数据的json时间戳排序和并问题
  6. openlayers 加载geoserver管线并报警闪烁
  7. 超微主板BIOS常见报错代码
  8. 欢聚时代算法工程师校招面经
  9. Python抓取电商平台数据 / 采集商品评论 / 可视化展示 词云图...
  10. 最新链接分享给微信好友和微信朋友圈带图标和摘要的方法