读书笔记:大数据清洗技术 03
读书笔记:大数据清洗技术
作者:哈尔滨工业大学博导王宏志
第三章 实体识别
本节我们将着重讲一下实体识别算法中的串行实体识别。
1. 实体识别概述
同一对象的不同表示通常是由于信息来自不同的数据源。当人们从不同的数据源集成信息时,在数据的存储过程以及传递过程中均会产生无法避免的错误。因此,为了有效地管理数据,提高数据质量,需要在数据中准确识别出同一对象的不同表示,例如一词多义,即实体识别。
实体识别是对数据进行质量管理的重要步骤,目的是在数据库中识别描述同一个对象的不同表示方法,或者不同对象的相同表示方法,从而正确地识别出数据库中集成自不同数据源的相同实体。实体识别的结果可以在数据质量管理的各个阶段得到广泛的应用,如真值发现、不一致数据发现、去除冗余数据等。如果我们去知网上搜索作者王宏志,结果出现很多篇文章,我们会发现有些文章是他本人写的,有些就只是与其同名的人写的,所以相同的实体可能出现截然不同的表现形式,出现往往伴随着大量干扰信息。
当前针对海量数据的实体识别技术面临很多困难,主要有如何设计有效关联实体的表达形式,如何降低海量数据中实体之间相似度的计算量,如何快速有效地在海量数据中对实体进行有效识别以及如何设计评估识别结果地衡量标准。本书从数据管理地角度出发,研究数据质量管理中实体识别的理论和关键技术,提出了新的实体识别框架,获得具有质量保证的识别结果。
2. 串行实体识别算法
问题:
A和B代表同一个实体,B和C代表同一个实体,但A和C却被判定不代表同一个实体。(实体识别时通常是判别实体对,计算两个实体间的相似度,所以出现计算量大,要对所有数据进行两两匹配。)——相似性关系缺乏传递性。
解决:
- 通过相似性函数确定相似性关系。——给出阈值ε,sim(A,B)≥ε, sim(B,C)≥ε, 但不能得出sim(A,C)≥ε
- 通过聚类进行分组实体识别。——没有有效性度量作为优化目标,优化问题结果质量很难评估,效率取决于相似性计算的效率。
本书提出了一种新的聚类方法——Gcluster聚类方法。利用相应子图的内聚来度量一个簇的质量,使每个内聚子图(顶点是实体,边表示实体间的相似度权重)满足内聚度量(边的权重之和,本质与机器学习里聚类组内相似度最大化差不多)方法衡量有效性。
串行过程体现在将所有数据仍然看做一个整体,一起进行聚类计算。具体步骤如下:
Gcluester聚类算法总的来说可以分为三个步骤:
第一步:剪枝,根据相似度阈值,超过阈值则保留该边,认为有相似的可能。
第二步:满足两两匹配的原则下选出权重最大的边。有更大权重的边意味着对应两个部分中的对象更相似。
第三步:将第二步选出的实体对合为一体,与其他簇进行权重比较,直到没有满足的边出现。在每次迭代中,中间簇的最大匹配被生成。
下面用实例对Gcluster聚类方法进行分析。
原始数据:
取阈值为0.25,进行剪枝,边权重小于0.25的不予展示。表中原始数据间关系如(a)所示,选择权重最大的边连接3和4的0.5合为一体(发现图中3和4,3和10,4和10间都是最大权重0.5,无论先选择哪一条边最后都可以得出一样的结果。)最大权重匹配如(b)所示,经一次迭代后得最大权重匹配如(c)所示(到这一步后权重为簇之间的权重之和,例如3和4的簇与10之间的权重即为0.5+0.5=1),经多次迭代后最大匹配图如图(e),实体识别得结果为{{1,2},{3,4,5,9,10},{6},{7},{8}}。
读书笔记:大数据清洗技术 03相关推荐
- 读书笔记:大数据清洗技术 02
读书笔记:大数据清洗技术 作者:哈尔滨工业大学博导王宏志 第二章 大数据处理技术概述 上一章我们主要从大数据的定义及特征,大数据的质量问题,大数据清洗技术的进展和本书的技术创新点四个方面对这本书有了初 ...
- 英语读书笔记-Book Lovers Day 03
英语读书笔记-Book Lovers Day 03 Part 1 Maybe you can take a page out of your exes' books and have a whirlw ...
- 《淘宝技术这十年》读书笔记 (三). 创造技术TFS和Tair
前面两篇文章介绍了淘宝的发展历程和Java时代的变迁: <淘宝技术这十年>读书笔记 (一).淘宝网技术简介及来源 <淘宝技术这十年&g ...
- 《李元芳履职记》读书笔记二 IT技术管理的沟通与团队建设
<李元芳履职记>读书笔记二 接一 https://blog.csdn.net/qq_45937199/article/details/103305223 IT技术人员从技术岗走向管理岗,所 ...
- 读书笔记-大型网站技术架构(核心原理与案例分析)
一.大型网站架构演化 1.1 大型网站软件系统的特点 高并发.大流量:高可用:海量数据:用户分布广泛,网络情况复杂:安全环境恶劣:需求快速变更,发布频繁:渐进式发展: 1.2 大型网站架构演化发展历程 ...
- 读书笔记之MySQL技术内幕
前言 本文内容基本摘抄自<MySQL技术内幕 InnoDB存储引擎>,以供复习之用,没有多少参考价值.想要更详细了解请参考原书. 第一章.MySQL体系结构和存储引擎 数据库是物理操作系统 ...
- 《京东技术解密》读书笔记:坚持技术十年如一日
内容目录: 1.京东技术升级路线 2.京东创新的应用 3.京东那些技术牛人 一直在京东上面shopping,喜欢京东的物流,也有一些同学在京东研发体系上班了,早就听说有了这么一本书,却一直没有阅读.最 ...
- 读书笔记-大型网站技术架构
1. 大型网站架构演化 1.1 大型网站软件系统的特点 大型互联网应用系统的特点 -高并发,大流量 -高可用 -海量数据 -用户分布广泛,网络情况复杂 -完全环境恶劣 -需求快速变更,发布频繁 -渐进 ...
- 读书笔记-大颠狂(非同寻常的大众幻想与群众性癫狂)
本书内容概要 <财富>杂志鼎力推荐的75本商务必读书之一,<金融时报>评选的史上最佳10部金融作品之一.本书在金融史上的地位不言自喻,在世界各地流传了近200年依然畅销不衰.它 ...
最新文章
- HTML5区域范围文本框实例页面
- Python(字符串,列表,元组,字典)
- STM32F4 HAL库开发 -- 独立看门狗(IWDG)
- UICollectionView的sectionHeader悬浮效果
- Docker搭建NSQ实时分布式消息集群
- 5年后你最想要什么?
- opengl与Directx的区别
- MySQL 事务 | ACID、四种隔离级别、并发带来的隔离问题、事务的使用与实现
- Python3bytes转16进制字符(例如:b111111转\x8c\x8c\x8c\x8c\x8c\x8c)
- web servieces 学习小栗子
- 东北大学文科能学计算机专业吗,东北大学有哪些好专业,文科理科专业分别有哪些...
- 老司机 iOS 周报 #37 | 2018-09-24
- 扩散模型 (Diffusion Model) 简要介绍与源码分析
- 畅捷通(chanjet)T3各版本
- 单片机c语言出租车计时程序,基于单片机的出租车计费(c语言
- Python爬虫之链家二手房数据爬取
- 深入浅出 Docker
- 今年很火的 AI 绘画怎么玩
- 操作系统:磁盘结构和磁盘块号计算方法
- C初阶必写的C语言小游戏—扫雷,一看就会,看完就能写