3 给定质量约束下的交互式算法

为了生成一个有效的交互式方案,我们提出了自己的算法,其中的关键问题是在众包修复过程中如何选择被众包修复的值。

首先,我们倾向于选择引起数据冲突最多的值进行众包修复,这样就会有更多的值在下一步的基于规则的修复过程中可以被推导。为了找出引起数据间冲突最多的值,先评估每个值的不和谐度disharmonious degree(简称为dScore),表示这个值和数据集中其他所有值之间的不和谐度。将在3.1节中介绍如何计算每个值的dScore。

虽然是在一个动态情况下安排冲突的修复顺序,仍可以根据冲突之间的依赖关系,决定修复哪些值。在这一过程中,面临的挑战就是如何解决冲突间的依赖循环问题,我们将在3.2节中讨论这个问题。

3.1 dScore: 衡量值的不和谐度

一个值的不和谐度可以粗略地由它所引起的冲突的个数来表示。首先用一个简单的例子介绍一下如何计算每个值的dScore。首先,假设除了某个位置上的值,整个数据集都是一致的,即数据集上的其他所有值都是和谐的。然后,当该位置上的值出现后,可能会引起两种冲突:①该值本身和一些值发生了冲突;②该值使得某个冲突里的其他值发生了冲突。通常一个值带来的冲突越多,这个值越有可能是一个错误的值。换句话说,在这种简单的假设下,一个值的dScore就是它所引起的冲突的个数。

现在开始考虑实际情况,即数据集中已经存在错误的值和冲突。当一个新值出现时,不管它是否错误,都会带来一些改变,如产生新的冲突或者加剧已有的冲突。在这种情况下,一个值的dScore由以下两部分组成:


3.2 使用冲突之间的依赖关系

在安排冲突的修复顺序时,我们会考虑冲突间的依赖关系。首先要获得所有冲突之间的依赖关系,然后根据这些关系建立一个冲突依赖关系图。




正如之前介绍的,一个冲突只有在它所依赖的所有冲突都被解决之后,这个冲突才可以被解决。但是对于那些在同一个节点里面相互重叠的冲突,需要考虑冲突里的值被检测的优先顺序。同样,我们根据这些值的dScore来确定检测的顺序。一个值的dScore越高,这个值越先被检测。每次当有一个值被修改了,整个关系图就需要随之更新。

3.3 解决依赖环





3.4 考虑依赖关系的交互式算法

交互式算法如算法1所示。首先要为数据集建立一个冲突依赖关系图。不考虑其他因素,只选择每个节点中dScore最高的值进行众包修复,直至节点中的所有冲突都被解决。当没有这样的节点只有环时,计算这些环中所有节点的gbScore,选择gbScore最高的节点进行处理从而分裂环。每次只要有一个值被修改,关系图、所有节点的bScore和gbScore都需要及时更新。当整个依赖关系图中没有一个节点时,算法就会结束。算法1的时间复杂度是O(mlogm+n),m是依赖关系图中所有环中的节点个数,n指图中不在环内的节点个数。





中国人工智能学会通讯——一种基于众包的交互式数据修复方法 3 给定质量约束下的交互式算法...相关推荐

  1. 《中国人工智能学会通讯》——12.33 众包知识库补全方法概览

    12.33 众包知识库补全方法概览 本章介绍众包知识库补全的方法概览,如图 1所示.其基本思想包含两个部分,其一,利用多种数据源,如现有的多个知识库.Web 结构化数据等,提取知识数据,并将不同数据源 ...

  2. 中国人工智能学会通讯——基于视频的行为识别技术 1.7 视频的深度分段网络...

    1.7 视频的深度分段网络 下面介绍另外一个工作,是我们和 CUHK.ETH 联合开展的,这个工作考 虑视频的分段特性,我们知道视频可以分 成很多段,每一段有不同的内容.我们 开发了一个深度模型,对不 ...

  3. 中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )...

    到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它 ...

  4. 中国人工智能学会通讯——智能系统测评:挑战和机遇

    上面的四个报告从四个维度讨论了智能系统测评的不同方面--产业.基础.基础和伦理.我受中国人工智能学会的委托,组织这次分论坛,为此对这个领域做了一些调研和思考,从现状和挑战这两个方面做了一些初步总结. ...

  5. 中国人工智能学会通讯——深蓝、沃森与AlphaGo

    在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深 ...

  6. 《中国人工智能学会通讯》——12.15 时空众包 : 共享经济时代的新型计算范式...

    12.15 时空众包 : 共享经济时代的新型计算范式 自 Jeff Howe 于 2006 年 首 次 提 出 众 包(Crowdsourcing) 概念[1]以来,这种通过公开的 Web平台,将任务 ...

  7. 《中国人工智能学会通讯》——9.21 基于任务规划的资源卫星智能管控模式

    9.21 基于任务规划的资源卫星智能管控模式 我国目前已建成包括高分.遥感.环境减灾.测绘和试验等多系列资源卫星系统,在轨运行的卫星 20 多颗.随着成像卫星的发展,成像卫星任务规划问题也逐渐引起重视 ...

  8. 中国人工智能学会通讯——基于图像认知的心理测评方法及系统

    摘要:长久以来心理障碍的诊断和评估通常都是建立在晤谈.观察.量表测验的基础上,交互繁琐困难,主观性比较大,使得人的心理特征难以快速获取和量化.本研究创新性地将心理学和信息科学结合在一起,建立了情绪图像 ...

  9. 《中国人工智能学会通讯》——11.51 基于幻象技术的异质人脸图像合成

    11.51 基于幻象技术的异质人脸图像合成 基于稀疏特征选择的方法,以及现有的大部分算法在合成人脸图像时,多是采用线性组合的方式.线性组合,即线性加权平均,可以看作一低通滤波器,会过滤掉一些高频细节信 ...

  10. 《中国人工智能学会通讯》——8.25 基于演化优化的生物网络配准

    8.25 基于演化优化的生物网络配准 生物网络配准是为了找到不同种群之间不同蛋白质网络的相似子图.生物网络配准可以帮助我们预测蛋白质功能.网络配准主要分为局部网络配准和全局网络配准两种.局部网络配准是 ...

最新文章

  1. Tomcat的安装和环境变量配置
  2. 无法监控端口_zabbix 监控远程主机端口
  3. 逆向工程核心原理读书笔记-代码注入
  4. ORA-30649: 缺少DIRECTORY关键字的问题解决方法
  5. 表情包+外卖+壁纸小程序源码
  6. css之input时间控件精确到时分秒
  7. Atitit.跨语言系统服务管理器api兼容设计
  8. Beautiful Soup 4.2.0 文档
  9. itunes安装失败 “apple应用程序支持安装失败”
  10. C语言之一个有趣的关机程序
  11. 【软考系统架构设计师】2015年下系统架构师综合知识历年真题
  12. Revit二次开发资料汇总
  13. 查看苹果审核反馈的crash日志/崩溃日志
  14. shell中的let命令
  15. 使用poi来导入具有合并单元格的excel表格
  16. Launcher 快捷方式、文件夹等的默认设置
  17. 自我介绍 的html页面,html初学者自我介绍网页
  18. Unity【01 AssetBundle】【02 Lua】
  19. 如何修改粘滞键启动的程序
  20. 博聊论坛:每日会员免费体育竞猜有奖活动(7月20日第八十四期)

热门文章

  1. CART分类树算法的最优特征选择
  2. pandaboard 安装_pandaboard ES学习之旅——3 Uboot源码下载与编译
  3. 电脑已安装软件提取安装包_SPSS 24,软件安装包及安装教程
  4. netty nio处理
  5. 概率图模型(PGM)学习笔记(四)-贝叶斯网络-伯努利贝叶斯-多项式贝叶斯
  6. 【UFBA Practice Session for Brazilian ICPC Regionals - 2018】Carnival【强连通图求“关键边”】
  7. 多面集的表示定理 (Representation / Resolution / Caratheodory theorem of polyhedral Sets)
  8. CONTINUAL LEARNING FOR AUTOMATED AUDIO CAPTIONING USING THE LEARNING WITHOUT FORGETTING APPROACH
  9. 437.路径总和III (力扣leetcode) 博主可答疑该问题
  10. 680.验证回文字符串(力扣leetcode) 博主可答疑该问题