Crowdsourcing-based Data Extraction from Visualization Charts

作者

Chengliang Chai† Guoliang Li† Ju Fan‡ Yuyu Luo† †Tsinghua University, China ‡Renmin University of China { chaicl15@mails., liguoliang@, luoyy18@mails.}tsinghua.edu.cn, fanj@ruc.edu.cn

摘要

可视化图表被广泛用于呈现结构化数据。在许多情况下，人们希望通过对各种来源的图表(如论文和网站)中的数据进行探索，以便进一步分析数据或创建新的图表。然而，由于图表的多样性，现有的自动和半自动方法并不总是有效的。在本文中，我们介绍了一种利用人类能力从可视化图表中提取数据的众包方法。有几个挑战。第一个问题是如何避免繁琐的图表交互和设计简单的众包任务。第二，评估工人的真值推断质量是一个挑战，因为工人不仅可能提供不准确的值，而且可能与错误的数据序列不一致。为了应对这些挑战，我们设计了一个有效的众包任务方案，将图表分解为简单的微任务。考虑到员工的准确性和任务难度，提出了一种新的员工素质模型。我们还设计了一个有效的早期停止机制来节省成本。我们在一个真正的众包平台上进行了实验，结果表明我们的框架在成本和质量上都优于最先进的方法。

1 介绍

图表是可视化结构化数据必不可少的工具，因为它们具有感知优势[13]。它们不仅可以帮助人们了解数据的许多方面，例如分布和变化趋势，而且还可以为来自不同来源的数据提供直观的比较。图1所示的示例折线图用于显示2015年至2018年DB会议上三次领先的众包论文的数量。很多时候，像数据分析师一样，人们希望从图表中提取底层数据，以便进一步分析数据、更新图表或通过整合来自不同来源的数据来创建新的图表。

图1：图表提取示例

事实上，近年来，从图表中提取数据的话题引起了研究界的极大兴趣。已经开发了一些自动或半自动图标数据提取工具[7]，[9]。像[7]这样的自动工具应用计算机视觉和机器学习模型，首先识别图表中的文本，然后推断出潜在的数据点。然而，这些方法的性能远远不能令人满意：文本识别和数据点提取的准确率通常在60%和70%左右[9]。然而，为了支持有效的数据分析，用户通常要求更高的数据提取精度。

众包是利用人类智能解决机器难题的有效方法[8]、[2]、[3]、[4]、[10]、[6]、[15]。为了解决上述局限性，我们提出了一个众包图表数据提取框架CrowdChart，它利用Amazon Mechanical Turk(AMT)[1]等众包平台上的大量人群，以相对较低的成本从图表中提取数据。我们研究了框架中自然地出现以下研究挑战。

第一个挑战是如何设计众包任务。一个简单的方法是众包整个图表，并要求工作人员提交一个关系表。显然，对于那些通常擅长“微”任务的工人来说，这样的任务实在是太难了(见调查[11])。为了解决这个问题，我们设计了一个有效的众包任务方案，将一个图表分成一批微任务，每个微任务都提取出图表的特定部分。然后，我们可以通过聚合任务的人群答案来恢复关系表。

第二个挑战是众包图表数据提取的质量控制。虽然有一些关于众包数字数据的工作[14]、[17]，但我们的情况更为复杂。一个工人的质量很难评估，因为它不仅取决于工人的谨慎程度，而且还受到图表的视觉特征的影响，例如图表类型、对数比例的y轴等。更糟糕的是，偏差是一种常见的错误，即使是对细心的工人，也会显著影响质量。例如，在提取数据时，答案可能与其图例键不一致。例如，在图1的折线图中，一名工人准确地提取了2017年的三个数据点[5,3,4]，但他可能会将4对齐VLDB，3对齐ICDE，从而导致对齐错误。为了应对这一挑战，我们提出了一个数值数据的真值推断模型。我们引入一个高斯模型来评估工人的质量，考虑工人的可靠性和任务难度。然后，我们开发出有效的技术来精确估计工人和推断真值。

第三个挑战是如何降低众包成本。为此，我们不断地评估任务的质量，并引入一种早期停止策略来终止已经具有令人满意的推断结果的任务。

总之，我们做了以下贡献。我们提出了一个新的框架，系统地利用人群从图表中提取数据。我们设计了一个真值推断模型来提高质量和早期停止技术以降低成本。我们在AMT的实际数据集上评估了我们的方法。实验结果证明了该方法的优越性。

2 问题模拟

图表模型. 给定一个图表C，用C可视化的数据由以下两个元素组成：

一系列图例键，
一组元组，其中每个元组表示水平轴第i个标签中的数据点。注意，每个元组中数据点的顺序必须与中键的顺序相同。图1显示了一个图表数据示例，其中三个键K=[SIGMOD,VLDB,ICDE]和四个元组到。例如，元组分别包含2015年SIGMOD、VLDB和ICDE对应的数据点。注意，饼图是一种特殊情况，只有一个元组包含各种键的比率或数量。

众包任务设计. 我们利用人群智能从图表中提取数据。我们提出了一种细粒度的方法，将图表分割为一批微任务，以减少延迟并提高质量。具体来说，我们设计了四种类型的众包任务，可以分为两组，即预处理任务和元组提取任务，如图2所示。

图2：图表数据提取的众包任务设计

由于图表数据提取的质量可能取决于图表的视觉特征，因此在提取数据之前，我们定义了以下三种类型的预处理任务。

图表分类任务：直观地看，不同类型的图表对数据提取的难度程度不同，这促使我们首先向人群要求图表分类。给定图表C，图表分类任务是一个选择题。目前，我们支持四种选择，条形图、折线图、饼图和堆积条形图，并让人群选择C所属的一种。图2(a)所示为图表分类任务的示例，其中众包工人将选择折线图。
Y轴分类任务：影响难度的另一个因素是Y轴是否为对数刻度。因此，我们还利用人群将此问题标识为预处理步骤之一。给出一个图表C，y轴分类任务对人群来说是一个二元问题(是/不是)。示例任务如图2(b)所示，其中众包工人将为问题选择“否”。
图例识别任务：图例也很难被机器识别，因为它有不同的模式，并且可能在图表中任意定位。给定图表C，该任务是一个填空问题，要求人群收集一系列图例键，即K。图2(c)说明了图例识别任务的示例，其中三个键SIGMOD、VLDB和ICDE将被收集。
元组提取任务。图表数据提取的中心任务是识别元组。给定一个图表C，一系列图例键，和水平轴上的标签，元组提取任务是一个填空问题，收集第个元组。图2(d)显示元组提取任务，其目的是分别收集对应于SIGMOD、VLDB和ICDE的值。因此，图2(d)中的图可以被划分为N＝4个元组提取任务。注意，收集的元组中序列的顺序与预先收集的图例键的顺序一致。

元组抽取的任务是相当具有挑战性的，因为工作人员更容易出错，提供嘈杂的答案。因此，我们研究一个真值推断问题，定义如下。

*定义2.1(真值推断)：*对于每个点，给定工人的答案集合，真值推断问题是计算真值的一个良好估计值。

3 CrowdChart框架

我们为元组提取任务引入了一个称为CrowdChart的框架。一旦众包工人提交了元组抽取任务的答案，CrowdChart首先根据其他人提交的工人质量答案对这些答案进行比对(第3-A节)。然后考虑到工人的素质和任务难度，利用EM算法(第3-B、3-C和3-D节)推断真值。然后，真值推断模型的输出是一个估计的真值分布，从中我们可以使用一个早期停止模块来计算估计真值的置信度。如果它已经具有很高的置信度，我们就不需要分配更多的任务来节省成本并返回最终推断的答案(第3-E节)。

A 工人的回答与素质建模

与多选题不同，数据抽取任务的答案是数值。对于一个数字任务，它的质量取决于它与实际情况的接近程度。形式上，我们使用来表示工人w在任务中的数据点的答案序列。我们使用高斯分布对工人w给出的每个答案进行建模。该分布将基本真实值作为其平均值，并使用方差来建模工人质量，即：

式中为方差，为标准差。一般来说，如果w有一个好的质量，那么方差将很小，因为答案很可能接近基本真值。基于此，我们使用来表示w的质量，因此我们得到了。我们用来表示比率。当接近1时，表示工人质量高，标准差较小，因为接近0。例如，给定，假设一个的工人请求回答它。然后我们可以推断$p(80

B 数据点的难度

工人回答的质量也取决于任务的难度。令人惊讶的是，一些复杂的图表，如折线图和堆积条形图，即使是对人类来说也是一个挑战。此外，沿对数刻度Y轴的值对于某些工人来说总是难以识别。

在形式上，我们建立了图表C任务的难度模型，考虑了特征、和，分别表示图表分类、Y轴刻度和图例数。是一个长度为4的单热点向量，其中我们考虑条形图、折线图、饼图和堆积条形图。例如，表示它是折线图。具体来说，为1或0，表示Y轴是否为对数刻度，，然后使用来计算任务的难度，其中表示不同特征的权重。显然，任务越艰巨，真值与工人回答的差距就越大。因此，我们将答案质量改写为，其中参数旨在模拟任务难度对工人w答案的影响程度。

C 答案对齐

在从图表中提取数据时，不可避免地会发生不一致，因为在许多情况下，图表中数据点的可视序列与文本区域中这些图例的序列不匹配。这一现象不容忽视，它既影响工人质量，也影响推断真值。例如，如果不一致的答案被直接用于计算真值，我们将得到一个具有高偏差的真值，这将导致回答该任务的工人被估计为低质量工人。为此，我们提出了一个基于概率的解决方案来调整答案。

我们的目标是根据得到的答案推断任务中数据点的真实性，即。w对于提供的任务给出答案，我们可以生成一组数量的可能序列。每个序列和表示序列中的第j个答案。比对问题是找到最有可能匹配的序列。换句话说，给定真值和工人方差，我们要计算每个可能序列的概率。然而，由于我们不知道真值情况，我们使用当前估计真值来计算概率，。由于图表中的图例数量很少(大多数情况下少于5个)，所以枚举并不昂贵，排序并选择概率最大的一个。因此，我们选择概率最大的序列为。

D 推断算法

我们使用最大似然法，根据目前获得的答案推断真值和工人质量估计。给定一组参数，推断的目标是使工人回答的可能性最大化，

其中是所有数据点的真值，它被视为隐藏变量，是所有数据点的答案。为了解决这个问题，我们使用期望最大化(EM)算法[5]，该算法迭代计算真值分布和参数。

E 置信度—感知提前停止

对于一些已经有足够数量的工人或少数高质量工人回答的任务，他们已经得到了高置信度的答案，因此不再需要众包。这激励我们设计置信度感知提前停止，以节省成本。

给出通过真值推断算法得到的数据点的真值分布，如果以为答案，则可以计算置信度。我们对估计的真值采用(1-)置信区间，其中1-，也称为置信水平，通常接近1，例如90%、95%。如果任务满足以下要求我们会相信答案停下来提问，

其中给出了的置信区间，即，，其中控制区间的宽度，并且总是很小，如。

5 实验

实验设置. 我们使用两个真实的数据集来评估我们的方法，其细节总结在表1中。

论文：我们从几篇研究论文中提取了75个图表。基本事实是用来绘制这些图表的数据。
网络：我们从网上抓取180张图表。具体来说，为了便于收集真值，我们从网站上抓取图表的元数据。

此外，我们在CrowdOTA[16]的基础上实现了CrowdChart，这是一个基于AMT的在线任务分配框架。对于预处理任务，我们将这三种任务包含在单个人类智能任务(Human Intelligence Task，HIT)中，并为HIT支付0.1美元。对于元组提取任务，使用HIT来提取一个元组，如图2(d)，其成本为0.05m美元，其中m是中的值的数目。在评估过程中，我们主要是将CrowdChart的成本和质量与其他基线进行比较。

成本。我们利用货币成本来评估不同方法的成本。请注意，对于不同的方法，用于预处理任务的成本是相同的，因此我们不报告这一部分。
质量。对于质量，我们使用平均标准化绝对距离(MNAD，Mean Normalized Absolute Distance)[12]来测量从每个方法结果到真值的总绝对距离，这表明结果与真值的接近程度。

表1：数据集

	图	#数据点	#折线图	#柱状图	#饼图
论文	75	890	40	35	0
网页	180	2550	110	50	20

真值推断评估. 我们评估了CrowdChart中的真值推断，并与以下最先进的方法进行了比较，重点是数值数据。

平均值(Average，AV)：平均值是一个简单而直观的方法来处理连续的答案。给定多个工人对一个数据点的多个答案，它将平均值计算为真实值。
GTM[17]：GTM是一个针对数值数据的真值发现框架，它考虑了源的可靠性(工人的质量)，并利用EM算法来推断真相。
T-Crowd[14]：T-Crowd是表格数据的众包框架，包括分类数据和数字数据。在我们的场景中，我们没有分类数据，所以我们只与它为连续数据设计的技术进行比较。我们分别用AV、GTM和T-Crowd比较了CrowdChart。我们设置，并在0.85到0.95之间改变置信水平来测试性能。

图3显示了众包成本和质量的评估。从图3(a)和(b)可以看出，CrowdChart在纸面数据集上达到相同的置信水平时，与其他最先进的成果相比，CrowdChart节省了两倍以上的成本。例如，当置信水平为0.9时，CrowdChart的成本为101美元，而AV、GTM和T-Crowd分别使用320美元、235美元和234美元。这是因为CrowdChart会将答案对齐，从而缩小推断答案的方差，提高工人的质量估计。因此，CrowdChart可以用更少的任务数达到置信要求。此外，我们可以看到，随着置信水平的提高，成本也在增长。这是合理的，因为我们应该要求更多以保持更高的置信水平。

图3：真值推断的评估：成本与质量

图3(c)和(d)显示了质量结果。当置信水平为0.9时，从图3(c)可以看出，在论文数据集上，CrowdChart的质量最好，MNAD为0.74，与第二小的MNAD(1.1)相比，提高了30%。CrowdChart的表现也远远超过AV和GTM。例如，当置信水平为0.95时，CrowdChart的MNAD为0.58，AV和GTM分别为1.23和1.03。AV的质量最差，因为它没有考虑工人的质量和任务的难度。GTM的性能比AV好，因为它考虑到任务的难度。CrowdChart的显著改进归功于真值推断技术，如答案对齐和工人模型。

在这篇论文中，我们提出一个众包架构来从图表中抽取结构化资料。我们使用精心设计的任务与人群互动。我们设计了一个真值推断模型来获得准确的答案和早期停止技术以降低成本。在实际数据集上对该框架进行了评估，结果表明了该框架的优越性。

致谢

This work was supported by the 973 Program of China (2015CB358700), NSFC (61632016, 61602488, U1711261, 61472198, 61521002, 61661166012, 61502503), the Research Funds of RUC (18XNLG18).

参考文献

[1] https://www.mturk.com/.

[2] C. Chai, J. Fan, G. Li, J. Wang, and Y. Zheng. Crowdsourcing database systems: Overview and challenges. In ICDE 2019.

[3] C. Chai, J. Fan, G. Li, J. Wang, and Y. Zheng. Crowd-powered data mining. CoRR, abs/1806.04968, 2018.

[4] C. Chai, G. Li, J. Li, D. Deng, and J. Feng. Cost-effective crowdsourced entity resolution: A partial-order approach. In SIGMOD, 2016.

[5] A. P. Dempster and L. et.al. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society, 1977.

[6] C. C. et.al. A partial-order-based framework for cost-effective crowdsourced entity resolution. VLDB J., 2018.

[7] M. S. et.al. Revision: automated classification, analysis and redesign of chart images. In UIST, 2011.

[8] J. Fan, G. Li, B. C. Ooi, K. Tan, and J. Feng. icrowd: An adaptive crowdsourcing framework. In SIGMOD, 2015.

[9] D. Jung, W. Kim, H. Song, J. Hwang, B. Lee, B. H. Kim, and J. Seo. Chartsense: Interactive data extraction from chart images. In CHI, 2017.

[10] G. Li and C. C. et.al. CDB: optimizing queries with crowd-based selections and joins. In SIGMOD, 2017.

[11] G. Li, J. Wang, Y. Zheng, and M. J. Franklin. Crowdsourced data management: A survey. TKDE, 2016.

[12] Q. Li, Y. Li, J. Gao, B. Zhao, W. Fan, and J. Han. Resolving conflicts in heterogeneous data by truth discovery and source reliability estimation. In SIGMOD 2014.

[13] Y. Liu, X. Lu, Y. Qin, Z. Tang, and J. Xu. Review of chart recognition in document images. In Visualization and Data Analysis 2013.

[14] C. Shan, N. Mamoulis, G. Li, R. Cheng, Z. Huang, and Y. Zheng. Tcrowd: Effective crowdsourcing for tabular data. In ICDE 2018.

[15] J. Yang, J. Fan, Z. Wei, G. Li, T. Liu, and X. Du. Cost-effective data annotation using game-based crowdsourcing. PVLDB, 12(1):57– 70, 2018.

[16] X. Yu, G. Li, Y. Zheng, Y. Huang, S. Zhang, and F. Chen. Crowdota: An online task assignment system in crowdsourcing. In ICDE 2018.

[17] B. Zhao and J. Han. A probabilistic model for estimating real-valued truth from conflicting sources. Proc. of QDB, 2012.

提取数据_基于众包的可视化图表数据提取相关推荐

基于众包的可视化图表数据提取
Crowdsourcing-based Data Extraction from Visualization Charts 作者摘要 1 介绍 2 问题模拟 3 CrowdChart框架 A 工人的 ...
supersocke接收不到数据_基于SuperSocket的北斗终端数据接收服务的设计与实现
基于 SuperSocket 的北斗终端数据接收服务的设计与实现刘朴 , 莫家勤 * [摘要] 北斗是我国自主研发的卫星导航定位系统 , 已经被广泛使用于各个领域 , 城市交通管理的核心是车辆监 ...
python爬取网站大数据_基于腾讯位置大数据平台的全球移动定位数据获取（Python爬取）...
对于腾讯位置大数据平台,有一些商业接口可以调用看起来还是挺爽的,但是现阶段只接受商业合作客户来调用,我们个人是获取不到的. 那就没办法了吗?当然不是,实际上腾讯位置大数据把调用接口就直接写在了前端, ...
Py之pyecharts：基于大数据对人工智能进行各种可视化图表分析
pyecharts:基于大数据对人工智能进行各种可视化图表分析目录 1. Bar(柱状图/条形图) 2 EffectScatter(带有涟漪特效动画的散点图) 3 .Funnel(漏斗图) 4.Ga ...
R语言使用gt包和gtExtras包优雅地、漂亮地显示表格数据：使用gt包可视化表格数据，使其易于阅读和理解、使用gtExtras包添加一个图，显示表中某一列中的数字
R语言使用gt包和gtExtras包优雅地.漂亮地显示表格数据:使用gt包可视化表格数据,使其易于阅读和理解.使用gtExtras包添加一个图,显示表中某一列中的数字目录
R语言使用gt包和gtExtras包优雅地、漂亮地显示表格数据：使用gt包可视化表格数据，使其易于阅读和理解、使用gtExtras包添加一个图，显示表中某一列中的数字、并为类型数据添加图像符号标签
R语言使用gt包和gtExtras包优雅地.漂亮地显示表格数据:使用gt包可视化表格数据,使其易于阅读和理解.使用gtExtras包添加一个图,显示表中某一列中的数字.并为类型数据添加图像符号标签目 ...
Java_Hive自定义函数_UDF函数清洗数据_清洗出全国的省份数据
Java_Hive_UDF函数清洗数据_清洗出全国的省份数据最近用Hadoop搞数据清洗,需要根据原始的地区数据清洗出对应的省份数据,当然我这里主要清洗的是内陆地区的数据,原始数据中不包含港澳台地区 ...
python可视化图表工具_酷炫的可视化图表工具来帮忙深度评测五大Python数据可视化工具...
原标题:酷炫的可视化图表工具来帮忙深度评测五大Python数据可视化工具不少Python用户的一大诉求是做出各种酷炫的可视化图表,而这就需要了解清楚工具特色,才好在制作不同类型图表顺利找到适合自己 ...
mongodb数据可视化_使用MongoDB实时可视化开放数据
mongodb数据可视化 Using Python to connect to Taiwan Government PM2.5 open data API, and schedule to updat ...

提取数据_基于众包的可视化图表数据提取

摘要