Image-based table recognition: data, model, and evaluation（纯翻译版本-下一篇将总结概括该文章）

一、PubTabNet是IBM公司公布的基于图像的表格识别数据集。
其包含了568k+表格图片，其标注数据是HTML的表格结构，下载压缩包磁盘存储大小10G+。
GitHub相关地址
IBM的下载地址
相关论文：
Image-based table recognition: data, model, and evaluation

摘要-文档中与特定主题相关的重要信息通常以表格形式组织，以帮助读者进行信息检索和比较，这可能很难用自然语言提供。然而，非结构化数字文档中的表格数据，例如。可移植文档格式(PDF)和图像，由于其结构和样式的复杂性和多样性，很难解析为结构化的机器可读格式。为了便于基于图像的深度学习表识别，我们开发并发布了最大的公开表识别数据集PubTabNet1，包含568k张表图像，并具有相应的结构化HTML表示。PubTabNet是通过匹配PubMed Central TMOpen Access Subset (PMCOA)中科学文章的XML和PDF表示自动生成的。我们还提出了一种新颖的基于注意力的编码器-双解码器(EDD)架构，可以将表的图像转换为HTML代码。该模型具有一个结构解码器，该解码器重构表格结构，并帮助单元解码器识别单元内容。此外，我们提出了一种新的基于树编辑距离的相似度(TEDS)指标用于表格识别，该指标比预先建立的指标更适合捕捉多跳单元的不对齐和OCR错误。实验表明，EDD模型仅依靠图像表征就能准确识别复杂表格，其绝对TEDS分数比目前最先进的模型高出9.7%。

表格格式的信息在各种文档中都很普遍。与自然语言相比，表提供了一种以更紧凑和结构化的格式汇总大量数据的方法。表格也提供了一种格式来帮助读者查找和比较信息。表格信息的相关性的一个例子在生物医学领域的管理基因数据库中只有2%到8%之间的信息相比,本文的叙述部分可用的信息表或文件表格格式[1]。

文档中的表通常是为人类理解而格式化的，人类通常擅长解析表结构、标识表头和解释表单元格之间的关系。然而，对于机器来说，理解非结构化格式(例如PDF、图像)的表格数据是一项挑战，因为它们的布局和样式有很大的可变性。理解表格的关键步骤是表示机器可读格式的非结构化表，其中表的结构和每个单元内的内容根据预定义的标准进行编码。这通常被称为[2]不稳定识别。

本文在基于图像的表格识别中解决了以下三个问题，即单从图像输入重构表格的结构化表示:

DataWe提供了一个大型数据集PubTabNet，它包含了从PMCOA中包含的科学文章(PDF格式)中提取的568k多幅异构表的图像。通过将pdf的元数据与相关的结构化表示(由pmcoa2 XML格式提供)相匹配，我们自动为每个表图像加上关于表的结构和每个单元格内的文本(以HTML格式)的信息。
我们开发了一种新的基于注意力的编码器-双解码器(EDD)体系结构(见图1)，它由编码器、结构解码器和单元解码器组成。编码器捕捉输入表图像的视觉特征。结构解码器重构表结构，帮助单元解码器识别单元内容。我们的EDD模型是在PubTabNet上训练的，与现有的表识别方法相比，它显示了优越的性能。错误分析显示了对当前EDD模型的潜在增强，以提高性能。

通过将表格建模为树形结构，我们提出了一种新的基于树编辑距离的图像表格识别评价指标。我们证明了我们的新度量优于文献和比赛中常用的度量[3]。

相关工作（RELATED WORK）

A. Data

分析非结构化文档中的表格数据主要关注三个问题:1)表格检测:本地化文档中表格的包围框;2)表格结构识别:仅解析表格的结构(行、列布局)信息;3)表格识别:解析表单元格的结构信息和内容。表I比较了已开发的数据集解决这三个问题中的一个或多个。本文开发的PubTabNet数据集和EDD模型是针对基于图像的表识别问题而开发的。与用于表识别的其他现有数据集(例如SciTSR3, Table2Latex[4]和TIES[5])相比，PubTabNet有三个关键优势:

1)这些表格是由PMCOA中超过6000种期刊的出版商排版的，它提供了比其他表格数据集更丰富的表格样式。

2)细胞分为头细胞和体细胞，这在从表中检索信息时很重要。

3)目标输出格式为HTML，可以直接集成到web应用中。此外，HTML格式的表表示为树结构。这启用我们在第五节中提出的新的基于树编辑距离的评估度量。

图1:EDD架构。编码器是一个卷积神经网络，捕捉输入表图像的视觉特征。AsandAcare注意网络分别用于结构解码器和细胞解码器。RsandRcare循环单元分别用于结构解码器和单元解码器。结构解码器重构表结构，并帮助单元解码器生成单元内容。将结构解码器和单元解码器的输出合并，以获得输入表图像的HTML表示。

表I:表检测(TD)、表结构识别(TSR)和表识别(TR)数据集。

B. 模型（Model）

传统的表检测和识别方法依赖于预定义的规则[11]-[16]和统计机器学习[17]-[21]。近年来，深度学习在基于图像的表格检测和结构识别方面表现出良好的性能。Haoet等人使用一组原始规则提出候选表区域，并使用卷积神经网络来确定这些区域是否包含表[22]。全卷积神经网络和一个条件随机场，也被用于表检测[23]-[25]。此外，用于对象检测的深度神经网络，如Faster-RCNN[26]、Mask-RCNN[27]和YOLO[28]已经被用于表检测和行/列分割[7]、[29]-[31]。此外，通过将文档图像编码为[5]、[32]图形，利用图神经网络进行表格检测和识别。

有一些工具(见表II)可以将基于文本的PDF格式的表转换为结构化表示。然而，基于图像的表格识别的研究还很有限。基于注意力的编码器-解码器是由Xuet等人首先提出的图像字幕[33]。Denget对其进行了扩展，在编码器中添加了一个循环层，用于捕获长水平空间依赖，将数学公式图像转换为LATEX表示[34]。同样的模型对Table2Latex[4]数据集进行训练，以将表图像转换为LATEX表示。正如在[4]和我们的实验结果(见表II)显示，该模型在基于图像的表格识别的效果是平庸的。

本文提出了一种新的EDD体系结构，大大提高了基于注意力的编解码方法在基于图像的表识别中的性能。我们的模型不同于其他现有的EDD体系结构[35]，[36]，其中双解码器是相互独立的。在我们的模型中，单元解码器只有在结构解码器生成一个新单元时才被触发。同时，将结构解码器的隐藏状态发送给细胞解码器，帮助其将注意力放在表格图像中相应的细胞上。

C、Evaluation（评估）

[3]中提出的评价指标通常用于表识别文献和比赛。该度量首先将一个表的ground truth和识别结果平摊成非空单元之间成对邻接关系的列表。然后，可以通过比较列表来计算精度、召回率和f1分数。这个度量很简单，但有两个明显的问题:1)因为它只检查非空单元之间的直接邻接关系，它不能检测到由空单元和相邻单元以外的错误引起的错误;2)由于它通过精确匹配检查关系5，它没有一个机制来衡量细粒度的单元格内容识别性能。为了解决这两个问题，我们提出了一种新的评价指标:基于树editdistance的相似性(TEDS)。TEDS通过在全局树结构上检查识别结果来解决问题1)级别，允许它识别所有类型的结构错误;问题2)当树编辑操作为节点替换时，计算字符串-编辑-距离。

3自动生成PUBTABNET（AUTOMATIC GENERATION OFPUBTABNET）

PMCOA包含超过100万篇非结构化(PDF)和结构化(XML)格式的科学文章。如果可以在PDF中找到XML中的表节点的相应位置，就可以自动生成大型表识别数据集。Zhonget提出了一种匹配PMCOA中文章的XML和PDF表示的算法，它自动生成用于文档布局分析的pubaynet数据集[7]。我们使用他们的算法从PDF中为XML中的表节点提取表区域。表区域被转换为分辨率为72像素/英寸(PPI)的图像。我们使用这个低PPI设置来放松我们的模型对高分辨率输入图像的要求。对于每个表图像，从XML中提取相应的表节点(HTML格式)作为ground truth注释。

结果表明，该算法对某些表产生了错误的边界框，因此采用启发式算法对边界框进行了自动验证。对于每个注释，边界框中的文本都从PDF中提取出来，并与注释中的文本进行比较。如果两个文本的术语频率-逆文档频率(Tf-idf)特征的余弦相似度大于90%，且两个文本的长度相差小于10%，则认为边界框是正确的。此外，为了提高数据的可学习性，我们删除罕见的表，这些表包含跨越10行或10列的任何单元格，或者在所有表中出现少于50次的任何字符。注释中包含mathandinline-formulanode的表也被删除，因为我们发现它们没有一致的XML表示。

在过滤了表示例之后，我们管理表的HTML代码，以删除不必要的变化。首先，我们从表映像中删除不可重构的节点和属性，例如超链接和缩写词的定义。其次，在一些表中定义表头单元格为asthnodes，但在另一些表中定义为astdnodes。我们统一了头单元格astdnodes的定义，它保留了单元格的头标识，因为它们仍然是theadnode的后代。第三，除去' rowspan '和' colspan ' intdnodes之外的所有属性，因为它们控制了在web浏览器中与表图像不匹配的表的外观。这些管理导致一致和干净的HTML代码，并使数据更易于学习。

最后，将样本随机划分为60%/20%/20%的训练/开发/测试集。训练集包含548592个样本。由于只有一小部分表包含扩展(多列或多行)单元格，因此对原始开发和测试集的评估将强烈偏向于不包含扩展单元格的表。为了更好地评估模型如何在复杂的表结构上执行，我们创建了更平衡的模型开发和测试集随机绘制5000个表与生成细胞和5000个表不生成细胞从相应的原始集。

四、ENCODER-DUAL-DECODER (EDD)模型

图1显示了EDD模型的架构，该模型包括编码器、基于注意的结构解码器和基于注意的单元解码器。使用两个解码器的灵感来自两个直观的考虑:i)表结构识别和单元格内容识别是两个截然不同的任务。使用单一的基于注意力的解码器同时解决这两个任务是无效的。(2)结构识别任务中的信息有助于定位需要识别的单元。编码器是一个卷积神经网络(CNN)，捕捉输入表图像的视觉特征。结构解码器和细胞解码器是具有[33]中提出的注意机制的递归神经网络(RNN)。结构解码器只生成定义表结构的HTML标记。当结构解码器识别到一个新的细胞时，细胞解码器被触发，并利用结构解码器的隐藏状态计算注意以识别新细胞的内容。这确保了结构解码器生成的细胞与细胞解码器生成的序列之间的一对一匹配。两个解码器的输出可以很容易地合并，以得到表的最终HTML表示。

由于输入表图像的结构和内容由两个解码器分别识别，在训练过程中，将表的ground truth HTML表示标记为结构化标记和细胞标记，如图2所示。结构标记包括控制表结构的HTML标记。对于生成单元格，开始标记被分解为多个标记，如' '。单元格的内容是在字符级别标记的，其中HTML标记被视为单个标记。

从EDD网络中可以计算出两个损耗函数:i)生成结构令牌时的交叉熵损耗;ii)产生细胞标记的交叉熵损失(lc)。EDD网络的总损耗(l)计算为:

λ∈[0,1]的超参数。

V. TREE-EDIT-DISTANCE-BASED SIMILARITY(TEDS)

表以HTML格式的树结构表示。根有两个子节点theandandtbody，分别将表头和表体细胞分组。theandandbodynodes的子节点是表行(tr)。树的叶子是表格细胞(td)。每个单元节点有三个属性，即。' colspan '， ' rowspan '和' content '。我们使用Pawlik和Augsten[37]提出的树编辑距离来衡量两个表之间的相似性。插入和删除操作的成本是1。当编辑替换一个nodenwithns时，如果其中任何一个nonsis notd，代价为1。当noandntd和nsaretd同时存在时，如果noandntd的列跨度或行跨度不同，则替换成本为1。否则，替换代价是non和n内容之间的归一化Levenshtein相似度[38](∈[0,1])。最后，计算两棵树之间的TEDS为：

其中editdist为树编辑距离，|T|为节点inT的数量。将一种方法对一组测试样本的表识别性能定义为识别结果与每个样本的ground truth之间的TEDS分数的平均值。

图2:标记HTML表的例子。结构标记定义表的结构。单元格内容中的HTML标记被视为单个标记。其余的单元格内容在字符级别进行标记。

为了证明TEDS解决了之前在第二节中描述的邻接关系度量[3]的两个问题，我们将两种类型的扰动添加到PubTabNet的验证集，并检查TEDS和邻接关系度量如何响应这些扰动。

1)为了演示空单元格和多跳错位问题，我们将第一行的一些单元格向下移动6，并用空单元格填充剩余的空间。单元格的移动距离与它的列索引成正比。我们测试了5个摄动水平，即，10%，30%，50%，70%，或90%的细胞在第一行移动。图3显示了一个扰动的例子，其中第一行90%的细胞被移动。

2)为了演示细粒度单元格内容识别问题，我们随机地将一些字符修改为不同的字符。我们测试了5个扰动级别，即角色被修改的概率被设置为10%、30%、50%、70%或90%。图4显示了10%扰动水平下的一个例子。

图5显示了TEDS和邻接关系F1score在不同水平上对两种扰动的响应。邻接关系度量对电池位移扰动反应不足。在90%摄动水平下，该表与原始表有较大差异(如图3所示)，但邻接关系f1得分仍接近80%。另一方面，扰动导致TEDS下降60%，说明TEDS能够捕获邻接关系度量无法捕获的错误。

当涉及到单元内容扰动时，邻接关系度量是过度反应的。即使是10%的摄动水平(见图4中的例子)也会导致邻接关系f1分数下降超过70%，从50%的摄动水平下降到接近于零。相反，当扰动级别从10%增加到90%时，TEDS从90%线性下降到40%，这表明了捕获细粒度单元内容识别错误的能力。

图3:细胞移位扰动的例子，其中第一行90%的细胞被移动。撒开= 34.9%。邻接关系F1得分= 80.3%。

图4:在10%扰动水平下细胞内容扰动的例子。撒开= 93.2%。邻接关系F1得分= 19.1%。

图5:TEDS响应和邻接关系度量对cell位移扰动和cell内容扰动的比较。邻接关系度量对细胞移位扰动反应不足，对细胞内容扰动反应过度。而ted在恰当地捕捉错误方面表现出了优势。

六。实验

将该模型的测试性能与现有的5种工具(Tabula7, Traprange8，Camelot9, PDFPlumber10和Adobe AcrobatR?Pro11)和WYGIWYS model12[34]。我们从Tabula、Traprange、Camelot和PDFPlumber的原始PDF中裁剪测试表，因为它们只支持基于文本的PDF作为输入。Adobe AcrobatR吗?Pro测试PDF表格和高分辨率表格图像(300 PPI)。现成工具的输出被解析为与HTML表相同的树结构，以计算ted分数。

A:实现细节

为了避免超过GPU RAM, EDD模型在PubTabNet训练集的一个子集(399k个样本)上进行训练，满足

注意，验证和测试集中的示例不受这些标准的约束。训练数据的结构标记和细胞标记的词汇量分别为32和281。训练图像被重新缩放到448×448pixels，以便于批量处理，每个通道通过z-score归一化。

我们使用ResNet-18[39]网络作为编码器。默认的ResNet-18模型将图像分辨率降低32。我们对ResNet-18的最后一层CNN进行了修改，研究更高分辨率的feature map是否能提高表识别性能。本文共测试了五种不同的设置:

我们在验证集上评估了这五种设置的性能，发现更高分辨率的feature map和独立的CNN图层提高了性能。因此，EDD-S1S1设置提供了最佳的验证性能，因此选择它与测试集中的基线进行比较。

结构解码器和单元解码器是单层长短期记忆(LSTM)网络，其隐藏状态大小分别为256和512。这两种解码器都使用软注意对编码器的特征图进行加权，软注意有一个大小为256的隐藏层。结构标记和细胞标记的嵌入维数为分别是16和80。在推理时，对两个解码器的输出进行波束搜索采样(波束=3)。

EDD模型的训练与亚当[40]优化器有两个阶段。首先，我们对编码器和结构解码器进行预训练，只生成结构标记(λ= 1)，其中批大小为10，在前10个epoch的学习速率为0.001，在另外3个epoch的学习速率降低10。然后，我们训练整个EDD网络生成结构标记和细胞标记(λ= 0.5)，批大小为8,10个epoch的学习率为0.001，另外2个epoch的学习率为0.0001。在两个V100 gpu上的总训练时间约为16天。

b .定量分析

表II比较了提议的EDD模型和基线的测试性能，其中simple13和complex14测试表的平均TEDS也显示了。由于仅依赖于表格图像，EDD在识别简单和复杂表格方面大大优于所有基线，甚至那些直接使用从PDF中提取的文本填充表格单元格的表格。在这个比较中，Camelot是最好的现成工具。此外，adobeacrobatr ?Pro上的图像输入显着低于PDF输入，证明了识别表格仅仅在表格图像上的困难。在PubTabNet数据集上进行训练时，WYGIWYS的表现也大大超过了现有工具，但EDD的绝对ted分数比它高出9.7%。EDD对WYGIWYS的优势在复杂表(9.9%的绝对ted)上比简单表(9.5%的绝对ted)上更深刻。这证明了联合训练两个独立的解码器来解决结构识别和细胞内容识别任务的巨大优势。

表II: EDD和7个基线方法的测试性能。我们的EDD模型，仅仅依靠表格图像，实质上优于所有的基线

c .定性分析

为了说明比较的方法在行为上的差异，图6显示了给定一个示例输入表的预测HTML的呈现。该表有7列，3个标题行和4个正文行。表标题具有复杂的结构，由4个多行(span=3)单元格、2个多列(span=3)单元格和3个正常单元格组成。我们的EDD模型能够产生与地面真实情况极其接近的匹配，在结构识别和单一光学字符识别(OCR)错误(“PF”被识别为“PC”)。WYGIWYS的结果中缺少第二个标题行，这也会在单元格内容中产生一些错误。另一方面，现成的工具在识别表头的复杂结构方面会犯更多的错误。这说明这些工具识别复杂表的能力有限。

图7 (a) - (c)说明了结构解码器在处理示例输入表时的注意事项。当一个新行被识别(' ')时，结构解码器将其注意力集中在该行中的单元格上。当一个新单元的开始标记(' '标签，结构解码器的注意扩散到整个图像。由于' '总是跟随' '和' ')生成时，结构解码器将更多地关注单元周围。对于结束标签' '或' > '令牌，结构解码器依赖于语言模型而不是编码的特征映射来预测它。图7 (d)显示了细胞解码器在生成每个细胞内容时的聚合注意。与结构解码器相比，细胞解码器更关注正在生成的细胞内容。

图6:EDD和7种基线方法对具有复杂头部结构(4个多行(span=3)单元格，2个多列(span=3)单元格和3个正常单元格)的示例输入表的表识别结果。我们的EDD模型能够很好地识别表的复杂结构和单元格内容，而基线则很难识别复杂的表头。

图7:结构解码器(a - c)和单元解码器(d)在示例输入表上的注意分布。图像中心的文本是EDD模型的预测。当识别新的行和单元时，结构解码器将注意力集中在表单元周围，而单元解码器将更多的注意力放在单元内容上。

(a)结构解码器对第一行的注意

(b)第一主体行结构解码器注意事项

(c)最后body行结构解码器的注意事项

(d)细胞解码器对每个细胞的聚合注意

d .误差分析

我们将PubTabNet的测试集按照表大小的四个关键属性分为15个等间隔组:宽度、高度、结构标记的数量和最长单元中的标记数量。图8显示了每一组的表数以及EDD模型和WYGIWYS模型在每一组上的表现。EDD模型优于WYGIWYS模型。两种模型的性能都随着表大小的增加而降低。我们用满足方程3的表格训练模型，其中阈值用垂直虚线表示，如图8所示。除了宽度以外，在阈值附近，我们没有观察到性能的急剧下降。我们认为较大的表的性能较低主要是由于缩放图像进行批处理，其中较大的表更强的下采样。EDD模型可以更好地处理大型表，方法是将表图像分组成与[34]中相似的大小，并对每个组使用不同的缩放大小。

e .泛化

为了证明EDD模型不仅适用于PubTabNet，而且可以推广到其他表识别数据集，我们在[5]中提出的合成数据集上训练和测试EDD模型。我们没有选择ICDAR2013或ICDAR2019表识别竞赛数据集。如表一所示，ICDAR2013没有提供足够的培训数据;ICDAR2019不提供细胞内容(仅细胞位置)的基本事实。我们合成500K的表格图像和相应的HTML表示15，平均分布在[5]中定义的四类表格样式中(例如，见图9)。将合成数据划分(按类别分层抽样)为420K/40k/40k训练/验证/测试集。

图8:表的宽度、高度、结构标记的数量以及最长单元中的标记数量对EDD和WYGIWYS性能的影响。条形图(左轴)是PubTabNet测试集w.r.t.以上属性的直方图。线状图(右轴)是每个柱状图中样本的平均TEDS。垂直虚线是方程3中的阈值。

我们将EDD与[5]中提出的图神经网络模型TIES在每个表类别上的测试性能进行了比较。我们只计算EDD的TEDS分数，因为TIES预测两个标记(由OCR引擎从表图像识别)是否共享相同的单元格、行和列，但不是表16的HTML表示。相反，与在[5]中一样，将计算EDD和TIES之间的精确匹配百分比并进行比较。注意，TIES的精确匹配只检查标记的单元格、行和列邻接矩阵是否完全匹配基本事实，而不检查OCR引擎是否有任何错误。为了进行公平的比较，在检查EDD的精确匹配时，我们也忽略了单元格内容识别错误，也就是说，只要结构完全匹配ground truth，识别的表就被视为精确匹配。

表III显示了EDD和TIES的测试性能，其中EDD在合成数据集的所有类别上都取得了极高的TEDS分数(99.7+%)。这意味着EDD能够近乎完美地从表图像中重建结构和单元格内容。EDD在所有表类别的精确匹配方面优于TIES。此外，与TIES不同的是，EDD在类别3或类别4上没有显示出任何显著的性能下降，其中的样本具有更复杂的结构。这表明，在更困难的例子上，EDD比TIES更健壮和可推广。

图9:[5]中定义的四个表样式类别的示例表图像。

表III: EDD和TIES对[5]中提出的数据集的测试性能。不为TIES计算TEDS分数，因为它不生成输入图像的HTML表示。

7结论

本文对基于图像的表格识别问题进行了较为全面的研究。开发了一个大型数据集PubTabNet来训练和评估深度学习模型。通过将表格结构识别和单元内容识别任务分离，提出了一种基于注意力的EDD模型。结构解码器不仅可以识别输入表的结构，还可以帮助单元解码器将其注意力放在正确的单元内容上。我们还提出了一个新的评估指标TEDS，它同时捕获了表结构识别和单元格内容识别的性能。与传统邻接关系度量相比，TEDS能更恰当地捕获多跳小区不对中和OCR误差。该模型在PubTabNet上进行训练后，能够有效地识别复杂的表结构和提取图像中的单元内容。PubTabNet已经面世，我们相信PubTabNet将加速表识别的未来发展，并为表识别模型的预训练提供支持。

我们未来的工作将集中在以下两个方向。首先，当前的PubTabNet数据集不提供表格单元格的坐标，我们计划在下一个版本中补充这一点。这将允许向EDD网络添加一个额外的分支，以预测小区位置。我们认为这个额外的任务将有助于细胞内容识别。此外，当表格以基于文本的PDF格式提供时，可以使用单元位置直接从PDF中提取单元内容，而不使用OCR，这可能会提高整体识别质量。其次，EDD模型以表格图像作为输入，它隐式地假设表格在文档中的准确位置由用户提供。我们将研究EDD模型如何与表格检测神经网络集成，以实现端到端表格检测和识别。

本篇主要是对这篇文章进行翻译，留作以后学习。

Image-based table recognition: data, model, and evaluation（纯翻译版本-下一篇将总结概括该文章）相关推荐

Image-based table recognition: data, model, andevaluation
相关论文: Image-based table recognition: data, model, and evaluation GitHub相关地址数据集下载: IBM的下载地址文档中与特定主题 ...
AAAI2020 A pre-training based personalized dialogue generation model with persona-sparse data
文章目录论文背景论文想要解决的问题论文贡献模型变量解释框架 Encoding Attention 自动计算persona比重 language model 最终的目标函数 A pre-tr ...
GCN-LSTM预测道路交通车辆速度英文 Vehicle Speed Forecasting Based On GCN-LSTM Combined Model
GCN-LSTM模型预测道路交通车辆速度 GCN:又称GNN,图神经网络 LSTM:长短时记忆网络 Vehicle Speed Forecasting Based On GCN-LSTM Com ...
Model Selection Evaluation
Model Selection & Evaluation Agenda Cross Validation Hyperparameter Tuning Model Evaluation Mode ...
END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA
END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA Johan Rohdin, Anna Silnova, M ...
【Hadoop】HBase 数据模型（Data Model）
Data Model 在HBase中,数据是存储在有行有列的表格中.这是与关系型数据库重复的术语,并不是有用的类比.相反,HBase可以被认为是一个多维度的映射. HBase数据模型术语 Table( ...
2018_IJCAI_DELF: a dual-embedding based deep latent factor model for recommendation
[论文阅读笔记]2018_IJCAI_a dual-embedding based deep latent factor model for recommendation-(IJCAI, 2018.0 ...
四、物理数据模型PDM(Physical Data Model )
一. PDM 介绍物理数据模型(Physical Data Model)PDM,提供了系统初始设计所需要的基础元素,以及相关元素之间的关系:数据库的物理设计阶段必须在此基础上进行详细的后台设 ...
CRM的客户数据模型：Siebel Party Data Model (VI)
关于Siebel CRM Thomas Siebel和 Patricia House 在1993成立了Siebel公司.起先由销售自动化产品起家,然后在扩展到更大的CRM市场.在20世纪90年代末,S ...

Image-based table recognition: data, model, and evaluation（纯翻译版本-下一篇将总结概括该文章）

Image-based table recognition: data, model, and evaluation（纯翻译版本-下一篇将总结概括该文章）相关推荐

最新文章

热门文章