本文介绍如何将 Tableau 连接到 .pdf 文件数据并设置数据源。

注意:Tableau 不支持从右到左 (RTL) 的语言。如果您的 PDF 包含 RTL 文本,则字符可能会以相反顺序显示在 Tableau 中。

进行连接并扫描文档表格

打开 Tableau 后,在“连接”下面,单击“PDF 文件”。

选择要连接到的文件,然后单击“打开”。

在“扫描 PDF 文件”对话框中,指定想要 Tableau 扫描表格的文件中的页面。您可以选择扫描所有页面、仅单个页面或一系列页面中的表格。

注意: 类似于大多数 PDF 阅读器,扫描将文件的第一页计为“第 1 页”。扫描表格时,请指定 PDF 阅读器显示的页码,而不是文档本身中可能使用的页码,该页面可能从第 1 页开始,也可能不从第 1 页开始。

例如,假设您想要使用下图中的“表 1”。PDF 阅读器显示一个数字,而 .pdf 文件显示其他数字。若要正确扫描此表,请指定 PDF 阅读器显示的页码。在此示例中,您指定“第 15 页”。

在数据源页面上,执行下列操作:

(可选)在页面顶部选择默认数据源名称,然后输入要在 Tableau 中使用的唯一数据源名称。例如,使用可帮助其他数据源用户推断出要连接的数据源的数据源命名约定。 默认名称是基于文件名自动生成的。

如果文件包含一个表,请单击工作表标签开始进行分析。否则,从左窗格中将表拖到画布上,然后单击工作表标签以开始分析。

关于左侧窗格中的表格

在 .pdf 文件中识别的表将被赋予唯一名称,并在扫描后显示在左侧窗格中。例如,您可能会看到像“第 1 页,表 1.”这样的表名称。表名称的第一部分指明 .pdf 文件中表格源自其中的页面。表名称的第二部分指明识别的表顺序。如果 Tableau 在一页中识别出了多个表,则表名称的第二部分可能指明以下两项之一:

Tableau 在页面上识别出了另一个唯一的表或子表。

Tableau 采用另一种方式解读了页面上的表。Tableau 可能会对表提供多种解读,具体情况取决于该表在 .pdf 文件中的呈现方式。

PDF 文件数据源示例

以下是 PDF 文件数据源的示例:

获取更多数据

通过添加更多表或连接到不同数据库中的数据,将更多数据提供到数据源中。

从当前文件添加更多数据:

从左窗格中,将其他表拖到画布上,以使用联接或并集合并数据。有关详细信息,请参见联接数据或合并数据。

如果在以上所列过程的步骤 3 中扫描的页面未在左窗格中生成您所需的表,请单击 PDF 文件连接旁边的下拉箭头,然后单击“重新扫描 PDF 文件”。此选项允许您创建新的扫描,以便您可以在 .pdf 文件中指定不同的页面来扫描表。

从不同数据库中添加更多数据:在左窗格中,单击“连接”旁边的“添加”。有关详细信息,请参见联接数据。

如果左窗格中未列出您需要的连接器,请选择“数据”>“新数据源”以添加新数据源。有关详细信息,请参见混合您的数据。

设置表选项

您可以设置表选项。在画布上,单击表下拉箭头,然后指定数据在第一行中是否包括字段名称。如果是这样,这些名称将成为 Tableau 中的字段名称。如果未包括字段名称,Tableau 会自动生成这些名称。您随后可以对字段进行重命名。

使用 Data Interpreter 清理您的数据

如果 Tableau 检测到它可以帮助优化数据源以进行分析,则会提示您使用数据解释器。数据解释器能够检测您可以使用的子表,并且能够删除以后可能会在分析中引起问题的唯一格式。有关详细信息,请参见使用 Data Interpreter 清理 Excel、CSV、PDF 和 Google Sheets 中的数据。

合并 .pdf 文件中的表

您可以在文件中合并表。有关合并的详细信息,请参见合并数据。

使用通配符搜索来合并表时,结果范围限定为在连接到的初始文件中扫描的页面。例如,假设您具有三个文件:A.pdf、B.pdf 和 C.pdf。您连接到的第一个文件是 A,并且将表的扫描限制为第 1 页。当使用通配符搜索来合并文件 B 和 C 中的表时,并集中包含的其他表只能来自 B 的第 1 页和 C 的第 1 页。

使用 .pdf 文件的提示

以下提示可帮助您在 Tableau 中使用 .pdf 文件。

使用 PDF 文件连接器以仅识别 .pdf 文件中的表。

PDF 文件连接器的主要目标是在 .pdf 文件中查找和标识表。因此,它会忽略文件中似乎不属于表格的任何其他信息,包括标题、说明和脚注。如果相关数据存储在这些区域之一(如表标题)中,您可以使用 Tableau 先将 .pdf 文件数据导出到 .csv 文件中,手动添加存储在表标题中的数据,然后改为连接到 .csv 文件。有关详细信息,请参见将数据导出为 .csv 文件。

使用标准表。

通常,Tableau 对使用表格格式的标准表的处理效果最好。

理想情况下,.pdf 文件中的表在一行中具有列标题,在一行中具有行值,如下面的示例中所示。

表中或表周围使用的颜色和阴影可能会影响表的识别方式。

具有独特格式设置的表可能需要在 Tableau 之外进行一些清理或手动编辑。独特的格式设置可能包括分层标题、跨多行的标题名称、跨多行的行值、斜置标题和堆叠的表,如下面的示例中所示。

注意:Tableau 不支持连接到扫描(光学字符识别)软件生成的 .pdf 文件。

验证数据。

确保验证 Tableau 在 .pdf 文件中标识的表中的数据。您可以使用数据网格或结果工作簿(如果您使用了数据解释器)来验证数据。

避免跨多页的表。

如果 .pdf 文件包含跨多页的表,Tableau 会将该表解读为多个表。若要解决此问题,请使用并集来合并这些表。有关详细信息,请参见合并数据。

重命名其文件名包含 unicode 字符的 .pdf 文件。

连接到文件名中包含 unicode 字符的 .pdf 文件后,您可能会看到以下错误。

若要解决此问题,请使用非 unicode 字符重命名文件,并再次连接到 .pdf 文件。

不要使用密码保护的 .pdf 文件。

连接到 .pdf 文件并在其中扫描表之后,您可能会看到以下错误。

如果 .pdf 文件受密码保护,并且 Tableau 无法访问其内容,则会显示此错误。Tableau 不支持连接到密码保护的 .pdf 文件。

以不同方式或不正确方式解读的别名值。

在数据网格中,您可能会注意到,某些值的解读方式与 .pdf 文件不同。通过使用别名来重命名字段内的特定值,您可以纠正这种解读。

例如,假设您在连接到 .pdf 文件后看到下表。某些州/省/市/自治区被解读为小写形式,以蓝色突出显示。

通过使用别名将小写形式的缩写更改为大写形式的缩写,您可以解决此问题。为此,请单击列名称旁边的下拉箭头,并选择“别名”。

解决解读为表值的列标题。

在数据网格中,您可能还会注意到 .pdf 文件中的某些列标题反而被解释为表值。如果您的 .pdf 文件包含具有唯一格式或层次标题的表,则可能会发生这种情况。在这种情况下,先尝试使用数据解释器。如果 Data Interpreter 未解决该问题,请考虑手动将列重命名其适当的名称,并使用数据源筛选器来筛选被视为值的标题名称。

例如,假设您在连接到 .pdf 文件后看到下表。.pdf 文件中的表标题被解释为表值,以蓝色突出显示。

一种解决此类标题问题的方法是按照类似于以下的步骤进行操作:

双击列名称,然后将 F1 重命名为“Year”(年份)。对 F2 至 F4 重复此步骤,分别命名为“Coal”(煤炭)、“Gas”(天然气)和“Oil”(石油)。

单击“Year”(年份)列的数据类型图标,并将其更改为数值数据类型。这会导致将此列中的非数值转换为空值。

在数据源页面的右上角,单击“添加”,单击“添加”按钮,然后选择“Year”(年份)字段。

在“筛选器”对话框中,同时选中“Null”和“排除”复选框。

“Year”(年份)列中包含 Null 值的行将从数据网格中删除,从而影响表中其他列的行。

关于 .ttde 和 .hhyper 文件

在计算机的目录中导航时,您可能会注意到 .ttde 或 .hhyper 文件。当您创建连接到数据的 Tableau 数据源时,Tableau 会创建 .ttde 或 .hhyper 文件。此文件(也称为阴影数据提取)用于帮助提高 Tableau Desktop 中的数据源加载速度。尽管阴影数据提取包含类似于标准 Tableau 数据提取的基础数据和其他信息,但阴影数据提取将以其他格式保存,并且无法用于恢复数据。

在某些情况下,您可能需要从计算机中删除阴影数据提取。有关详细信息,请参见 Tableau 知识库中的由于 TTDE 文件的缘故导致磁盘空间不足。

另请参见

设置数据源 – 向此数据源中添加更多数据,或者在分析数据之前准备数据。

构建图表和分析数据 – 开始数据分析。

tableau中文版教程pdf_PDF 文件相关推荐

  1. Tableau使用教程:如何Tableau中添加离线/在线地图

    Tableau使用教程:如何Tableau中添加离线/在线地图 发布时间:2019-04-03 版权: 相关软件:BIGEMAP GIS Office软件 BIGEMAP可以提供Tableau多样化的 ...

  2. Xamarin Essentials教程打开文件

    Xamarin Essentials教程打开文件 FileSystem类的OpenAppPackageFileAsync()方法可以用来打开App包中特定的文件,其语法形式如下: public sta ...

  3. Python入门教程之文件读写操作知识

    Python是随着人工智能时代的来临而火爆起来的编程语言,入门简单.功能强大,吸引了人们的广泛学习加入.想要学好Python,一定要从基础学起,然后进阶深入学习,今天千锋小编就给大家分享Python培 ...

  4. [资源分享] TensorFlow 官方中文版教程来了

    最近,TensorFlow 提供了中文版的教程(Tutorials)和指南(Guide). 其中,教程是介绍了一些基本的机器学习模型,包括分类.回归等,也包括一些深度学习方面的模型,包括常用的卷积神经 ...

  5. 飞秋教程:文件断点续传

    飞秋新版本增加了文件断点续传功能,省去了传大文件时因为网络问题中断又得重新开始传的烦恼,节省时间,提高速度,对于已传过的大文件,重新接收时能实现秒传. 默认情况下文件断点续传功能是在文件大于1M时才开 ...

  6. tensorflow英语怎么读_英语不行?你可以试试TensorFlow官方中文版教程

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | 机器之心 现在 TensorFlow 有官方中文版教程啦,以前的英文版 Tutorials ...

  7. mcldownload文件夹_《我的世界》中国版游戏空间精简教程 多余文件删除方法

    <我的世界>中国版游戏空间精简教程 多余文件删除方法 2017-09-05 16:09:32来源:网易论坛编辑:评论(0) <我的世界>中国版自从更新后很多玩家都反映游戏所需空 ...

  8. Intermapper系列网络管理工具中文版教程

    7x24全天侯主动监测网络设备Intermapper5.3中文版教程 InterMapper可以实时监测管理任何规模的网络.它能迅速搜索整个网络内的所有节点.自动勾画出整个网络的拓扑结构图,动态实时地 ...

  9. 超详细的实现上传文件功能教程,文件上传实现。

    重要声明:本文章仅仅代表了作者个人对此观点的理解和表述.读者请查阅时持自己的意见进行讨论. 本文更新不及时,请到原文地址浏览:<超详细的实现上传文件功能教程,文件上传实现.>. 一.文件上 ...

最新文章

  1. MFC之按键消息(长按处理)
  2. 用Excel画五线谱!
  3. Kubuntu 9.10设置支持文件分级的方法
  4. http://blog.sina.com.cn/s/blog_7b9d64af0101cjci.html
  5. Cookie/Session机制详解--如何区分不同用户
  6. 【控制】《最优控制理论与系统》-胡寿松老师-第5章-线性最优状态调节器
  7. 流式细胞术及常见问题分析
  8. mysql b 树原因_复习系列之数据库(四):MySQL为什么采用B+树作为索引结构?
  9. 栈溢出笔记1.8 字符串问题
  10. Shopify 英文(多国语言)国际网店 注册指南
  11. @vail 判断某字段在范围内_怎么判断一台二次元影像测量仪的可靠性?
  12. 【java】 Java 类加载器 破坏双亲委派
  13. (2) GoJS Node简介
  14. iOS8中UITableVIew分割线短的问题
  15. malloc 初始化_glibc: malloc、calloc、realloc amp; free
  16. 用c语言ipv6组播,闲谈IPv6-组播和广播
  17. qq2007服务器中断,自动重启pubwin2007服务器脚本
  18. slot具名卡槽和props
  19. 关于预答辩研究生汇报内容及方式的几点要求
  20. 关于Error in render: TypeError: Cannot read property '0' of null问题的解决方法

热门文章

  1. BCGControlBar使用(九)
  2. 【Pycharm】专业版连接xshell 远程服务器
  3. linux usermod -aG命令:将用户添加到某个组group
  4. Scala 数组详解
  5. linux 产生0~1之间的随机数
  6. Python3 使用[]提取字符
  7. python3字典(Map)
  8. 【软考-软件设计师】计算机存储系统
  9. 空投坐标怎么看6_装修时,怎么确认自己买的“瓷砖”是优等品?看“6点”很重要...
  10. java代码在计算机中经历的三个阶段