上一篇:《Using OpenRefine》翻译~1

OpenRefine支持的文件类型

以下是部分OpenRefine支持的文件格式:

●csv、tsv及其他*sv

●xls/xlsx、cdf、ods

●JSON

●XML

●行文本格式(比如log文件)

如果你需要打开其他格式文件,你可以通过OpenRefine扩展功能打开。

创建OpenRefine项目十分简单,只需要三步:选择文件、预览数据内容、确认创建。让我们通过点击“创建项目”标签页、选择数据集、点击下一步来创建新项目。

虽然我们鼓励你在OpenRefine中使用你自己的数据集,不过使用本书中的例子可能学习起来更高效。为了能够做到这点,案例中的数据均基于悉尼的PowerhouseMuseum组织,可以登录账户并在http://www.packtpub.com中下载(chapter1.tsv)学习,后续章节数据也可以下载获得,如何你是从其他地方购买本书,你也可以在http://www.packtpub.com/support注册并通过email获得本书数据。

下一步你会看到一个数据集预览界面,在右侧底部,你可以看到如下数据解析选项界面:

默认情况下,第一行数据会被解析为列名称,我们使用的Powerhouse数据集中的数据也显然符合首行为列名称。OpenRefine同时也会猜测单元格类型,给其赋予整数、日期、网址等等,这在你后续整理排列数据的时候十分有用(比如如果你将单元格设为文本格式,那么10就会排在2前面)

另一个选项是“引号在原数据中用来分隔列”选择项,如果选中,则原数据中引号用来分隔列,否则就需要去掉勾选框以使得OpenRefine能够正确读取。在Powerhouse数据集中,引号是用来表明物体名称和说明信息,所以此情况下,引号没有分隔列的意思:所以这里我们需要去掉勾选。剩下的选项在某些情况下需要设置,试着勾选或者去掉勾选来看看如何影响数据。另外,请确保编码正确,以使得显示正确。当所有都设置好后,点击创建项目来加载数据。

要点3:探索数据

本点中,你将通过查看数据界面的所有区域:总行数、不同的显示参数、列名称及菜单、实际单元格数据来探索数据。

一旦你的数据被加载,你将获得类似如下的界面内容:

上图中标明1~4的四个区域,我们按照顺序介绍:

1、总行数:如果你没有忘记去掉“引号有意义”选项(参照要点2-创建一个新项目),那么你会看到Powerhouse文件包含75814行数据。当数据按照某个参数进行过筛选,这里的显示会变成类似于找到123匹配行(总共75814行)。

2、显示选项:试着点击下,将行变成记录来查看区别,事实上变化并不大,只不过该区域显示为75814条记录而已。行数量一般情况下等于记录数量,但在后续情况中还是不一样的。该区域可以让你选择按5、10、25、50每页显示,并且你也可以在这里跳转页。

3、列名称及菜单:你会发现数据加载后的第一行被解析为列名称,在Powerhouse数据集中,列包含Record ID, Object Title, Registration Number等等(如果你在创建时去掉了“将第一行解析为列名称”的勾选,那么列名称区域会显示为Column1、Column2等等)

4、单元格内容:此处显示实际单元格数据

在开始剖析清理数据前,十分重要的一点是确保OpenRefine较好的载入显示了数据:查看列名称被解析正确(数据显示较宽时请使用水平滑动条)、单元格类型是否正确等等。将行显示项改为每页显示50条以查看数据不明显矛盾(理想情况下,你应该在创建项目前的预览界面时处理这些工作)。当你已经熟悉了操作界面,你就可以继续下一步了。

下一篇:《Using OpenRefine》翻译~3

《Using OpenRefine》翻译~2相关推荐

  1. 《Using OpenRefine》翻译~12

    上一篇:<Using OpenRefine>翻译~11 点4:单元格值转换 在第二章:分析和修改数据中,我们学习到OpenRefine可以自动修改一列的单元格内容,比如去除多余空格.上一点 ...

  2. 《Using OpenRefine》翻译~4

    上一篇:<Using OpenRefine>翻译~3 要点5:使用项目操作历史 本点中,你将学习到如何返回到任一个项目历史操作点,并且学习如何在项目重新打开后查看历史操作信息. OpenR ...

  3. Mysql函数group_concat、find_in_set 多值分隔字符字段进行数据库字段值翻译

    Mysql函数group_concat.find_in_set进行数据库字段值翻译 场景 配方表:记录包含的原料 sources表示原料,字段值之间用逗号分隔 原料表:对应原料id和原料名称 现需要查 ...

  4. “Attention is All You Need 翻译

    <p><img src="output_0_0.png" alt="png"></p> "Attention is ...

  5. 基于PyTorch的Seq2Seq翻译模型详细注释介绍(一)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qysh123/article/deta ...

  6. 全文翻译(全文合集):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

    全文翻译(全文合集):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 摘要 人们越来越需要将机器学习应用到各种各样 ...

  7. 全文翻译(四) TVM An Automated End-to-End Optimizing Compiler

    全文翻译(四) TVM An Automated End-to-End Optimizing Compiler 6.3 嵌入式GPU评估 对于移动GPU实验,在配备ARM Mali-T860MP4 G ...

  8. 全文翻译(三) TVM An Automated End-to-End Optimizing Compiler

    全文翻译(三) TVM An Automated End-to-End Optimizing Compiler 5. 自动化优化 考虑到一组丰富的调度原语,剩下的问题是为DL模型的每一层,找到最佳的算 ...

  9. 全文翻译(二): TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

    全文翻译(二): TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 3.优化计算图 计算图是在DL框架中表示程序的常 ...

  10. 全文翻译(一):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

    全文翻译(一):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 摘要 人们越来越需要将机器学习应用到各种各样的硬件 ...

最新文章

  1. 关系型数据库和非关系型数据库的优劣对比?
  2. idea中使用docker插件部署项目
  3. Missing artifact com.sun:tools:jar:1.5.0
  4. 万亿级日志与行为数据存储查询技术剖析(续)——Tindex是改造的lucene和druid...
  5. php 照片变成卡通照片,Photoshop实例:变照片为卡通漫画
  6. 九、ES6的箭头函数
  7. matlab三位画图_matlab 3D绘图详解(示例代码)
  8. 系统结构图 数据结构_数据结构图简介
  9. 韩国女主播被中国土豪打赏13万 差点吓晕!网友:真是没见过世面
  10. CodeForces 297C Splitting the Uniqueness (脑补构造题)
  11. 访问图像元素(imagedata widthstep)
  12. 汤国安《地理信息系统教程》(第二版)笔记(1)——概论
  13. vue项目中使用词云_如何在vue项目中使用高拍仪
  14. Linux安装ghostscript
  15. C/C++编程学习 - 第5周 ③ 圆锥体的体积
  16. error C4716 必须返回一个值 处理
  17. Xftp5 安装教程
  18. hive 创建外部表
  19. js中appendChild的用法
  20. springboot项目之部署阿里云服务器--简版

热门文章

  1. uni-app框架简介
  2. JavaScript封装自己的库
  3. 添加logviewer用户
  4. 【正点原子FPGA连载】第三十二章 MDIO接口读写测试实验-摘自【正点原子】领航者ZYNQ之FPGA开发指南_V2.0
  5. Pandas库的基本使用方法
  6. java进制转换方法
  7. Illustrator CS6高清原创视频教程全集
  8. 图书馆图书借阅登记微信小程序开发制作管理软件系统
  9. 小程序Git版本管理
  10. Mac电脑怎么设置动态桌面,heic动态桌面壁纸怎么使用