开源 数据查询 工具

当我1980年代末期在新闻学院上学时,收集一个故事的数据通常需要花大量时间浏览打印的文档或缩微胶片。

从那以后很多事情改变了。 尽管印刷资源仍然有用,但越来越多的信息可供网络记者使用。 这助长了后来被称为数据新闻业的繁荣。 从最基本的意义上讲,数据新闻业是使用数据(例如普查数据,犯罪统计数据,人口统计数据等)查找和讲述故事的行为。

有许多功能强大且昂贵的工具,使记者能够收集,清理,分析和可视化其故事的数据。 但是,许多规模较小或陷入困境的新闻机构,更不用说独立记者了,不必为这些工具预算。 但这并不意味着他们会冷落。

有许多可靠的开源工具可供数据记者使用,既高效又令人印象深刻。 本文着眼于六个工具,可以帮助数据记者获得他们所需的信息。

抓取数据

记者在网上找到的许多数据可以下载为电子表格或CSV或PDF文件。 但是网页中嵌入了很多信息。 与其手动复制和粘贴信息,不如说新闻记者使用的每一个数据都是一个小技巧。 爬取是使用自动化工具来获取嵌入在网页中的信息的行为,通常是HTML表格的形式。

如果您或您组织中的某个人有技术方面的想法,那么Scrapy可能是适合您的工具。 Scrapy用Python编写,是一种命令行工具,可以快速从网页中提取结构化数据。 Scrapy的安装和设置有点挑战,但是一旦安装和运行,您就可以利用许多有用的功能 。 精通Python的程序员也可以快速扩展这些功能。

电子表格是数据记者的基本工具之一。 在开源世界中, LibreOffice Calc是使用最广泛的电子表格编辑器。 Calc不仅用于查看和处理数据。 通过利用其“ 网页查询”导入过滤器,您可以将Calc指向包含表中数据的网页,并获取页面上的一个或所有表。 尽管它不如Scrapy快或高效,但Calc可以很好地完成工作。

处理PDF

无论是偶然还是设计使然,网络上的许多数据都被锁定在PDF文件中。 这些PDF中有许多都可以包含有用的信息。 如果您已经完成了PDF的任何工作,那么您就会知道,从PDF中获取数据可能会很麻烦。

那就是DocHive(由Raleigh Public Record开发的一种用于从PDF提取数据的工具)出现的地方。DocHive可以处理从扫描文档创建的PDF。 它分析PDF,将其分成小块,然后使用光学字符识别读取文本并将文本注入CSV文件。 在本文中阅读有关DocHive的更多信息。

Tabula与DocHive相似。 它旨在获取PDF中的表格信息并将其转换为CSV文件或Microsoft Excel电子表格。 您需要做的就是在PDF中找到一个表格,选择表格,然后让Tabula完成其余的工作。 快速高效。

清理数据

通常,您要获取的数据可能包含拼写和格式错误或字符编码问题。 这使得数据不一致且不可靠,并使得清理数据至关重要。

如果您的数据集很小(其中包含几百行信息),则可以使用LibreOffice Calc和您的眼睛进行清理。 但是,如果您有较大的数据集,则手动执行此工作将是一个漫长,缓慢且效率低下的过程。

相反,请转到OpenRefine 。 它使处理和清除数据的过程自动化。 OpenRefine可以对您的数据进行排序,自动查找重复的条目,并对数据进行重新排序。 OpenRefine的真正力量来自各个方面。 方面就像电子表格中的过滤器一样,可让您放大特定的数据行。 您可以使用构面来找出空白单元格并复制数据,以及查看某些值在数据中出现的频率。

OpenRefine可以做的还不止这些。 您可以通过浏览文档了解OpenRefine的功能。

可视化数据

拥有数据并用它编写故事是件好事。 尝试汇总,交流和理解数据时,基于该数据的良好图形可能会有所帮助。 这就解释了信息图表在网络和印刷中的流行。

您无需成为图形设计向导即可创建有效的可视化效果。 如果您的需求不太复杂, Data Wrapper可以创建有效的可视化。 它是一个在线工具,将创建可视化过程分为四个步骤:从电子表格复制数据,描述数据,选择所需的图像类型,然后生成图形。 使用Data Wrapper不会获得广泛的图像类型,但是这个过程再简单不过了。

显然,这并不是开源数据新闻工具的详尽列表。 但是,本文中讨论的工具为预算不高的新闻机构,甚至是无畏的自由职业者,提供了一个可靠的平台,可以使用数据生成故事创意并备份这些故事。

翻译自: https://opensource.com/life/14/7/6-open-source-tools-data-journalism

开源 数据查询 工具

开源 数据查询 工具_6个用于数据新闻的开源工具相关推荐

  1. 55种数据可视化开源工具_6种用于撰写书籍的开源工具

    55种数据可视化开源工具 我于1993年首次使用自由开源软件并为之做出了贡献,从那时起,我一直是开源软件开发人员和传播者. 我已经写了几十个开源软件项目或为之做出了贡献,尽管我将被铭记的是FreeDO ...

  2. 药用辅料数据查询网站系统-药品辅料数据

    药用辅料是指在制药过程中,用于增加药品稳定性.改善口感.提高吸收率等功效的辅助材料.药用辅料的种类繁多,不同的药品需要使用不同的辅料,因此对于药企来说,了解并选用适合自己的药用辅料显得尤为重要.本文将 ...

  3. knime 大数据_如何将KNIME用于数据科学

    knime 大数据 . KNIME(K是无声的,因此发音为nīm )是一个高度评价的数据分析平台,具有广泛的适用性,并且与其他产品(例如与数据库,语言,机器学习框架和深度学习框架)进行了许多集成. K ...

  4. spring可用于数据层吗_Spring XD用于数据提取

    spring可用于数据层吗 Spring XD是一个功能强大的工具,它是一组可安装的Spring Boot服务,可以独立运行,在YARN或EC2之上运行. Spring XD还包括一个管理UI网站和一 ...

  5. 比较两份数据的前后差异(用于数据调整前后对比)

    在预算服务系统中,各单位的预算费用在实际使用过程中,总会出现一些变更申请,需要调整预算费用.在预算费用调整后,预算管理人员都会希望看到各单位预算费用的初始情况和调整情况,简单直观地观察到哪些数据有变更 ...

  6. mac上编码转换工具_25个用于高效编码的Mac工具

    mac上编码转换工具 by freeCodeCamp 通过freeCodeCamp 25个用于高效编码的Mac工具 (25 Mac Tools for Productive Coding) 1.现代浏 ...

  7. php转换java工具_6款程序员必备的开源中文汉字拼音转换及处理工具 (PHP Java .net)...

    码云项目推荐 1.项目名称: 中文转拼音库 pinyin4j 项目简介:Pinyin4j 是一个流行的 Java 库,支持中文字符和拼音之间的转换.拼音输出格式可以定制. 2.项目名称:汉字/拼音转换 ...

  8. 03 mysql数据查询_MySql学习day03:数据表之间的连接、查询详解

    主键: 关键字:primary key 特点:不能为null,并且唯一. 主键分类: 逻辑主键:例如ID,不代表实际的业务意义,只是用来唯一标识一条记录(推荐) 业务主键:例如username,参与实 ...

  9. java数据查询_Java中的大量数据查询

    问题描述:在通常的三层构架下,客户通过Browser请求Web服务器查询数据库,而查询结果是上千条甚至是上百万条记录,要求查询 问题描述:在通常的三层构架下,客户通过Browser请求Web服务器查询 ...

最新文章

  1. 是男人就过8题!楼教主出题,请接招!
  2. Linus Torvalds:Linux背后的智者
  3. 读《程序员到底怎么了?-》
  4. RethinkDB是什么?—— 面向文档的NOSQL数据库,MVCC+Btree索引,pushes JSON to your apps in realtime采用push思路,优化的ssd存储...
  5. 关于Jquery的parent和parents
  6. android实用代码
  7. python读取文件数据堆栈溢出的原因_堆栈溢出一般是什么原因?
  8. 收藏 | 一文看完吴恩达最新演讲精髓,人工智能部署的三大挑战及解决方案
  9. 值得收藏的8个Web端组件库
  10. Java高级程序猿技术积累
  11. windows Service 之调试过程
  12. 苹果mac专业的图像后期处理软件:Lightroom Classic
  13. 易语言基于HTML(网页)开发软件界面UI的方法
  14. setoolkit制作钓鱼网站
  15. ollydbg使用心得
  16. 2022 最新微信ipad协议 62 16 扫码登录 wechatapi
  17. 5.JVM三大性能调优参数:-Xms -Xmx -Xss
  18. C++多继承中的二义性问题
  19. php充值代码,基于php的加油卡充值接口调用代码实例
  20. 英魂之刃后台用Java,《英魂之刃》系统操作说明

热门文章

  1. 打造个人专属的微型linux--启动原理篇
  2. [coursera] [design] Hangman
  3. saltstack2 grains模块
  4. Eclipse的使用总结
  5. iOS开发之--改变系统导航的颜色,字体,还有返回样式的自定义
  6. 分项:我从世界上最成功的人身上学到的10件事
  7. MIPS汇编实现冒泡排序法
  8. linux桥接设置静态,centos6.10 桥接模式下配置静态ip
  9. mysql 查询语句属性值_MySQL学习——SQL查询语句(一)
  10. MySQL------如何将SQLServer文件数据迁移到MySQL