我喜欢寻找可以帮助我创建见解的新数据产品。为了方便使用和提高速度,我混合使用了代码和无代码工具。当我从事个人项目或自由合同时,我专注于低成本的工具。过去一周,我正在审查“数据质量解决方案”的2020 Gartner魔力象限,我发现talend提供了免费的开源无代码数据准备工具。大多数公司专注于其企业产品,这些产品通常价格昂贵,超出了自由数据分析师和数据科学家的预算。我对找到免费的工具感到兴奋不已,并下载了该版本进行测试。现在我想与您分享这个“隐藏”的宝石。

本文来自《数据黑客》,登录官网可精彩资讯和文章。

安装

有几种免费的开源工具选项

这里有一个非常不错的《入门指南》,它将带您完成不同的安装选项。

该工具启动后,会在本地启动,这意味着该界面由您自己的计算机通过默认浏览器托管。对于我的计算机: http://127.0.0.1:9090/#/home/preparations/Lw==

加载数据

我使用了几个数据集来测试该工具。在这个教程中我会使用NY open crash数据集。

添加新的数据集非常简单,您唯一的选择是加载本地文件。

加载数据集后,该工具会自动开始分析数据。您可以逐列查看数据配置文件。

功能

该工具提供了几个核心函数来操纵列(字段),这心函数允许清洗和转换数据类型,我罗列了一些有趣的内容:

  • 列:串联,删除列,交换列
  • 转换:转换距离,转换持续时间, 转换温度
  • 数据清理:清除匹配值
  • 数据清理:清除无效值的单元格
  • 数据清理:删除匹配的行
  • 数据清理:删除具有空/无效单元格,负值的行
  • 数据清理:填充单元格
  • 数据清理:从上方填充空白单元格,在文本中填充空白单元格
  • 数据清理:用值填充无效的单元格
  • 数据清理:标准化值(模糊匹配)
  • 数据屏蔽:屏蔽数据(混淆)
  • 日期:计算自此以来的时间,计算迄今为止的时间戳
  • 日期:更改日期格式,转换日期,修改日期,转换日期
  • 日期:提取日期部分
  • 数学:加,乘,减,除,以10为底的对数,绝对值,指数,最大,最小,模,自然对数,求反,幂,正弦,平方根,正切
  • 数字:比较数字,格式化数字
  • 数字:生成序列
  • 数字:去除小数部分
  • 数字:删除负值
  • 数字:使用ceil,down,floor,half-up模式的取整
  • 电话:格式化电话号码
  • 拆分:提取电子邮件部分,提取编号,提取字符串部分,提取URL部分
  • 拆分:将文本拆分为多个部分
  • 字符串:计算长度,更改为小写/标题/大写,包含文本
  • 字符串:提取部分文本
  • 字符串:匹配相似的文本,匹配模式
  • 字符串:删除连续字符,删除部分文本,删除培训/前导字符,搜索和替换
  • 高级字符串:添加额外的字符,
  • 高级字符串:查找和分组相似的文本
  • 高级字符串:删除非字母数字字符
  • 高级字符串:简化文本(删除大小写,重音等)

函数:提取日期部分

虽然提取数据看起来很无聊,但是有可能获得意外的见解。例如,提取日期部分后,我立即问为什么这个季度突然出现更多的事故?

函数: 标准化值(模糊匹配)

让我们尝试标准化事件描述符字段,看看会发生什么。

没有任何反应,数据太干净了,典型数据点可能没有错别字。

函数: 查找和分组相似文本

有趣的是,使用组相似文本功能,它仅列出要分组的那些行,而不是所有行。

另外,选择相互冲突的分组也没有按预期进行。

我在处理过程中遇到了一些用户错误,但是由于大多数阅读本文的人都是新用户,因此在运行转换后验证数据至关重要。不要假设它们一定会起作用。

我希望它能够直接创建新列,而不是覆盖原始列,这将有助于审核和验证。

数据准备

定义完所有转换步骤后,最后一步是"准备数据"。

单击准备,将带您返回到数据准备编辑屏幕。

导出数据

该工具支持三种数据导出的格式,其中包括Tableau文件选项,相当不错!

结论

如果您不熟悉数据准备,并且想查看无代码的解决方案,talend可以作为一个很好的起点,它直接在本地环境运行,免费且高效。

一旦数据集变大或需要更多功能,可以升级到类似AWS DataBrew的产品。DataBrew价格合理,并且内置了很多数据科学函数,这将是您旅程中的下一步。

来源:Medium
作者:Dawn Moyer
翻译校对:数据黑客
原文标题:talend — Free Data Preparation Tool Walk-Thru

数据黑客:专注金融大数据,聚合全网最好的资讯和教程,提供开源数据接口。

我们聚合全网最优秀的资讯和教程:

  1. 金融大数据
  2. 机器学习/深度学习
  3. 量化交易
  4. 数据工程
  5. 编程语言,Python,R,Julia,Scala,SQL

我们提供开源数据接口:

  1. 下载国内和国外海量金融数据
  2. API接口,将数据整合到您的平台

免费的数据准备工具:talend相关推荐

  1. 11个免费的数据可视化工具推荐

    数据可视化之所以流行,不仅是因为它简化了我们查看复杂数据的方式,更是因为数据可视化可以加快我们获取数据信息的速度. 本文专门为您列出了11个免费的数据可视化工具,帮助您快速掌握数据可视化技能. 1.即 ...

  2. 免费AI数据标注工具-音频标注软件

    最近疫情比较严重,大家有没有发现有一个AI应用有点起死回生的感觉了,当然不是图片识别的应用场景了,例如口罩识别.无接触体温检测等等已经火爆的一塌糊涂了,如果有对口罩遮挡识别的小伙伴可以看我的另一篇文章 ...

  3. mt4交易系统源码_mt4周边:一款免费的数据下载工具

    我们在使用ea 回测的时候,如果使用自带的数据回测,因为数据质量问题,无法回测出ea的实际盈亏能力.这时就需要一个高质量的数据来回测,而自带的数据往往不能满足这一点 我今天要介绍的是一款ticksto ...

  4. 主流的数据可视化工具介绍

    作为一个自诩对全球分析平台了如执掌的资深数据从业人员,给各位分享分享主流的数据可视化工具. 一.可视化平台 1.FineBI 虽作一个BI工具,但是可视化效果很好,可制作Dashboard.优势在于一 ...

  5. 2020年十个强大的数据建模工具

    数据科学可以使企业处理大量信息,并获得曾经花费大量时间才计算出来的宝贵数据.如果企业处理大量数据,那么可以采用数据建模工具为其业务或开发新数据库的任务创建整体IT策略. 数据科学可以使企业处理大量信息 ...

  6. 深度学习数据标注工具

    2020.12.7 更新 免费AI数据标注工具合集-图片标注 免费AI数据标注工具-音频标注软件 免费AI标注工具-人体关键点工具 免费AI标注工具-医疗影像标注工具 常用的目标检测工具有很多,但是图 ...

  7. 会玩这18个免费的探索性数据分析工具,你才是数据分析家!

    每个人都有各自的天赋,发现它们并开始相信我们自己只是时间的问题.我们都有局限,但是我们应该止步不前吗?答案是不. 当我开始用R编程的时候,我很纠结.有时候不止一个人曾经这么想过.因为我在这一生中从未编 ...

  8. 像git一样使用AI数据集!免费数据托管工具上线,让模型用「活」的数据集训练...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 搞机器学习的人,很多都饱受数据管理的折磨. 要么是数据集老旧,需要手工修订标注. 要么是同一个数据集有很多被别人调整过的版本,无从下手. ...

  9. 【Talend、Informatica、Dataiku都是常用的数据治理工具,它们各有哪些特点和优势?】

    Talend.Informatica.Dataiku都是常用的数据治理工具,它们各有特点和优势. Talend Talend是一个开源的数据集成和数据治理工具,具有以下特点: Talend支持多种数据 ...

最新文章

  1. 数据结构:二分查找 java
  2. Navicat 12连接PostgreSQL11.3数据库服务器
  3. blender 导出 obj 格式,3dsmax 导入3ds max obj 格式数据
  4. boost中的shared_ptr的一些理解
  5. 如何做SEO项目管理?
  6. 大气波导计算MATLAB,基于抛物方程的大气波导环境下电波传播的研究rbedacv8.ppt
  7. php_mvc实现步骤五
  8. java Trie实现英文单词查找树 搜索自动提示
  9. 【opencv】通过摄像头进行实时边缘检测
  10. [Linux网络编程]ARP简单实例
  11. seafile私有网盘搭建
  12. Zookeeper知识
  13. springboot 请求路径有后缀_SpringBoot中配置Web静态资源路径的方法
  14. linux 网络编程 ------------TCP多进程并发服务器
  15. 开博客了,大家好,这是ATHENS的博客。
  16. 微信小程序调试过程中页面加载不出来
  17. angular中自定义组件实现双向绑定
  18. 百利网总结:网店如何推广
  19. python爬取MOOC课程信息
  20. 当GCN遇见NLP(三) Tensor Graph Convolutional Networks for Text Classification,AAAI2020

热门文章

  1. oracle synonym 表结构,ORACLE SYNONYM详解
  2. 阿里云服务器提示被用来挖矿
  3. AMI主板设置上电自启
  4. 思科华为路由器如何利用route-map配置双wan口策略路由
  5. 谷歌浏览器无插件保存网页为长图
  6. IDEA教程之Gitee插件(码云)
  7. Android NDK Address Sanitizer
  8. 笔记_Maya动画中功能___摄像机____围绕主体旋转
  9. 嵌入式AI在linux芯片平台上的部署方案,选型。
  10. 微信小程序客服端实现拨号功能