数据清洗工具 OpenRefine简介
OpenRefine简介
目前有三款免费的数据清洗工具:OpenRefine,Weka,Data Wrangler。下面主要介绍OpenRefine。
● OpenRefine前身是谷歌公司(Google) 开发的数据清洗工具GoogleRefine,
随后于2012年开放源代码,改为现在的OpenRefine
● 一款基于计算机浏览器的数据清洗软件
● 在数据清洗、数据探索以及数据转换方面非常有效的一个格式化工具
●它是一个开源的网络应用,可以在计算机中直接运行,这样可以避开上传指
定信息到外部服务器的问题
●它类似于传统Excel处理软件,但是工作方式更像是数据库,以列和字段的
方式工作,而不是以单元格的方式工作
●下载地址: http://openrefine.org/download.html
OpenRefine操作界面
OpenRefine数据清洗案例
OpenRefine运行
解压下载的文件后,直接打开.exe应用程序:
然后会出现以下命令行:
稍等片刻便会自动弹出默认浏览器显示OpenRefine,OpenRefine使用的是计算机的3333接口,所以如果没有自动弹出也没事,可以直接在浏览器输入127.0.0.1:3333,关掉OpenRefine可以使用Ctrl+C,也可以直接关闭浏览器。
下面从以下几个方面对OpenRefine进行介绍:
配置语言
可以点击Language Settings进行语言选择:选择简体中文
新建项目
新建项目:在OpenRefine中导入数据集
支持多种格式的数据文件,如:
TSV、CSV、 JSON、MS Excel文件(包括XLS和XLSX文件) 、logs. 开放文
档格式(Open Document Format,ODF)以及spreadsheets 、XML和资
源描述框架(Resource Description Framework, RDF)等
多种导入数据方式:
本地计算机:从本地选择文件导入
网址:直接从网上的数据源导入数据
剪贴板:直接将数据进行复制粘贴
Google Data:提供Google Spreadsheet或者Fusion Table接口
导入数据
点击新建项目,导入数据
数据展示
- 数据的总行数
- 显示选项
- 列名称:如Record ID
- 具体数据
导出项目
点击右上角“导出”,选择“导出项目”
撤销重做
进行多步操作之后,若要恢复到操作之前,可在撤销/重做中进行,蓝色选中部分就是要撤销的操作:
OpenRefine Expression Language(GREL)
●GREL语言为OpenRefine的内建语言
●可与正则表达式结合进行数据转换
●GREL两种基本的函数格式为:
functionName(arg0, arg1, …)
arg0.functionName(arg1, …)
字符串操作
●startsWith(string s, string sub):判断string s是否以string sub为起始字符串,
返回布尔类型
例如:startsWith( “food” ,“foo” )返回true
●endsWith(string S, string sub):判断string s是否以string sub为终止字符串,返回布尔类型
例如:endsWith( “food” ,“ood” )返回true
●contains(string s, string sub);判断string s是否包含string sub字符串,返回布尔类型
例如:contains( “food”,"oo” )返回true
●toLowercase(string s):将s转换为小写
●toUppercase(string s):将s转换为大写
●toTitlecase(string s):将s转换为每个词的首字母大写
例如:toTitlecase( “Once upon a midnight dreary” )返回Once Upon A Midnight Dreary
查找替换
●indexOf(string s, string sub):返回子字符串第- -次出现在s中的字符位置, 如果没有,返回-1
例如:indexOf(“internationalization”, “nation”) returns 5
●lastIndexOf(string s, string sub):返回子字符串最后一次出现在s中的字符位置,如果没有,返回-1
例如:lastlndexOf( “parallel” ,“a” )返回3
●replace(string s, string f, string r):返回将s中的f替换为r之后的字符串
例如:replace(“The cow jumps over the moon and moos”, “o0”, “ee”)返回The cow jumps over the meen and mees.
子字符串
●substring(s, number from, optional number to)返回起始位置为number from,终止位置为optional number to的子字符串,如果没有终止位置,直到字符串结束
例如:substring( “profound” , 3)返回found
substring( “profound” , 2, 4)返回of
声明:本博文内容为学习完数据酷客中的数据清洗课程后所总结,建议大家学习数据酷客上面的课程。
数据清洗工具 OpenRefine简介相关推荐
- 数据清洗工具OpenRefine
数据清洗工具OpenRefine 作者:chszs,转载需注明.博客主页:http://blog.csdn.net/chszs 数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此. 怎样 ...
- 河北省医疗卫生数据中心案例简介
河北省卫生厅是负责全省卫生工作的政府部门,辖区人口6000万,其职能是基于国家卫生工作大政方针,研究提出全省卫生事业发展规划和战略目标,制订全省卫生工作计划.地方规范和标准,开展行业监督管理和服务. ...
- BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略
BigData:大数据开发的简介.核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS.HBase.Hive}+Docker).经典场景应用之详细攻略 BigData:大数 ...
- DataScience:数据可视化的简介(意义+六大优势)、使用工具之详细攻略
DataScience:数据可视化的简介(意义+六大优势).使用工具之详细攻略 导读:源于人.机器和互联网本身的数据并不能为管理人员和其他决策者提供有价值的见解,必须整理.规范和进一步解释数据,然后进 ...
- SequoiaDB数据水平分区简介
1. 数据水平分区简介 在SequoiaDB中,默认情况下,表(集合)的数据只会存储在一个复制组中.这样,对该表的CRUD操作只会落到一个复制组中. 随着对表的IO请求上升/数据量的增加,就会造成性能 ...
- 大数据与Hadoop有什么关系?大数据Hadoop入门简介
学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...
- 橙子01-大数据基础入门简介
橙子01-大数据基础入门简介 大数据的概念 volume variety velocity value 大数据技术 大数据处理的基本流程 云计算的三个关键技术 大数据的应用 相关视频内容可在b站观看大 ...
- 宜人贷PaaS 数据服务平台简介(上篇)
一.数据平台的发展简介 随着数据时代的到来,数据量和数据复杂度的增加推动了数据工程领域的快速发展.为了满足各类数据获取/计算等需求,业内涌现出了诸多解决方案.但大部分方案都遵循以下原则: 降低数据处理 ...
- 云计算和大数据课程开课简介
云计算和大数据课程开课简介 前言:小编今年还是大学的学生,这一学期学校开了有关于云计算.大数据.以及大数据仓库方面的课程,写这一系列的博客真正的意义并不在于说小编有学的多好(小编从小就是一个学渣), ...
- bigemap瓦片数据MBTiles存储简介
瓦片数据MBTiles存储简介 发布时间:2018-01-17 版权: 地图制作者面对一个数以百万计的地图瓦片残酷的现实:大多数文件系统和传输协议对处理数以百万计的图像不是很有效,在磁盘为FAT32格 ...
最新文章
- Hibernate——简单的增、删、改、查操作
- fileinputstream java_Java FileInputStream close()方法
- Eclipse导入项目后中文乱码
- 白话经典算法系列之中的一个 冒泡排序的三种实现
- lm opencv 算法_相机模型与标定(七)--LM算法在相机标定中的使用
- git相关常用基本用法命令及分支操作指南命令
- Transmission 下载列表、下载文件 迁移机器指南
- android极光推送回调方法,Flutter在Android中实现极光推送以及指定设备推送
- 推流是什么,直播为什么要推流
- 【项目】磁盘文件管理工具
- 东田纳西州立大学计算机排名,东田纳西州立大学世界排名
- 蓝光播放器中应用的触摸芯片
- 电池pack结构_电池PACK是什么?锂电池包PACK结构设计需要考虑哪些因素?
- 浏览器代理服务的另一选择——pac配置
- Nextjs 不完全入坑指南
- 一菜鸟写的家庭理财软件的一些需求
- sql文字转换全拼_sql汉字转拼音
- 回文数,给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。
- Python爬虫爬取疫情数据并可视化展示
- 计算机打字速度慢的体会,面对笔记本电脑打字反应慢的六大原因应如何解决?...