世界很杂乱,来自现实世界的数据也一样杂乱。近来一份调查报告显示数据科学家60%的时间都花在整理数据上。不幸的是,57%的人认为这是工作中最头疼的一部分。

整理数据非常消耗时间,不过也有许多工具被开发出来让这关键的一步变得稍微可以忍受。Python 社区提供了许多库让数据变得清晰有序——从格式化 DataFrame 到匿名化数据集。

告诉我们你觉得有用的库——我们一直致力于优化放入Mode Python Notebooks中的库。

Dora

Dora是为探索性分析而设计的。特别是自动化分析中最痛苦的部分——比如特征选取和提取,可视化,还有你能猜到的——数据清洁。数据清洁相关的函数可以:

读取含有缺失数据和没有标准化的数据表

给缺失数据赋值

标准化变量

开发者:Nathan Epstein

更多资料:https://github.com/NathanEpstein/Dora

datacleaner

号外号外,datacleaner 清洗你的数据——不过只有在你的数据是 pandas DataFrame 实例的时候。开发者Randy Olson说:“datacleaner 不是魔法,它无法神奇的解析你没有结构的数据。”

它可以删除含有缺失数据的行,或者利用列的众数或中位数填充缺失数据,将非数值型变量转化为数值型变量。这个库很新,但考虑到DataFrame 是 Python 数据分析的基本数据结构,这个库还是值得试试看的。

开发者:Randy Olson

更多资料:https://github.com/rhiever/datacleaner

PrettyPandas

DataFrame 很强大,但是它们无法制作出你可以直接给你的老板看的表。PrettyPandas 利用了pandas 风格 API 将 DataFrame 转换成可以演示的表格。产生数据摘要,设置风格,调整数据格式,列和行。附加福利:强健,可读性高的使用文档。

开发者:Henry Hammond

更多资料:https://github.com/HHammond/PrettyPandas

tabulate

tabulate 可以让你仅仅用一个函数调用生成小型耐看的表格。非常适合于通过调整小数点列对齐,数据格式,表头和其他让表格可读性更高。

它有一个超酷的功能是可以让表格输出成不同的格式:HTML, PHP 或者 Markdown Extra,这样你可以用其他的工具或语言继续在使用你已经表格化的数据。

开发者: Sergey Astanin

更多资料:https://pypi.python.org/pypi/tabulate

scrubadub

健康领域和金融领域的数据科学家常需要匿名化数据集。scrubadub可以将 私人信息 (PII) 从文本从移除。例如:

姓名 (名词)

Email地址

网络链接

电话号码

用户名/密码组

Skype 用户名

社会保险号

文档很好的演示了通过哪些途径你可以自定义 scrubadub 的行为,例如定义新的 PII 或者保留特定的 PII。

开发者:Datascope Analytics

更多资料:http://scrubadub.readthedocs.io/en/stable/index.html

Arrow

让我们实话实说:在 Python 里处理日期和时间是很痛苦的。当地时区无法被自动识别。得用好几行不那么让人舒服的代码来转换时区和时间戳。

Arrow 旨于解决这个问题并且填补这个功能空白,从而让你可以用更少的代码和引入库来完成对日期和时间的操作。跟 Python 的标准时间库不同的是,Arrow 默认自动识别时区和 UTC。你可以只用一行代码来完成时区转换或者分析时间字符串。

开发者:Chris Smith

更多资料:http://arrow.readthedocs.io/en/latest/

Beautifier

Beautifier 的任务很简单:清洗 URL 和 Email 地址并让它们看起来更漂亮。你可以通过域名和用户名来解析 email ; 通过域名和参数来解析URL。(UTM 或者标记)

开发者:Sachin Philip Mathew

更多资料:https://github.com/sachinvettithanam/beautifier

ftfy

ftfy (fixes text for you) takes in bad Unicode outputs good Unicode. Basically, it fixes all the junk characters. “quotesâ€x9d becomes "quotes"; ü becomes ü; <3 becomes <3. If you work with text on a daily basis, this library is, as one user says, “a handy piece of magic.”

ftfy (fixes text for you)将杂乱的Unicode转化为可识别的Unicode。简单的说,它处理所有的垃圾字符。“quotesâ€x9d 变成 "quotes"; ü 变成 ü; <3 变成 <3.

开发者:Luminoso

更多资料:https://github.com/LuminosoInsight/python-ftfy

本条技术文章来源于互联网,如果无意侵犯您的权益请点击此处反馈版权投诉

python清洗数据用什么包_格式化和清洗数据的Python工具包相关推荐

  1. python scapy sniffer停止抓包_如果没有收到数据包,如何告诉scapy sniff()停止?

    Scapy中的sniff()函数有一个超时参数.您可以在几秒钟内提供超时. 您可以通过打印嗅探.__ doc__找到其他选项. rypeck@laptop:~$scapy >>> p ...

  2. python数据分析师工作内容_小白入行数据分析师3年-工作内容复盘分享含代码(一)-Python篇介绍...

    前言 个人作为互联网行业数据分析师工作已有3年之久,日常工作中碰到过问题,也在解决的问题过程中学到了很多.作为组内技术较为资深的组员,也经常在周会中安排环节给组内人员进行知识分享,以及日常帮助同事解决 ...

  3. python基础语法手册format-python基础_格式化输出(%用法和format用法)

    Python中应该使用%还是format来格式化字符串? Python新版本推荐使用format. Python2.6 新加入的format语法支持. 3.6加入了一个 f-strings新特性 1. ...

  4. python制作数据增长动图_请问一下这种数据动图是如何做出来的?

    用 Python 可以做这种数据动图,先上成果!如何用 Python 做数据动图https://www.zhihu.com/video/1075136852456951808 一般来说,这种视频都是用 ...

  5. server2008网卡驱动包_从网卡发送数据再谈TCP/IP协议—网络传输速度计算-网卡构造...

    在<在深谈TCP/IP三步握手&四步挥手原理及衍生问题-长文解剖IP>里面提到 单个TCP包每次打包1448字节的数据进行发送(以太网Ethernet最大的数据帧是1518字节,以 ...

  6. python 四维数据怎么看性别_四维b超数据怎么看性别

    每个准爸爸准妈妈都想知道孩子的健康状况,尤其是孩子的性别情况.很多父母对自己孩子的性别都有一个小期待,所以想通过各种渠道和方法了解自己孩子的性别.那么我们是不是可以通过四维b超数据来辨别孩子的性别呢? ...

  7. python运用在大数据中精准生活_《在大数据中“精准”生活》阅读答案

    <在大数据中"精准"生活>阅读答案 ①万物皆互联,无处不计算.因为互联网.手机.无线传感器的普及,实时监测.远程协作.SOHO工作.数据管理已成为平常之事,信息像水电一 ...

  8. python提取txt中指定内容_提取视频中的音频——python三行程序搞定!

    写在开头   身处数据爆炸增长的时代,各种各样的数据都飞速增长,视频数据也不例外.我们可以使用 python 来提取视频中的音频,而这仅仅需要安装一个体量很小的python包,然后执行三行程序!    ...

  9. python从视频中提取音频_提取视频中的音频——python三行程序搞定!

    原标题:提取视频中的音频--python三行程序搞定! 写在开头 身处数据爆炸增长的时代,各种各样的数据都飞速增长,视频数据也不例外.我们可以使用 python 来提取视频中的音频,而这仅仅需要安装一 ...

最新文章

  1. 人工手动冷备不完全恢复介绍(purge表不完全恢复)
  2. python学习day3
  3. 4.1ASP.NET Core请求过程「深入浅出ASP.NET Core系列」
  4. Spring Boot 2.0 热部署指南
  5. 崛起的中国服务器市场迎来旺盛的SPEC测试需求
  6. oracle扩展dblink数。
  7. sql性能优化之多表联查
  8. c语言中math的库函数,C语言中math.h库中的常用函数
  9. python3.0实例_python3.0 模拟用户登录,三次错误锁定的实例
  10. w7提示无法关闭计算机,win7关不了机怎么回事?老司机教你怎么解决电脑关不了机...
  11. linux module 目录,/sys/module/ 模块信息目录与/proc/modules文件
  12. [POJ1743]Musical Theme
  13. 汉明码---存储器校验(简单易懂详解)
  14. DC guide ---3
  15. 用python做计算器
  16. 申请办理美国亚马逊质量检验报告前,需准备什么资料?
  17. selenium提示geckodriver‘ execut解决办法
  18. Python做一份简易旅行攻略——疫情之后,若条件允许,可愿意用一场旅行“弥补”自己
  19. 如何用邮件客户端收发电子邮件,如何配置邮件客户端?
  20. 【Linux】排查进程、挖矿病毒查找

热门文章

  1. Spark - About trend of ERP topic - serie 2employee
  2. how to get context node reference CN0X from view controller reference
  3. SAP CRM HANA report filter的工作原理
  4. 小技巧:不用任何媒体处理软件进行视频压缩
  5. Netweaver和SAP云平台的quota管理
  6. Linux Ubuntu终端“@”前后的含义及修改(修改用户名及主机名)【试用办法,部分不可行】
  7. c语言用链表编写简单程序,C语言单链表简单实现(简单程序复杂化)
  8. visual studio可以开发app吗_个人能开发App软件吗?从想法到App开发完成,我只用了三天...
  9. 正则表达式匹配Python解法
  10. python学习-defaultdict