用 Python 处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的。

今天我给大家分享6个好玩高效的操作,帮助大家提高效率。喜欢记得收藏、关注、点赞。

一、Pandas Profiling

Pandas Profiling提供数据的一个整体报告,是一个帮助我们理解数据的过程。它可以简单快速地对Pandas的数据框数据进行探索性数据分析。

其实,Pandasdf.describe()df.info()函数也可以实现数据探索过程第一步。但它们只提供了对数据非常基本的概述。而Pandas中的Profiling功能简单通过一行代码就能显示大量信息,同时还能生成交互式HTML报告。

对于给定的数据集,Pandas中的profiling包计算了以下统计信息:

Pandas Profiling包计算出的统计信息包括直方图、众数、相关系数、分位数、描述统计量、其他信息包括类型、单一变量值、缺失值等。

安装

pipconda即可,使用方法很简单,如下:

df = pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df)

用法

以titanic数据集来演示profiling的功能。

df = pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df)

除了导入库之外只需要一行代码,就能显示数据报告的详细信息,包括必要的图表。

还可以使用以下代码将报告导出到交互式HTML文件中。

profile = pandas_profiling.ProfileReport(df)profile.to_file(outputfile="Titanic data profiling.html")

二、pretty print

pprint是Python中的内置模块。它能够以格式清晰,可读性强漂亮格式打印任意数据结构。一个例子对比下printpprint

my_dict = {'Student_ID': 34,'Student_name' : 'Tom', 'Student_class' : 5,'Student_marks' : {'maths' : 92,'science' : 95,'social_science' : 65,'English' : 88}

print

{'Student_ID': 34, 'Student_name': 'Tom', 'Student_class': 5, 'Student_marks': {'maths': 92, 'science': 95, 'social_science': 65, 'English': 88}}

pprint

 'Student_marks': {'English': 88,'maths': 92,'science': 95,'social_science': 65},

可以清楚看到pprint的优势之处,数据结构一目了然啊。

三、Python Debugger

交互式调试器也是一个神奇的函数,如果在运行代码单元格时出现报错,可以在新行中键入%debug运行它。这将打开一个交互式调试环境,自动转到报错发生的位置,并且还可以检查程序中分配的变量值并执行操作。要退出调试器,按q。比如下面这个例子。

大家应该能看出x+y肯定会报错,因为二者不是一个类型,无法进行运算操作。然后我们敲入%debug

这时会出现对话框让我们互交式输入命令,比如我们可以像下面这样做。

四、Cufflinks

这个在之前也介绍过,对于数据探索的可视化分析超级好用,低代码量便可生成漂亮的可视化图形。下面举一个例子:

cufflinksplotly的基础上做了一进一步的包装,方法统一,参数配置简单。其次它还可以结合pandasdataframe随意灵活地画图。可以把它形容为"pandas like visualization"。

比如下面的lins线图

cf.set_config_file(offline=True)cf.datagen.lines(1,500).ta_plot(study='sma',periods=[13,21,55])

再比如box箱型图

cf.datagen.box(20).iplot(kind='box',legend=False)

看着这动态图就爱不释手啊,有木有!

五、Pyforest

这是一个能让你偷懒的import神器,可以提前在配置文件里写好要导入的三方库,这样每次编辑脚本的时候就省去了开头的一大堆import 各种库,对于有常用和固定使用库的朋友来说无疑也是提高效率的工具之一。

pyforest支持大部分流行的数据科学库,比如pandasnumpymatplotlibseabornsklearntensorflow等等,以及常用的辅助库如ossysrepickle等。

此用法对于自己频繁调试很方便,但对于那些频繁跨环境比如和其它人共享脚本调试的时候就不是很好用了,因为别人不一定使用它。

六、notebook的笔记高亮

此方法仅适用于Jupyter notebook中,当我们想高亮笔记,让笔记变得美观的时候,这个方法非常的香。

笔记的高亮的颜色根据不同情况分为几种,前端的同学一看就明白,区别就是每种颜色代码的class类型不一样,其它只要在div标签中写内容就好。下面看下用法。

蓝色代表info

<div class="alert alert-block alert-info"><b>Tip:</b> Use blue boxes (alert-info) for tips and notes. If it’s a note, you don’t have to include the word “Note”.

黄色代表warning

<div class="alert alert-block alert-warning"><b>Example:</b> Yellow Boxes are generally used to include additional examples or mathematical formulas.

绿色代表success

<div class="alert alert-block alert-success">Use green box only when necessary like to display links to related content.

红色代表danger

<div class="alert alert-block alert-danger">It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc.

这里有个小提示提示下,如果你直接复制到jupyter notebook中可能会报错,因为默认是代码的格式,所以你需要选中单元格按Esc变成可切换模式,然后再按Y切换成文本模式。这时候再运行shift+ok就ok了。看下面这个例子。

欢迎老铁们多多分享和点个在看!

推荐文章

  • 李宏毅《机器学习》国语课程(2022)来了

  • 有人把吴恩达老师的机器学习和深度学习做成了中文版

  • 上瘾了,最近又给公司撸了一个可视化大屏(附源码)

  • 如此优雅,4款 Python 自动数据分析神器真香啊

  • 梳理半月有余,精心准备了17张知识思维导图,这次要讲清统计学

  • 年终汇总:20份可视化大屏模板,直接套用真香(文末附源码)

真香啊,推荐 6 个 Python 数据分析神器相关推荐

  1. 真香!安利 6 个 Python 数据分析神器

    Python数据挖掘与文本分析&Stata应用能力提升与实证前沿云特训 Python部分明天(6月29日-7月2日)开始上课,感兴趣的童鞋抓紧哦 用Python处理数据大家都不陌生了,属常规操 ...

  2. python 数据分析教程推荐_太香了!墙裂推荐6个Python数据分析神器!!

    作者:东哥起飞,数据爱好者 Python数据科学 hello,大家好我是东哥! 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大 ...

  3. 【Python基础】太香了!推荐6个Python数据分析神器!!

    作者:东哥起飞 出品:Python数据科学 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas Prof ...

  4. python数据分析神器_太香了!墙裂推荐6个Python数据分析神器!!

    hello,大家好我是东哥! 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas Profiling ...

  5. python快速入门神器 知乎_太香了!墙裂推荐6个Python数据分析神器!!

    hello,大家好我是东哥! 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas Profiling ...

  6. 太香了!推荐6个Python数据分析神器!!

    作者:东哥起飞 出品:Python数据科学 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas Pr ...

  7. 太香了!墙裂推荐 6 个Python数据分析神器!!

    作者:东哥起飞,数据爱好者 Python数据科学 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas ...

  8. venue 11 pro linux,平板垃圾佬 篇十一:【个人叨叨向】目前阶段的笔记本选择趋势和大众真香型号推荐...

    平板垃圾佬 篇十一:[个人叨叨向]目前阶段的笔记本选择趋势和大众真香型号推荐 2020-01-27 14:48:46 112点赞 446收藏 107评论 创作立场声明:捡垃圾一直爽,一直捡垃圾一直爽. ...

  9. 认认真真推荐几个Python数据分析公众号

    互联网大厂裁员,哀嚎遍野.  焦虑的本质是对自己专业的不自信,   对抗焦虑最好的办法:学习!学习!学习! 小编给大家推荐几个优质的公众号 他们都是数据领域的资深作者 每一篇推文都值得你点开 点击蓝色 ...

最新文章

  1. ansa打开catia文件_关于CATIA文件格式的那些事儿
  2. Oracle查询慢的原因总结
  3. 数据库ORA-00600 [15160]处理
  4. python操作文件和目录_python文件和目录操作方法
  5. 网页版消消乐快速实现,无代码吗iVX 真那么简单?
  6. Oracle入门(十四B)之PL/SQL异常处理
  7. 如何使一维数组一行一行的输出成二维数组的格式
  8. Mysql JOIN连接算法
  9. 学习逆向知识之用于游戏外挂的实现.第二讲,快速寻找植物大战僵尸阳光基址.以及动态基址跟静态基址的区别...
  10. 鲲鹏开发者技术峰会·福州圆满落幕!
  11. Excel 培训笔记
  12. cloud2声卡_【箴言】带你解惑HyperX Cloud2(飓风)和Alpha(阿尔法)的终极选择
  13. Alphago再下一城,人机大战能告诉我们什么?
  14. 特征值、特征根、本征值
  15. java中符号常量_Java中符号常量
  16. C#【文件操作篇】PDF文件和图片互相转换
  17. 转载:全志问题解决方法
  18. 海贼王热血航线正在连接服务器,海贼王热血航线为什么连接不了服务器?老是说人已满进不去?...
  19. EndNote X9使用教程
  20. 20155317 2016-2017-2 蓝墨云班课考题第2周

热门文章

  1. 调用浏览器下载图片 java实现
  2. Docker基础(下)
  3. 实例:用C#.NET手把手教你做微信公众号开发(20)--使用微信支付线上收款:jsapi方式
  4. git报错 git libpng warning: iCCP以及fatal: Authentication failed for ‘https://git.weixin.qq.com‘
  5. 计算机cmd如何设置路由,Windows 系统cmd设置添加静态路由方式
  6. w ndows 10关机,Win10设置定时开关机休眠唤醒的方法
  7. 一款png生成webp,gif, apng,同时支持webp,gif, apng转化的工具iSparta
  8. 中国区GPS偏移纠正(适用于Google地图)
  9. AppInventor 模拟器与AI伴侣 问题
  10. Java项目:流浪猫狗救助管理系统(java+SSM+JSP+bootstrap+jQuery+mysql)