Python数据挖掘与文本分析&Stata应用能力提升与实证前沿云特训

Python部分明天(6月29日-7月2日)开始上课,感兴趣的童鞋抓紧哦


用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的。

本篇分享6个好玩高效的操作,帮助大家提高效率。

一、Pandas Profiling

Pandas Profiling提供数据的一个整体报告,是一个帮助我们理解数据的过程。它可以简单快速地对Pandas的数据框数据进行探索性数据分析。

其实,Pandasdf.describe()df.info()函数也可以实现数据探索过程第一步。但它们只提供了对数据非常基本的概述。而Pandas中的Profiling功能简单通过一行代码就能显示大量信息,同时还能生成交互式HTML报告。

对于给定的数据集,Pandas中的profiling包计算了以下统计信息:

Pandas Profiling包计算出的统计信息包括直方图、众数、相关系数、分位数、描述统计量、其他信息包括类型、单一变量值、缺失值等。

安装

pipconda即可,使用方法很简单,如下:

import pandas as pd
import pandas_profiling
df = pd.read_csv('titanic/train.csv')
pandas_profiling.ProfileReport(df)

用法

以titanic数据集来演示profiling的功能。

import pandas as pd
import pandas_profiling
df = pd.read_csv('titanic/train.csv')
pandas_profiling.ProfileReport(df)

除了导入库之外只需要一行代码,就能显示数据报告的详细信息,包括必要的图表。

还可以使用以下代码将报告导出到交互式HTML文件中。

profile = pandas_profiling.ProfileReport(df)
profile.to_file(outputfile="Titanic data profiling.html")

二、pretty print

pprint是Python中的内置模块。它能够以格式清晰,可读性强漂亮格式打印任意数据结构。一个例子对比下printpprint

# 定义个字典,测试用
my_dict = {'Student_ID': 34,'Student_name' : 'Tom', 'Student_class' : 5,'Student_marks' : {'maths' : 92,'science' : 95,'social_science' : 65,'English' : 88}}

print

# 正常的print
print(my_dict)
# 输出结果如下:
{'Student_ID': 34, 'Student_name': 'Tom', 'Student_class': 5, 'Student_marks': {'maths': 92, 'science': 95, 'social_science': 65, 'English': 88}}

pprint

# 使用pprint输出
import pprint
pprint.pprint(my_dict)
# 输出结果如下:
{'Student_ID': 34,'Student_class': 5,'Student_marks': {'English': 88,'maths': 92,'science': 95,'social_science': 65},'Student_name': 'Tom'}

可以清楚看到pprint的优势之处,数据结构一目了然啊。

三、Python Debugger

交互式调试器也是一个神奇的函数,如果在运行代码单元格时出现报错,可以在新行中键入%debug运行它。这将打开一个交互式调试环境,自动转到报错发生的位置,并且还可以检查程序中分配的变量值并执行操作。要退出调试器,按q。比如下面这个例子。

x = [1,2,3]
y = 2
z = 5result = y+z
print(result)
result2 = x+y
print(result2)

大家应该能看出x+y肯定会报错,因为二者不是一个类型,无法进行运算操作。然后我们敲入%debug

%debug

这时会出现对话框让我们互交式输入命令,比如我们可以像下面这样做。

四、Cufflinks

这个在之前也介绍过,对于数据探索的可视化分析超级好用,低代码量便可生成漂亮的可视化图形。下面举一个例子:

cufflinksplotly的基础上做了一进一步的包装,方法统一,参数配置简单。其次它还可以结合pandasdataframe随意灵活地画图。可以把它形容为"pandas like visualization"。

比如下面的lins线图

import pandas as pd
import cufflinks as cf
import numpy as npcf.set_config_file(offline=True)
cf.datagen.lines(1,500).ta_plot(study='sma',periods=[13,21,55])

再比如box箱型图

cf.datagen.box(20).iplot(kind='box',legend=False)

看着这动态图就爱不释手啊,有木有!

五、Pyforest

这是一个能让你偷懒的import神器,可以提前在配置文件里写好要导入的三方库,这样每次编辑脚本的时候就省去了开头的一大堆import 各种库,对于有常用和固定使用库的朋友来说无疑也是提高效率的工具之一。

pyforest支持大部分流行的数据科学库,比如pandasnumpymatplotlibseabornsklearntensorflow等等,以及常用的辅助库如ossysrepickle等。

此用法对于自己频繁调试很方便,但对于那些频繁跨环境比如和其它人共享脚本调试的时候就不是很好用了,因为别人不一定使用它。

此库在之前也详细介绍过 牛逼!这个Python库竟然可以偷懒,和import说再见!看下面这个操作就明白了。

六、notebook的笔记高亮

此方法仅适用于Jupyter notebook中,当我们想高亮笔记,让笔记变得美观的时候,这个方法非常的香。

笔记的高亮的颜色根据不同情况分为几种,前端的同学一看就明白,区别就是每种颜色代码的class类型不一样,其它只要在div标签中写内容就好。下面看下用法。

蓝色代表info

<div class="alert alert-block alert-info">
<b>Tip:</b> Use blue boxes (alert-info) for tips and notes.
If it’s a note, you don’t have to include the word “Note”.
</div>

黄色代表warning

<div class="alert alert-block alert-warning">
<b>Example:</b> Yellow Boxes are generally used to include additional examples or mathematical formulas.
</div>

绿色代表success

<div class="alert alert-block alert-success">
Use green box only when necessary like to display links to related content.
</div>

红色代表danger

<div class="alert alert-block alert-danger">
It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc.
</div>

这里有个小提示提示下,如果你直接复制到jupyter notebook中可能会报错,因为默认是代码的格式,所以你需要选中单元格按Esc变成可切换模式,然后再按Y切换成文本模式。这时候再运行shift+ok就ok了。看下面这个例子。

欢迎老铁们多多分享和点个在看!

往期文章Python语法快速入门
Python网络爬虫与文本数据分析
读完本文你就了解什么是文本分析综述:文本分析在市场营销研究中的应用
R语言dplyr包实操小案例: Pandas的apply方法从记者的Twitter关注看他们稿件的党派倾向?Pandas时间序列数据操作
70G上市公司定期报告数据集
文本数据清洗之正则表达式
shreport库: 批量下载上海证券交易所上市公司年报
Numpy和Pandas性能改善的方法和技巧
漂亮~pandas可以无缝衔接Bokeh
YelpDaset: 酒店管理类数据集10+G
半个小时学会Markdown标记语法

真香!安利 6 个 Python 数据分析神器相关推荐

  1. python 数据分析教程推荐_太香了!墙裂推荐6个Python数据分析神器!!

    作者:东哥起飞,数据爱好者 Python数据科学 hello,大家好我是东哥! 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大 ...

  2. 真香啊,推荐 6 个 Python 数据分析神器

    用 Python 处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的. 今天我给大家分享6个好玩高效的操作,帮助大家提高效率.喜欢记得收藏.关注.点赞. 一.Pandas Profil ...

  3. 2000字精华总结,安利一个超好用的 Python 数据分析神器

    大家好,今天我来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省工作时间与提升工作效率的利器. 这款神器就是 Bamboolib,可以将其理解为Pandas的 ...

  4. 真香 用这七大Python效率工具

    原文链接:http://dwz-9.cn/1mhV_ 为了提高效率,我们在平时工作中常会用到一些Python的效率工具,Python作为比较老的编程语言,它可以实现日常工作的各种自动化.为了更便利的开 ...

  5. 【Python基础】太香了!推荐6个Python数据分析神器!!

    作者:东哥起飞 出品:Python数据科学 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas Prof ...

  6. python数据分析神器_太香了!墙裂推荐6个Python数据分析神器!!

    hello,大家好我是东哥! 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas Profiling ...

  7. python快速入门神器 知乎_太香了!墙裂推荐6个Python数据分析神器!!

    hello,大家好我是东哥! 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas Profiling ...

  8. python数据分析六个环节_安利6个珍藏的Python数据分析神器

    作者:东哥起飞 出品:Python数据科学 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas Pr ...

  9. 太香了!推荐6个Python数据分析神器!!

    作者:东哥起飞 出品:Python数据科学 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas Pr ...

最新文章

  1. php,cgi,nginx关系
  2. WP8中 ListBox x下拉刷新 以及 ScrollViewer/ListBox 的ManipulationCompleted 失效的解决方案
  3. Idea解决Web server failed to start. Port 8080 was already in use.端口被占用(亲测)
  4. 目标检测——如何让模型过拟合
  5. 109.虚函数与析构构造
  6. 一些常见的代码异味及解决之道
  7. 【284天】每日项目总结系列022(2017.11.16)
  8. 第四周 特殊应用:人脸识别和神经风格转换(Special applications: Face recognition Neural style transfer)
  9. c语言写马达驱动程序,如何用单片机驱动马达
  10. 2021-2027全球与中国汽车传动轴联轴器市场现状及未来发展趋势
  11. 阿里云Centos6数据盘扩容的问题处理
  12. suse linux 光盘安装教程,suse11一键安装光盘制作
  13. 使用Acrobat剪切pdf文件中矢量图
  14. 同花顺抓起涨做波段指标公式 副图 源码
  15. 将swolidwroks文件导出URDF,导入v-rep\CoppeliaSim
  16. WINCE6.0下载地址
  17. 小旋风asp iis_ASP 4-绕.NET 4(和Visual Studio 2010)Beta 1的旋风之旅
  18. 企业信息安全不能大意,不提早防范容易中招——推荐导入ISO27001系列标准
  19. Stm32 学习笔记(1)我所使用的板子
  20. C++11新特性总结

热门文章

  1. 技术风向标 | 云原生技术架构成熟度模型解读
  2. #ifndef #defin #endif的用法
  3. luminati代理如何在Hubstudio中使用?
  4. 阿里云服务器与本地不能复制粘贴
  5. 集成电路只有丝印如何识别引脚顺序
  6. 航芯技术分享 | 一文读懂什么是量子密码
  7. Titanic 预测问题
  8. WHQL认证和代码签名
  9. CentOS7 常用命令大全
  10. Java实现单次转账到支付宝账户(新版接口)(SpringBoot)