目录

介绍

在Python中比较可视化库

Seaborn可视化类型

创建一个条形图

创建Seaborn折线图

评论


有了我们的数据集之后,我们将快速查看可以使用流行的Python库从数据集轻松创建可视化,然后逐步介绍一个可视化示例。

  • 下载CSV和数据库文件-127.8 KB
  • 下载源代码122.4 KB

介绍

本文是使用PythonPandas进行数据清洗系列的一部分。它旨在利用数据科学工具和技术来使开发人员快速启动并运行。

如果您想查看本系列的其他文章,可以在这里找到它们:

  • 第1部分-介绍Jupyter和Pandas
  • 第2部分-将CSV和SQL数据加载到Pandas中
  • 第3部分-纠正Pandas中的缺失数据
  • 第4部分-合并Pandas中的多个数据集
  • 第5部分-清理Pandas DataFrame中的数据
  • 第6部分-重塑Pandas DataFrame中的数据
  • 第7部分-使用Seaborn和Pandas进行数据可视化

现在,我们的数据似乎很干净了,并且有几种不同的潜在视图,我们可以探索可视化选项。可视化是数据清理过程中的最后一个重要步骤,因为它提供了确保数据集有意义的好方法。

请注意,我们已经使用该系列模块的源数据文件创建了完整的Jupyter Notebook,您可以在本地下载和安装。

在Python中比较可视化库

有许多Python库可用于可视化数据集。流行的包括Matplotlib,Seaborn,ggplt和Plotly。我们当前使用的库Pandas也具有自己的可视化功能。

那么,您如何选择以及需要什么呢?好吧,这很大程度上取决于您的要求以及您对可视化和Python的舒适程度。

  • Matplotlib可能是使用最广泛的库,因为它是最早的可视化库之一,并且功能非常强大。但是,它很复杂,并且在可视化呈现方式中它的年代很明显。
  • ggplot是一种绘图系统,从R编程语言移植而来,用于统计和数据挖掘。与Matplotlib相比,ggplot使创建可视化变得更加简单,并且非常擅长分层图。
  • Plotly在创建动态和交互式可视化方面表现出色,非常类似于同名的在线平台。
  • Seaborn建立在Matplotlib之上,并利用该库的功能,同时简化了制作图表的过程。它还具有许多非常令人愉悦的默认样式,这使从Python数据科学开始的人们更容易创建漂亮的东西。

在我们的案例中,我们将展示一些Seaborn可视化数据集。

Seaborn可视化类型

在数据集之上构建可视化文件时,可以选择多种样式。有时,最简单的选项可提供最佳结果,但某些可视化文件适合不同的数据集。

以下是一些更常见的可视化示例:

  1. 条形图 ——数据的最常见可视化是条形图。当您想拥有不同数据元素的比较视图时,此图表最有用。例如,在条形图中,您可以很容易地看到最大值,最小值或一个或多个值之间的差异。
  2. 面积图 ——面积图看上去与条形图相似,但是对于显示值的增加和减少更为有用。
  3. 折线图 ——折线图通常用于表示一些随时间变化的观测值,例如趋势分析,尤其是当这些随时间变化小的情况时。
  4. 箱形图 ——有时您的数据集不是由简单值组成。箱形图使您可以可视化包含五个数字的摘要:最小值;四分之一;中位数 ;第二四分位 和 最大值。
  5. 散点图 ——散点图通常将值表示为点,可用于可视化值的分布。
  6. 内核密度图 ——最后,如果您需要可视化概率密度,则内核密度图可以很好地工作。

这些只是Seaborn可以创建的更受欢迎的可视化文件中的一些。Seaborn的文档站点也有大量的示例库。我们将使用数据集查看两种不同的可视化效果,即条形图和折线图。

尽管这两种可视化只是Seaborn所包含内容的一小部分,但重要的部分是了解Seaborn API并观察其直接从Pandas DataFrame中提取数据的难易程度。一旦了解了如何使用Seaborn绘制简单的图表,便可以开始研究并使用库的更高级的可视化工具。

创建一个条形图

我们将从本系列前面的文章中创建的Pandas DataFrames中获取数据。如果您想了解如何创建这些DataFrame,请随时返回并阅读整个系列。快速,有趣的阅读!

但是,如果您已经熟悉Pandas DataFrames,则无需阅读该系列。您已经知道理解以下代码示例所需的一切。

为了展示一个简单的条形图,让我们看一下在重塑数据步骤结束时按状态DataFrame创建的总购买量的可视化。我们已经在notebook的开头导入了Seaborn并使用以下代码进行设置:

import seaborn as sns
sns.set(style="darkgrid")

如果我们开始一个新的代码块并添加以下内容:

plt.figure(figsize=(20,10))
stateTotalsChart = sns.barplot(data=totalsData, x='state',y='amount')
stateTotalsChart.set_xticklabels(stateTotalsChart.get_xticklabels(), rotation=45, horizontalalignment='right')

生成的条形图如下所示:

这三行代码完成了三件事。首先,它通过设置figsize来使默认图表大一些。第二行使用barplot创建实际的条形图,并将数据设置为总计数据,状态为x轴,数量为y轴。最后,最后一行通过旋转x轴标签稍微改善了它们。这使可视化效果看起来非常好,并且只花了三行代码。

创建Seaborn折线图

为了展示折线图,我们将创建一个新的摘要DataFrame,其中的数据按购买日期分组。创建一个新的代码块并添加以下内容:

purchasesByDay = combinedData.groupby(by='purch_date').sum().reset_index()
purchasesByDay.drop(columns=['purchase_id','customer_id','product_id'], inplace=True)
print(purchasesByDay.head(10))

这将创建一个新的DataFrame,其中汇总了当天的已售商品数量,已付款额和零售成本。

现在,我们可以启动另一个新的代码块并创建折线图:

plt.figure(figsize=(20,10))
dailyTotalsChart = sns.lineplot(data=purchasesByDay, x='purch_date',y='amount')

图表如下:

这次我们只需要两行,第一行设置图表的大小,并且由于x轴是日期序列,Seaborn正确地总结了x轴,第二行创建了随时间推移的购买总额的图表。这使我们可以非常轻松地用很少的代码行来创建有用的图。

评论

我们只涉及了Seaborn可以做的事情的表面,因为它将需要整本书来详细介绍它。好消息是,Seaborn的API非常一致。您可以利用在创建简单的折线图和条形图时所学的知识,并将其与Seaborn的一些更高级的可视化结合使用。

此外,Seaborn拥有出色的文档。如果单击Seaborn大型示例库中的任何示例,您将看到显示如何创建可视化效果的代码。

我们研究了Python可用的许多不同的可视化库,以及一系列不同的可视化类型。仅用几行代码,我们在清理后的数据集之上添加了一些有用的可视化。随着数据的更改,我们可以继续重新运行此notebook,以每周、每月甚至每年更新此数据的可视化。我们甚至可以使用此数据集来训练机器学习模型。

使用Seaborn和Pandas进行数据可视化相关推荐

  1. 使用Python Seaborn和Pandas进行数据可视化

    Hey, folks! Today we will be unveiling a very interesting module of Python - Seaborn Module and will ...

  2. 【Python】如何使用Pandas进行数据可视化?

    如何使用Pandas进行数据可视化? 1. 如何创建简单图? 1.1 创建线型图 1.2 绘制直方图 1.3 绘制条形图 1.4 绘制饼图 1.5 绘制散点图 2. Plot方法有哪些? 3. 如何定 ...

  3. 知乎爬虫与数据分析(二)pandas+pyecharts数据可视化分析篇(上)

    注:代码完整版可移步Github--https://github.com/florakl/zhihu_spider. 知乎爬虫与数据分析(一)数据爬取篇 知乎爬虫与数据分析(三)pandas+pyec ...

  4. 使用 pandas 做数据可视化

    来源:大邓和他的Python 数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果. 常见的数据可视化库有: matp ...

  5. python可视化模块pandas,python数据可视化软件

    Python中数据可视化经典库有哪些? Python有很多经典的数据可视化库,比较经典的数据可视化库有下面几个.matplotlib是Python编程语言及其数值数学扩展包 NumPy 的可视化操作界 ...

  6. 基于Matplotlib和Seaborn以及Numpy的数据可视化基础案例练习一(含数据集)

    数据可视化基础案例练习一 概述 使用到的Python库 使用到的数据集 案例 1. 绘制 2000-2017 年各季度的国民生产总值散点图 2. 绘制 2000-2017 年第一产业.第二产业.第三产 ...

  7. pyhthon中星号_Pyhthon数据可视化之Seaborn -- 让你的数据可视化从此变得小清新

    seaborn 简介 Seaborn是一种基于matplotlib的图形可视化python libraty.它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表.Seaborn其实是在m ...

  8. pandas 作图 统计_Pandas数据可视化工具——Seaborn用法整理(下)

    本科数学,编程几乎零基础(之前只学过matlab)今年年初开始学习Python数据挖掘,找到了一个很好的平台--BigQuant,省去了安装Python和安装各种库的烦恼.我最近在开始了解机器学习,B ...

  9. python数据可视化工具 pandas_Pandas数据可视化工具——Seaborn用法整理(下)

    在前一篇文章 Pandas数据可视化工具--Seaborn用法整理(上),我们了解了如何使用这些Seaborn代码绘制分布图和分类图.在本文中,我们将继续讨论Seaborn提供的一些其他以绘制不同类型 ...

最新文章

  1. 深度学习光环背后,机器学习的一些新进展!!!
  2. 微服务实战(三):深入微服务架构的进程间通信
  3. java中Future的使用
  4. 假如有人在今天炸了支付宝的存储服务器...
  5. java formfile_基于Struts文件上传(FormFile)详解
  6. leetcode3. Longest Substring Without Repeating Characters
  7. linux下mysql乱码_linux下mysql中文乱码
  8. 创建java类并实例化类对象
  9. 递归下降实现LL(1)文法分析C语言与Python实现
  10. Centos6.9编译安装nginx1.14.0
  11. 高阶的Parser:可变运算优先级
  12. i78750h怎么样
  13. goodix触摸屏(IIC)外设驱动
  14. 独立双(N)拥塞窗口的TCP单边加速思想
  15. python sklearn逻辑回归 sgd和lr_LR逻辑回归模型的原理、公式推导、Python实现和应用...
  16. MySQL数据库期末考试试题及参考答案(01)
  17. 10 行代码,集算器实现写诗机器人
  18. 利用jieba库对《秦吏》做的简单处理
  19. 泛函分析简列:度量空间之Banach空间与模等价
  20. Continued Fraction(https://acs.jxnu.edu.cn/problem/ICPCJX2021B)

热门文章

  1. solidworks属性管理器_老式经典|如何提高SOLIDWORKS的运行速度
  2. mysql免安装_腾讯云Ubuntu18.04部置Django2系列(二):Ubuntu18.04 安装Mysql
  3. ajax获取session值_cookie和session基础知识学习
  4. apache服务器_Apache的简介与配置(上)
  5. 运放输入偏置电流方向_连载 | 运放参数的详细解释和分析part2如何测量输入偏置电流Ib和输入失调电流Ios...
  6. 创新元旦新年PSD分层海报,新气象开启!
  7. 古风祥云PNG免抠素材,喜欢吗?
  8. UI设计素材|视频类APP图标
  9. Linux文件系统IO:直接IO原理与实现:缓存I/O、直接I/O
  10. FD.io VSAP(VPP Stack Acceleration Project),通过FD.io VSAP构建用户态协议栈