什么是探索性数据分析(EDA)?

EDA 是数据分析下的一种现象,用于更好地理解数据方面,例如: – 数据的主要特征 – 变量和它们之间的关系 – 确定哪些变量对我们的问题很重要 我们将研究各种探索性数据分析方法,例如:

  • 描述性统计,这是一种简要概述我们正在处理的数据集的方法,包括样本的一些度量和特征
  • 分组数据 [使用 group by 进行基本分组]
  • ANOVA,方差分析,这是一种计算方法,可将观察集中的变化划分为不同的分量。
  • 相关和相关方法

我们将使用的数据集是子投票数据集,您可以在 python 中将其导入为:

import pandas as pd
Df = pd.read_csv("https://vincentarelbundock.github.io / Rdatasets / csv / car / Child.csv")

描述性统计

描述性统计是了解数据特征和快速总结数据的有用方法。python 中的 Pandas 提供了一个有趣的方法 describe() 。describe 函数对数据集应用基本统计计算,如极值、数据点计数标准差等。任何缺失值或 NaN 值都会被自动跳过。describe() 函数很好地描绘了数据的分布情况。

DF.describe()

这是您在运行上述代码时将获得的输出:

另一种有用的方法是 value_counts(),它可以获取分类属性值系列中每个类别的计数。例如,假设您正在处理一个客户数据集,这些客户在列名 age 下分为青年、中年和老年类别,并且您的数据框是“DF”。您可以运行此语句以了解有多少人属于各个类别。在我们的数据集示例中可以使用教育列 \

DF["education"].value_counts()

上述代码的输出将是:

另一个有用的工具是 boxplot,您可以通过 matplotlib 模块使用它。箱线图是数据分布的图形表示,显示极值、中位数和四分位数。我们可以使用箱线图轻松找出异常值。现在再次考虑我们一直在处理的数据集,让我们在属性总体上绘制一个箱线图 \

import pandas as pd
import matplotlib.pyplot as plt
DF = pd.read_csv("https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv")
y = list(DF.population)
plt.boxplot(y)
plt.show()

发现异常值后,输出图将如下所示:

分组数据

Group by 是 pandas 中可用的一个有趣的度量,它可以帮助我们找出不同分类属性对其他数据变量的影响。让我们看一个在同一数据集上的示例,我们想找出人们的年龄和教育对投票数据集的影响。

DF.groupby(['education', 'vote']).mean()

输出会有点像这样:

如果按输出表进行分组难以理解,则进一步的分析师使用数据透视表和热图对其进行可视化。

方差分析

ANOVA 代表方差分析。执行它是为了找出不同类别数据组之间的关系。 在 ANOVA 下,我们有两个测量结果: – F-testscore:显示组均值相对于变化的变化 – p 值:显示结果的重要性 这可以使用 python 模块 scipy 方法名称 f_oneway() \

这些样本是每组的样本测量值。 作为结论,如果 ANOVA 检验给我们一个大的 F 检验值和一个小的 p 值,我们可以说其他变量和分类变量之间存在很强的相关性。

相关性和相关性计算

相关性是上下文中两个变量之间的简单关系,使得一个变量影响另一个变量。相关性不同于引起的行为。计算变量之间相关性的一种方法是找到 Pearson 相关性。在这里,我们找到两个参数,即皮尔逊系数和 p 值。当 Pearson 相关系数接近 1 或 -1 且 p 值小于 0.0001 时,我们可以说两个变量之间存在很强的相关性。 Scipy 模块还提供了一种执行 pearson 相关性分析的方法,

这里的示例是您要比较的属性。 这是 python 中 EDA 的简要概述,我们可以做更多!快乐挖掘!

Python探索性数据分析相关推荐

  1. Sweetviz:让你只需三行代码实现Python探索性数据分析

    Sweetviz 是一个开源 Python 库,它只需三行代码就可以生成漂亮的高精度可视化效果来启动EDA(探索性数据分析).输出一个HTML.文末提供技术交流群,喜欢点赞支持,收藏. 如上图所示,它 ...

  2. Python探索性数据分析——异常数据的检测与处理、数据的描述(集中、分散、分布、相关关系、波动)、数据的推断(正态性检验、卡方检验、t检验)

    目录 一.异常数据的检测与处理 1.异常数据检测与处理-基于箱线图 2.异常数据检测与处理-基于正态分布特征 二.数据的描述 1.数据的集中趋势 1.1.数据的集中趋势-平均值 1.1.1.算数平均值 ...

  3. pandas添加一行数据_恨晚,Python探索性数据分析神器pandas-profiling,一行代码搞定...

    我们使用Pandas进行数据分析时,首先要先对数据集进行探索性数据分析(Exploratory data analysis),以便有一个大体的了解,明确后续数据处理.分析方向,数据EDA大致包含如下内 ...

  4. Python探索性数据分析(EDA)统计数据和建模

    探索性数据分析(EDA) 在统计学中,探索性数据分析是一种分析数据集以总结其主要特征的方法,通常使用统计图形和其他数据可视化方法. 可以使用或不使用统计模型,但主要是 EDA 用于查看数据可以告诉我们 ...

  5. python处理csv文件将id相同的行合并到同一行并用符号将其隔开_Python探索性数据分析,这样才容易掌握...

    作者 | Riti Dass译者 | LJY整理 | Lemonbit译文来源 | Python数据之道(ID:PythonDataLab) 导语:理解你的数据的最佳方法是花时间去研究它. Pytho ...

  6. Python读取多个excel文件(删除字段、数据格式转换、dataframe多表合并)并写入ElasticSearch实战(自动创建索引、写入ElasticSearch、探索性数据分析)

    Python读取多个excel文件(删除字段.数据格式转换.dataframe多表合并)并写入ElasticSearch实战(自动创建索引.写入ElasticSearch.探索性数据分析) 目录

  7. python进行探索性数据分析EDA(Exploratory Data Analysis)分析

    python进行探索性数据分析EDA(Exploratory Data Analysis)分析 show holy respect to python community, for there ded ...

  8. 带你和Python与R一起玩转数据科学: 探索性数据分析(附代码)

    作者:Jose A Dianes 翻译:季洋 校对:丁楠雅 本文约5822字,建议阅读20+分钟. 本系列将介绍如何在现在工作中用两种最流行的开源平台玩转数据科学.先来看一看数据分析过程中的关键步骤 ...

  9. 探索性数据分析(EDA):Python

    什么是探索性数据分析(EDA)? (What is Exploratory Data Analysis(EDA)?) If we want to explain EDA in simple terms ...

最新文章

  1. 德黑兰大学推可踢球机器人,中国队快买!
  2. ***必备兵器与技能
  3. Set Up Optimization
  4. Java中static的作用
  5. Math.Celing、Math.Floor、Math.DivRem与Math.BigMul
  6. Uncaught SecurityError: Failed to execute 'replaceState' on 'History': A history state object with
  7. 【HDU - 1069】Monkey and Banana (最长下降子序列 + 贪心,最长上升子序列类问题)
  8. C++:19---重载与模板、模板特例化
  9. python计算执行时间的函数_[python] 统计函数运行时间
  10. php怎么用递归函数遍历多维数组,php递归遍历多维数组的方法
  11. django 模型 使用 DateTimeFields 字段 auto_now_add 属性 实现 插入数据时 自动记录时间...
  12. 零基础跨行学习Java是否可行
  13. js 使用Rsa 加密 解密
  14. 通过自定义View了解MeasureSpecMode
  15. 计算机服务添加打印机服务,windows7系统添加打印机Print Spooler服务教程
  16. m118w重置墨粉_富士施乐 Fuji Xerox DocuPrint M118w/M118z墨盒换粉加粉详解
  17. Unity多屏幕设置细节
  18. cdr怎么把矩形去掉一个边_如何把一个矩形的四个角变形?
  19. dubbo消费者调用报错Unsupported protocol rest in notified url
  20. 腾讯Blade Team亮相Blackhat DEFCON,五大议题彰显安全能力

热门文章

  1. 基于英飞凌TLE8242-2L的开关/比例电磁阀驱动电路
  2. 写给认真学习却进步缓慢的大一学生
  3. Linux 中新下载的FireFox(火狐浏览器)无法运行的解决方法
  4. 计算机网络基础知识点快速复习手册
  5. 理论+实操 :部署YUM仓库以及NFS资源共享服务————理论讲解
  6. 基于javaweb+jsp的网上商城系统(java+jsp+servlet+mysql+ajax)
  7. 编程难不难学?(3点解答你的疑惑)
  8. 语音识别 公司_语音识别公司_语音识别公司排名 - 云+社区 - 腾讯云
  9. 【阅读笔记】针对PyTorch提高神经网络训练速度的方法—《Here are 17 ways of making PyTorch training faster – what did I miss?》
  10. Metasploit(超详细)命令