散点图

散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。

通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、线性相关、指数相关等,表现在散点图上的大致分布如下图所示。那些离点集群较远的点我们称为离群点或者异常点。

示例图如下:

绘制散点图:

散点图的绘制,使用的是plt.scatter方法,这个方法有以下参数:

  1. x,y:分别是x轴和y轴的数据集。两者的数据长度必须一致。
  2. s:点的尺寸。如果是一个具体的数字,那么散点图的所有点都是一样大小,如果是一个序列,那么这个序列的长度应该和x轴数据量一致,序列中的每个元素代表每个点的尺寸。
  3. c:点的颜色。可以为具体的颜色,也可以为一个序列或者是一个cmap对象。
  4. marker:标记点,默认是圆点,也可以换成其他的。
  5. 其他参数:https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html#matplotlib.pyplot.scatter

比如有一组运动员身高和体重以及年龄的数据,那么可以通过以下代码来绘制散点图:

male_athletes = athletes[athletes['Sex'] == 'M']
female_athletes = athletes[athletes['Sex'] == 'F']
male_mean_height = male_athletes['Height'].mean()
female_mean_height = female_athletes['Height'].mean()
male_mean_weight = male_athletes['Weight'].mean()
female_mean_weight = female_athletes['Weight'].mean()plt.figure(figsize=(10,5))
plt.scatter(male_athletes['Height'],male_athletes['Weight'],s=male_athletes['Age'],marker='^',color='g',label='男性',alpha=0.5)
plt.scatter(female_athletes['Height'],female_athletes['Weight'],color='r',alpha=0.5,s=female_athletes['Age'],label='女性')
plt.axvline(male_mean_height,color="g",linewidth=1)
plt.axhline(male_mean_weight,color="g",linewidth=1)
plt.axvline(female_mean_height,color="r",linewidth=1)
plt.axhline(female_mean_weight,color="r",linewidth=1)
plt.xticks(np.arange(140,220,5))
plt.yticks(np.arange(30,150,10))
plt.legend(prop=font)
plt.xlabel("身高(cm)",fontproperties=font)
plt.ylabel("体重(kg)",fontproperties=font)
plt.title("运动员身高和体重散点图",fontproperties=font)
plt.grid()
plt.show()

效果图如下:

绘制回归曲线:

有一组数据后,我们可以对这组数据进行回归分析,回归分析可以帮助我们了解这组数据的大体走向。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照自变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。

通过以上运动员散点图的分析,我们总体上可以看出来是满足线性回归的,因此可以在图上绘制一个线性回归的线条。想要绘制线性回归的线条,需要先按照之前的数据计算出线性方程,假如x是自变量,y是因变量,那么线性回归的方程可以用以下几个来表示:

y = 截距+斜率*x+误差

只要把这个方程计算出来了,那么后续我们就可以根据x的值,大概的估计出y的取值范围,也就是预测。如果我们针对以上运动员的身高和体重的关系,只要有身高,那么就可以大概的估计出体重的值。回归方程的绘制我们需要借助scikit-learn库,这个库是专门做机器学习用的,我们需要使用里面的线性回归类sklearn.liear_regression.LinearRegression。

示例代码如下:

from sklearn.linear_model import LinearRegression
male_athletes = athletes[athletes['Sex'] == 'M'].dropna()
female_athletes = athletes[athletes['Sex'] == 'F'].dropna()
xtrain = male_athletes['Height']
ytrain = male_athletes['Weight']
# 生成线性回归对象
model = LinearRegression()
# 喂训练数据进去,但是需要把因变量转换成1列多行的数据
model.fit(xtrain[:,np.newaxis],ytrain)
# 打印斜率
print(model.coef_)
# 打印截距
print(model.intercept_)
line_xticks = xtrain
# 根据回归方程计算出的y轴坐标
line_yticks = model.predict(xtrain[:,np.newaxis])

效果图如下:

Python数据分析入门(十九):绘制散点图相关推荐

  1. python数据分析入门学习笔记

    python数据分析入门学习笔记儿 学习利用python进行数据分析的笔记儿&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我 ...

  2. Python数据分析入门笔记5——数据预处理之异常值

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

  3. Python数据分析入门笔记9——数据预处理案例综合练习(男篮女篮运动员)

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

  4. python数据分析要学什么_python数据分析学什么?python数据分析入门

    有很多没有基础的新手想学习python数据分析,却在纠结python数据分析难不难学?下面万古网校小编给大家整理了资料,为各位分享! 1.python难不难? Python可以说是目前比较主流而且易学 ...

  5. Python数据分析入门之pandas基础总结

    Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.r ...

  6. python 数据分析学什么-python数据分析学什么?python数据分析入门

    有很多没有基础的新手想学习python数据分析,却在纠结python数据分析难不难学?下面万古网校小编给大家整理了资料,为各位分享! 1.python难不难? Python可以说是目前比较主流而且易学 ...

  7. python绘制条形图-Python数据分析条形图的各种绘制方式

    # 导入模块 import matplotlib.pyplot as plt import numpy as np import pandas as pd # 导入数据 traffic_volume ...

  8. 分享一份60页的《Python数据分析入门PPT》

    小伙伴你好,资料会有的,我先做个自我介绍. 我是小詹.一名即将毕业的研究生,一个懂点技术和运营的产品人. 爱折腾爱分享,我在大学时通过副业实现了经济独立,偶尔还能补贴家用,在北漂求学的 7 年里还算精 ...

  9. python数据分析入门

    python数据分析入门,作为入门文章系列主要包含以下几个内容: 1.数据的来源(本案例采用的数据来自于上一篇文章中爬取的智联招聘信息):读取数据库数据.数据写入csv文件.读取csv文件等 2.数据 ...

  10. Python数据分析入门教程(更新中)

    Python数据分析入门教程 你好! 这是一篇适用于初学者的Python数据分析入门教程 1. Numpy关于矩阵的操作 1.1数组与矩阵的基本概念 矩阵:矩阵是一个按照长方阵列排列的实数或复数集合( ...

最新文章

  1. 9个点的所有解锁图_黔隆科技刷机教程酷派C1068忘记密码刷机解锁降级救砖解屏幕锁账户锁教程...
  2. 【LeetCode】198.打家劫舍
  3. 关于AttributeError: type object ‘XXX‘ has no attribute ‘XXX‘的问题
  4. $.ligerdialog.open中确定按钮加事件_彻底搞懂JavaScript中的this指向问题
  5. 使用分析函数进行行列转换
  6. UOJ - #117. 欧拉回路(模板)
  7. C语言 字符串的声明与使用
  8. 彻底剖析C# 2.0泛型类的创建和使用
  9. Android 原生 MediaPlayer 和 MediaCodec 的区别和联系(二)
  10. ADO.NET编程(3)在内存中对DataTable进行增/删/改操作
  11. linux+git登陆,图解如何在Linux上配置git自动登陆验证
  12. 【C++拾遗之二】fseek、ftell函数读取文件
  13. 如何简单使用阿里巴巴矢量图标库!?
  14. 实现透明背景但背景上元素不透明
  15. 第一章 UCI数据集wine.data主成分分析PCA
  16. linux智能密码锁,【胖猴小玩闹】智能门锁与网关:云丁鹿客智能门锁BLE通信的分析(中)...
  17. C++字符串常量总结(包含表达式必须是可修改的左值问题)
  18. 2019年高三自主招生面试考生如何自我介绍?范文3篇整理
  19. 【转帖】刘备三顾茅庐,请Elasticsearch出山
  20. macOS连接ftp服务器

热门文章

  1. 四种实时操作系统的分析比较
  2. mysql主从复制不同步案例_mysql主从复制不同步的问题
  3. Windows XP 开机优化
  4. 安卓java编译器_最方便的安卓手机端Java编译程序(支持中文字符串)
  5. 163Editor 编辑器概览
  6. JSP实用教程 第二章 JSP语法
  7. 强制刷机NOKIA E6-00方法
  8. nginx+php配置
  9. PHP 根据URL将图片下载到本地(curl爬取)
  10. 第十三届蓝桥杯大赛个人赛全国总决赛准考证开放下载