文章目录

  • 1. 散点图简介
  • 2. 散点图的应用场景:
  • 3. 绘制散点图
  • 4. 回归分析

1. 散点图简介

散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。

通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互
关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据
点就会相对密集并以某种趋势呈现。

数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、线性相关、指数相关等,表现在散点图上的大致分布如下图所示。那些离点集群较远的点我们称为离群点或者异常点。

2. 散点图的应用场景:

  1. 观察数据集的分布情况。
  2. 通过分析规律,根据样本数据特征计算出回归方程。

3. 绘制散点图

散点图的绘制,使用的是 plt.scatter 方法,这个方法有以下参数:

  1. x,y :分别是x轴和y轴的数据集。两者的数据长度必须一致。
  2. s :点的尺寸。如果是一个具体的数字,那么散点图的所有点都是一样大小,如果是一个序
    列,那么这个序列的长度应该和x轴数据量一致,序列中的每个元素代表每个点的尺寸。
  3. c :点的颜色。可以为具体的颜色,也可以为一个序列或者是一个 cmap 对象。
  4. marker :标记点,默认是圆点,也可以换成其他的。
  5. 其他参数参考:matplotlib.pyplot.scatter官方文档。

比如我们有一组两万条左右得运动员身高和体重以及年龄的数据表格 new_athlete.csv :


那么可以通过以下代码来绘制散点图:

import matplotlib.pyplot as plt
import numpy as np
from matplotlib import font_managerfont = font_manager.FontProperties(fname="C:\Windows\Fonts\msyh.ttc")
athletes = pd.read_csv('new_athlete.csv').dropna()
athletes.head()
male_athletes = athletes[athletes['Sex'] == 'M']
female_athletes = athletes[athletes['Sex'] == 'F']
male_mean_height = male_athletes['Height'].mean()
female_mean_height = female_athletes['Height'].mean()
male_mean_weight = male_athletes['Weight'].mean()
female_mean_weight = female_athletes['Weight'].mean()
plt.figure(figsize=(10,5))
plt.scatter(male_athletes['Height'],male_athletes['Weight'],s=male_athletes['Age'],marker='^',color='g',label='男性',alpha=0.5)
plt.scatter(female_athletes['Height'],female_athletes['Weight'],color='r',alpha=0.5,s=female_athletes['Age'],label='女性')
plt.axvline(male_mean_height,color="g",linewidth=1)
plt.axhline(male_mean_weight,color="g",linewidth=1)
plt.axvline(female_mean_height,color="r",linewidth=1)
plt.axhline(female_mean_weight,color="r",linewidth=1)
plt.xticks(np.arange(140,220,5))
plt.yticks(np.arange(30,150,10))
plt.legend(prop=font)
plt.xlabel("身高(cm)",fontproperties=font)
plt.ylabel("体重(kg)",fontproperties=font)
plt.title("运动员身高和体重散点图",fontproperties=font)
plt.grid()
plt.show()

4. 回归分析

有一组数据后,我们可以对这组数据进行回归分析,回归分析可以帮助我们了解这组数据的大体走
向。
回归分析按照涉及的变量的多少,分为一元回归多元回归分析
按照自变量的多少,可分为简单回归分析多重回归分析
按照自变量和因变量之间的关系类型,可分为线性回归分析非线性回归分析

如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析

如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析


通过以上运动员散点图的分析,我们总体上可以看出来是满足线性回归的,因此可以在图上绘制一个线性回归的线条。想要绘制线性回归的线条,需要先按照之前的数据计算出线性方程,假如 x 是自变量, y 是因变量,那么线性回归的方程可以用以下几个来表示:

y = 截距+斜率*x+误差

只要把这个方程计算出来了,那么后续我们就可以根据 x 的值,大概的估计出 y 的取值范围,也就是预测。

如果我们针对以上运动员的身高和体重的关系,只要有身高,那么就可以大概的估计出体重的值。

回归方程的绘制我们需要借助 scikit-learn 库,这个库是专门做机器学习用的,我们需要使用里面的线性回归类 sklearn.liear_regression.LinearRegression 。示例代码如下:

# from sklearn.linear_model import LinearRegression
# male_athletes = athletes[athletes['Sex'] == 'M'].dropna()
# female_athletes = athletes[athletes['Sex'] == 'F'].dropna()
# xtrain = male_athletes['Height']
# ytrain = male_athletes['Weight']
# # 生成线性回归对象
# model = LinearRegression()
# # 喂训练数据进去,但是需要把因变量转换成1列多行的数据
# model.fit(xtrain[:,np.newaxis],ytrain)
# # 打印斜率
# print(model.coef_)
# # 打印截距
# print(model.intercept_)
# line_xticks = xtrain
# # 根据回归方程计算出的y轴坐标
# line_yticks = model.predict(xtrain[:,np.newaxis])plt.figure(figsize=(15,5))
male_athletes = athletes[athletes['Sex'] == 'M']
male_heights = male_athletes['Height']
male_weights = male_athletes['Weight']
male_height_mean = male_heights.mean()
male_weight_mean = male_weights.mean()female_athletes = athletes[athletes['Sex'] == 'F']
female_heights = female_athletes['Height']
female_weights = female_athletes['Weight']
female_height_mean = female_heights.mean()
female_weight_mean = female_weights.mean()plt.scatter(male_heights,male_weights,s=male_athletes['Age'],marker='^')
plt.scatter(female_heights,female_weights,s=female_athletes['Age'],alpha=0.5)
plt.axvline(male_height_mean,linewidth=1,c='r')
plt.axhline(male_weight_mean,linewidth=1,c='y')from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(male_heights.values[:,np.newaxis],male_weights)
predict_male_weight = model.predict(male_heights.values[:,np.newaxis])
plt.plot(male_heights,predict_male_weight)

为便于学习交流草创了一个q群: Python炼丹大师交流群
后端 爬虫 数据分析 机器学习等和python相关的都可以在此畅所欲言
编程资源:编程学习资源传送门

文章到此结束,但愿本文能对你有一点点帮助,欢迎三连,点个赞,收个藏啥的,有问题的尽管砸来,我有故事你有酒,好好交流不分手!下次见!

Matplotlib之散点图绘制相关推荐

  1. Matplotlib常见图形绘制(折线图、散点图、柱状图、直方图、饼图)

    Matplotlib能够绘制折线图.散点图.柱状图.直方图.饼图. 我们需要知道不同的统计图的意义,以此来决定选择哪种统计图来呈现我们的数据. 1 常见图形种类及意义 折线图:以折线的上升或下降来表示 ...

  2. Python数据可视化——使用Matplotlib创建散点图

    Python数据可视化--使用Matplotlib创建散点图 2017-12-27 作者:淡水化合物 转载请注明网址:https://www.cnblogs.com/pengsky2016/p/812 ...

  3. python散点图密度颜色_Python实现彩色散点图绘制(利用色带对散点图进行颜色渲染)...

    image 接受自己的普通,然后全力以赴的出众,告诉自己要努力,但不要着急.... ​ image 前言 在自己的论文实验中,遇到了一个气象站实际观测数据与预测数据之间的对比,因此考虑绘制一个散点图来 ...

  4. Python入门-散点图绘制

    Python入门-散点图绘制 Python入门-散点图绘制  废话不说 直接上代码 import matplotlib.pyplot as pltx_values = list(range(1,100 ...

  5. 【Python】数据可视化-散点图绘制

    Python在数据科学中拥有十分重要的地位,numpy, scipy, pandas, scikit-learn这些高效易用.接口统一的科学计算包使其在数据分析处理过程更加方便快捷,其强大的数据可视化 ...

  6. Python笔记:matplotlib 三维图表绘制方法简介

    Python笔记:三维图表绘制方法简介 1. python三维图表绘制方法简介 2. 实例说明 1. 三维曲线图绘制 2. 三维散点图绘制 3. 三维曲面图绘制 3. 参考链接 1. python三维 ...

  7. matplotlib 常用图形绘制与官方文档

    matplotlib 常用图形绘制与官方文档 matplotlib.org Python库matplotlib 图形绘制 官方教程目录 matplotlib.pyplot matplotlib.pyp ...

  8. 【Matplotlib】matplotlib.animation.FuncAnimation绘制动态图、交互式绘图汇总(附官方文档)

    文章目录 零.文中用到的相关知识: 一.以sin举例,motplotlib绘制动图 1.绘制sin函数 2.动态画出sin函数曲线 3.点在曲线上运动 4.点,坐标运动 二.单摆例子 1.scipy中 ...

  9. 【散点图绘制】二手车年份、距离与保值率(二手车价/新车价格)分析

    [散点图绘制]二手车年份.距离与保值率(二手车价/新车价格)分析 散点图绘制入门 二手车数据散点图 作业要求 观察结果 散点图绘制入门 import matplotlib.pyplot as plt ...

  10. scatter python_Python的散点图绘制 scatter

    python能画的图种类非常多,而且看上去都很好看,具体种类部分可参看:https://matplotlib.org/api/_as_gen/matplotlib.pyplot.figure.html ...

最新文章

  1. 黄聪:穿过主机访问虚拟机中的SQL服务 FOR VMware NAT
  2. [Google API](2)什么是google API
  3. 【腾讯代码文化】人均3.6万行代码,《腾讯研发大数据报告》正式发布!
  4. 脚本语言语言脚本语言:Shell , JavaScript、VBScript、Perl、PHP、Python、Ruby、Lua
  5. 中小型网站 seo 优化推广策略
  6. mysql使用jpa仓储查询报错_Jpa自动查询报错
  7. 最全蚂蚁金服高级Java面试题目(3面)
  8. 小米8吃鸡战斗服务器响应超时,小米8使用1天真实体验,看完再决定买不买?
  9. 士林变频器面板如何调速度_工业电气设计|变频器在应用中的故障处理实例分享...
  10. 手把手教你学51单片机_第 一、二章
  11. Radiology:磁共振血管造影(MRA)在脑转移瘤治疗中对血管形态改变的测量
  12. vue登录模板1-科技透明登录框与登录页
  13. 201943 ovf 文件的导出和导入
  14. 小孩子爱玩手机学计算机编程好吗,学习编程教育对孩子的哪些重要意义
  15. 基于SpringBoot框架图片销售网站的设计与实现
  16. 【女装2018新款潮碎花半身裙韩版气质两件套裙子】http://m.tb.cn/h.3aHr1L7
  17. .jfif图片怎么在Photoshop中打开
  18. cannt connect to db!_分贝db以及在语音的用途
  19. 自监督的暗光图像增强
  20. 运营商客户流失率分析

热门文章

  1. 计算机毕业论文选题影视方向,毕业设计选题方向
  2. Actor-Critic:强化学习中的参与者-评价者算法简介
  3. 阿里巴巴大数据技术专家岗面试题
  4. 【高颜值的盲打练习网站】彻底摆脱二指禅,刻意练习一星期后打字速度可提升20wpm!!!
  5. SQL 日期交差判断
  6. 异数OS 织梦师-水母(一)--消息队列篇
  7. linux 获取eth0(指定网卡)网卡的IP地址(或MAC地址)
  8. 利用计算机管理档案,利用计算机管理档案的方法
  9. hexo笔记十五:next主题添加网易云外链
  10. 劝你别把开源的数据分析项目写在简历上了!!!