最近在学习kaggle预测房价的大神代码。其中有很多地方涉及到了我的知识盲区。。。慢慢来吧,先做好知识储备,再去系统再现代码。本文主要讲的是待预测值的分布。而且我觉得对于回归问题,研究预测值的分布是很有必要的,因此做一个记录。
先看代码:

# !/usr/bin/python3
# -*-coding:UTF-8-*-
# By WILL
import pandas as pd
import numpy as np
import seaborn as sns
import pylab as plt #或者import matplotlib.pyplot as plt一样的
#假设data是我们要预测的值
plt.style.use("ggplot") #图像美化
data = np.random.randn(1000)#生成1000个标准正态分布的点
data = pd.DataFrame(data)
sns.distplot(data)#看下方红字描述
plt.show()
print(data.describe())#该列的描述:列的均值 方差 标准差 四分位数 最值等信息
print("data的skewness:",data.skew())
print("data的peakedness:",data.kurt())

输出:

                 0#因为是DataFrame,所以肯定有一个column。
count  1000.000000
mean      0.050196#1000样本点比较少,理论上为0
std       0.963622#理论值为1
min      -2.765893
25%      -0.581325#1/4分位点
50%       0.041425#1/2分位点
75%       0.733161#3/4分位点
max       3.162707
data的skewness: 0   -0.00365
dtype: float64
data的peakedness: 0   -0.149678
dtype: float64

分析

1. seaborn是对matplolib的一个补充,而不是取代,要二者相结合。使用方式:

import seaborn as sns

安装方式:pip install seaborn
2. displot()集合了matplotlib的hist()与核函数估计kdeplot的功能,增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的新颖用途。
上面意思就是:displot不仅有直方图的功能,还有kdeplot(seaborn的一个核函数估计画图函数)的功能。
3.关于plt.style.use(“ggplot”)
若不加这一句,图片是这样的。所以这句话的意思就是美观。

4.关于斜度与峰度
详细请见:
偏度(skewness)和峰度(kurtosis)
我这里简单总结一下:
skewness就是三阶中心距,kurotosis就是4阶的。
sk表示的是左偏还是右偏(>0,右偏)(<0左偏)。=0就是正态分布
ku是尾巴的胖瘦或者高低。峰度包括正态分布(峰度值=3),厚尾(峰度值>3),瘦尾(峰度值<3)

Matplotlibseaborn笔记1--数据skewness与displot相关预处理相关推荐

  1. 学习笔记之数据可视化(二)—— 页面布局(下)

    续上一章 2.7 地图区域(.map) 2.7.1 实现步骤: 2.8 用户统计模块 2.8.1 布局: 2.8.2 柱状图 2.9 订单模块 2.9.1 订单区域布局 2.9.2 订单区域(orde ...

  2. 学习笔记之数据可视化(二)——页面布局(上)

    ~续上一章 2. 项目页面布局 2.1 基础布局 2.1.1 PC端屏幕宽度适配设置 2.1.2 主体容器viewport背景图片 2.1.3 HTML结构 2.1.4 css样式代码 2.2 边框图 ...

  3. JPA学习笔记---JPA数据的操作:增加,删除,修改,获取,使用JPQL进行查询

    JPA学习笔记---JPA数据的操作:增加,删除,修改,获取,使用JPOL进行查询 创梦技术交流平台:资源下载,技术交流,网络赚钱: 交流qq群:1群:248318056 2群:251572072 技 ...

  4. 大数据与机器学习算法相关的电子书分享

    大数据与机器学习算法相关的电子书分享 近日,偶然看到一个帖子,上面有一些常用的机器学习常用的电子书下载路径,遂复制到这里,分享给大家,希望可以有你需要的- @ 欢迎关注微信公众号:算法全栈之路心智探奇 ...

  5. 大数据之路读书笔记-16数据应用

    大数据之路读书笔记-16数据应用 全球知名咨询公司麦肯锡称:"数据,已经 透到当今每一个行业和业务职能领域,成为重要的生产要素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈 ...

  6. 大数据之路读书笔记-03数据同步

    大数据之路读书笔记-03数据同步 如第一章所述,我们将数据采集分为日志采集和数据库数据同步两部分.数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景.主数据库与备份数据库之间的数据备 ...

  7. 大数据之路读书笔记-15数据质量

    大数据之路读书笔记-15数据质量 随着 IT向DT 时代的转变,数据的重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极其重要的角色.而对于被日益重视的数据,如何保障其质量也是间里巴巴乃至业界都 ...

  8. Python数据分析入门笔记9——数据预处理案例综合练习(男篮女篮运动员)

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

  9. [MyBatis学习笔记] 二、Mybatis基本操作及相关标签介绍

    [MyBatis学习笔记] 二.Mybatis基本操作及相关标签介绍 一.Mybatis简介 二.简单的CRUD操作 1.构建SqlSessionFactory (1)编辑mybatis-config ...

最新文章

  1. matlab的帮助命令是英文的,4 Matlab 帮助系统
  2. 机器学习模型建立的几点建议
  3. Linux文件压缩与归档
  4. 记下来 Spring 装配 Bean 的三种方式
  5. Web API 2 入门——创建ASP.NET Web API的帮助页面(谷歌翻译)
  6. spark代码中添加logger_Spark RDD中Runtime流程解析
  7. 首批骁龙875旗舰!小米11屏幕依然是挖孔
  8. MATLAB中数组的原始索引和线性索引之间相互进行转换
  9. Golang go 命令
  10. python怎么做项目_...内学习python和django,并做出一个项目需要怎么准备,可以做什么......
  11. c# midi播放器_C#中的MIDI文件切片器和MIDI库
  12. java 如何查看文件编码_java判断文件编码 终于弄懂了编码是怎么回事
  13. sketch插件 android,用这个免费的Sketch插件,帮你完美还原安卓界面!
  14. python 图像相似度;用0-1矩阵表示两幅图像的相似度
  15. PHP连接数据库——身份验证问题
  16. 信鸽推送集成采坑之代码混淆报错/XINGE: [Util] please add wup-1.0.0.E-SNAPSHOT.jar in your libs
  17. 【深入理解TcaplusDB技术】入门Tcaplus-JDBC开发
  18. 【装载】宋鸿兵:美国国债是史上最大骗局 中日是最大输家
  19. win10安装Microsoft Office 2016(64位)提示已安装Microsoft Office 2016(32位)
  20. Python爬虫抓取基金数据

热门文章

  1. 2020-08-19微信公众号学习心得
  2. momgodb批量修改--修改嵌套数组
  3. Eclipse Validating的作用及优化
  4. 服务器Windows系统基本安全策略配置
  5. c语言putpixel函数普通写法,C语言标准函数库5
  6. 李宏毅机器学习--回归2022.07.13
  7. 编写应用程序,从命令行传入两个整型数作为除数和被除数。要求程序中捕获NumberFormatException 异常和ArithmeticException异常,而且无论在哪种情况下,“总是被执行
  8. “最佳并发用户数”和“最大并发用户数”
  9. 成都电信公网IPV6打开访问
  10. 入门实践丨如何在K3s上部署Web应用程序