文章目录

  • 箱盒图公式推导
    • 箱盒图5个指标
    • 数据列为奇数推导
    • 偶数列推导
  • 箱盒图与琴形图数据分析
    • 箱盒图分析性别与年龄相关相关
    • 琴形图分析

博文配套视频课程:24小时实现从零到AI人工智能


箱盒图公式推导

根据从简到繁的思想首先要了解箱盒图的5个指标,然后推导数据列数为奇数的情况,最后推导列数为偶数的情况

箱盒图5个指标

中位数数不是平均数,Q3也称为75%位数,Q1称为25%位数

数据列为奇数推导

# 数据集为奇数的情况
x = [-7.26, 3, 3.2, 7, 8, 12, 19]
# 1: 先求中位数:(奇数比偶数好求), 此处就是7
# 2: 第3分位数Q3: 包括中位数和后数列 [7, 8, 12, 19],求Q3得: (8 + 12) / 2 = 10
# 3: 第1分位数Q1: 包括中位数和前数列 [1, 3, 3.2, 7],求Q1得: (3 + 3.2) / 2 = 3.1
sns.boxplot(data=x)
plt.show()
# 4:IQR 四分位距: Q3 - Q1: 10 - 3.1 = 6.9
# 5:最小值 = Q1 - 1.5 * IQR ==> 3.1 - 1.5 * 6.9 = -7.25
# 6:最大值 = Q3 + 1.5 * IQR ==> 10 + 1.5 * 6.9 = 20.35
# 7:边缘测试: > 20.35  或者 < -7.25 数据统统为异常数据

偶数列推导

import seaborn as sns
import matplotlib.pyplot as plt# 数据集为偶数的情况
x = [1, 3,19, 3.2, 7, 8, 8.1, 12]
# 1: 先求中位数: (7 + 8) / 2 = 7.5
# 2: 第3分位数Q3:75%
#   2.1: 先求Q3中位数的位置: 3 (n + 1) / 4 = 3(8 + 1)/4 = 6.75 (求位置)
#   2.2: 求Q3:8.1 * 0.75 + 12 * 0.25 = 6.075 + 3 = 9.075
# 3: 第1分位数Q1:25%
#   3.1: 先求Q1中位数的位置 (n + 1) / 4 = (8 + 1)/4 = 2.25
#   3.2: 求Q1: 3 * 0,25 + 3.2 * 0.75 = 0.75 + 2.4 = 3.15
sns.boxplot(data=x)
plt.show()
# 4:IQR 四分位距: 9.075 -  3.15 = 5.925
# 5:最小值 = Q1 - 1.5 * IQR : 3.15 - 5.925 * 1.5 = -5.7375
# 6:最大值 = Q3 + 1.5 * IQR : 9.075 + 5.925 * 1.5 = 17.9625
# 7:边缘测试:


箱盒图与琴形图数据分析

箱盒图分析性别与年龄相关相关

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plttitanic = pd.read_csv("../data/titanic2.csv")
# sns.countplot(x='sex',hue='age',data=titanic)
# 有些时候散点图、柱状图表达的信息有限,此时就可以采用箱盒图,琴形图
sns.boxplot(x='sex',y='age',data=titanic)
plt.show()

结论: 男女的性别分布很相似,但是年龄女性跨度会更大,而男性老年乘客会更多

琴形图分析

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plttitanic = pd.read_csv("../data/titanic2.csv")
# 琴形图: 箱盒图 + 核密度图
sns.violinplot(x='class',y='age',data=titanic)
plt.show()

结论: 通过琴形图可以得知: 头等舱年龄跨度比较大,三等舱中年人分布比较多

03_泰坦尼克号幸存者分析(下)相关推荐

  1. 泰坦尼克号python数据分析统计服_数据分析可视化——泰坦尼克号幸存者分析(上)...

    文章目录数据获取.结构分析如何获取seaborn提供数据源 特征列分析 缺失值与数据清洗年龄缺失值处理 填充embarked 删除不必要的列 幸存者分析分析性别对存活率的影响 分析年龄对存活率影响 分 ...

  2. 02_泰坦尼克号幸存者分析(上)

    文章目录 数据获取.结构分析 如何获取seaborn提供数据源 特征列分析 缺失值与数据清洗 年龄缺失值处理 填充embarked 删除不必要的列 幸存者分析 分析性别对存活率的影响 分析年龄对存活率 ...

  3. SPSS Modeler泰坦尼克号幸存者分析

    数据来源:"Kaggle泰坦尼克号挑战杯"竞赛泰坦尼克号数据 PS:需要创建一个帐户才能访问数据. 下载的数据是.CSV格式 1. 数据介绍 数据集中共有12个字段,Passeng ...

  4. Python数据挖掘项目:构建随机森林算法模型预测分析泰坦尼克号幸存者数据

    作者CSDN:进击的西西弗斯 本文链接:https://blog.csdn.net/qq_42216093/article/details/120196972 版权声明:本文为作者原创文章,未经作者同 ...

  5. Kaggle入门项目,泰坦尼克号幸存者

    泰坦尼克号幸存者项目是kaggle的入门项目,我先用python的matplotlib库对数据进行了可视化,初步探索后对数据进行了清洗,然后建立了逻辑回归模型对测试集进行了预测,kaggle得分是0. ...

  6. 【阅读笔记】使用决策树预测泰坦尼克号幸存者实例 - scikit-learn机器学习

    文章目录 使用决策树预测泰坦尼克号幸存者实例 一.数据获取 二.数据探索 数据质量分析(缺失值.异常值.一致性) 三.数据预处理 四.数据建模 五.优化模型参数 使用决策树预测泰坦尼克号幸存者实例 代 ...

  7. 特征工程实践:泰坦尼克号幸存者预测

    文章目录 泰坦尼克号幸存者预测 泰坦尼克号幸存者预测 数据集下载地址:https://www.kaggle.com/c/titanic/data . 本案例主要展示特征工程对数据集的处理方法,模型只选 ...

  8. 极简sklearn-使用决策树预测泰坦尼克号幸存者

    泰坦尼克号幸存者数据集是kaggle竞赛中入门级的数据集,今天我们就来用决策树来预测下哪些人会成为幸存者. 数据集下载地址: https://download.csdn.net/download/ti ...

  9. 1.决策树 实例:泰坦尼克号幸存者的预测

    决策树 文章目录 决策树 1.概述 1.1决策树是如何工作的 2 DecisionTreeClassififier与红酒数据集 2.1重要参数 2.1.1 criterion 2.1.2 random ...

最新文章

  1. Flex与.NET互操作(十):基于FluorineFx.Net的及时通信应用(Real-time Messaging Applications)(一)...
  2. IE浏览器中iframe背景BODY透明
  3. php 61850,南瑞内部61850培训教程很好很强大-系统集成文档类资源
  4. 链路聚合_rhel7下的链路聚合配置
  5. atcoder 076
  6. C#中Console.ReadKey()与ConsoleKey的一些用法
  7. asp.net的几种页面间的传值方法
  8. cxf开发基于web的webservice项目(转载)
  9. gRPC编译和安装——Linux版
  10. VC++动态链接库(DLL)编程深入浅出:QA(原创)
  11. 联华精选APP--请求body体和返回体加解密
  12. Java打印Excel
  13. P8842 [传智杯 #4 初赛] 小卡与质数2 题解
  14. 视频处理指定颜色的提取
  15. confluence工具
  16. 【QT】Qt Compiler Detection(编译)
  17. 基于ssm技术的校自助阅览室的设计与实现毕业设计源码242326
  18. JavaScript创始人Brendan Eich访谈录
  19. Ubuntu16.04 U盘安装Ubuntu16.04制作 光盘刻录 安装与简介
  20. JAVA统一社会信用代码正则,用户登录名正则

热门文章

  1. 纽约州立大学水牛城分校计算机科学专业,纽约州立大学水牛城分校会不会不容易毕业?...
  2. mysql cc攻击_CC攻击数据详细分析
  3. 龙墟界域 鸿蒙界域,妖神记妖神记这个等级划分全面 看漫画
  4. 微信朋友圈广告,杀鸡取卵?
  5. 圣诞节老人界面(动画特效)
  6. 早年黑网吧特供游戏《血战上海滩》如何在Win10运行?
  7. Rocky Linux更换yum源为国内源
  8. Paul Graham:未来的互联网创业(下)
  9. c语言体重指数bmi计算器,身高106cm体重19.5kg的女性标准体重与BMI指数 - BMI计算器...
  10. MSP430F5529-定时器介绍