数据(data):对一个或多个变量的度量

表示形式:图或表

数学表示:矩阵(阵列 array )

设对 pp 个变量的 nn 次度量数据,设 X=(X1,X2,…,Xp)′∈RpX=(X_1, X_2,\dots,X_p)'\in \mathbb{R}^p, xi=(xi1,xi2,…,xip)′,i=1,2,…,nx_i=(x_{i1}, x_{i2},\dots, x_{ip})',\, i=1,2,\dots,n. 设

X=⎛⎝⎜⎜⎜⎜⎜x11x21⋮xn1x12x22⋮xn2………x1px2p⋮xnp⎞⎠⎟⎟⎟⎟⎟=⎛⎝⎜⎜⎜⎜⎜x′1x′2⋮x′n⎞⎠⎟⎟⎟⎟⎟=(x1,x2,…,xn)′

\begin{equation*} \mathbf{X}=\left( \begin{array}{cccc} x_{11} & x_{12} & \dots & x_{1p}\\ x_{21} & x_{22} & \dots & x_{2p}\\ \vdots & \vdots & & \vdots\\x_{n1} & x_{n2} & \dots & x_{np}\\\end{array} \right) =\left( \begin{array}{c} x_1'\\ x_2'\\ \vdots\\ x_n'\\ \end{array} \right) =(x_1, x_2, \dots, x_n)' \end{equation*}

描述性统计量

  • 样本均值

x¯k=1n∑j=1nxjk,k=1,2,…,p\bar{x}_k=\dfrac{1}{n}\sum\limits_{j=1}^n x_{jk},\, k=1,2,\dots,p

  • 样本方差

s2k=1n−1∑j=1n(xjk−x¯k)2,k=1,2,…,ps_k^2=\dfrac{1}{n-1}\sum\limits_{j=1}^n (x_{jk}-\bar{x}_k)^2,\, k=1,2,\dots,p

  • 标准差

sk=s2k−−√s_k=\sqrt{s_k^2}

  • 样本协方差

sik=1n∑j=1n(xji−x¯i)(xjk−x¯k),i,k=1,2,…,ps_{ik}=\dfrac{1}{n}\sum\limits_{j=1}^n (x_{ji}-\bar{x}_i)(x_{jk}-\bar{x}_k),\, i,k=1,2,\dots,p

s2k=skks_k^2=s_{kk}

  • 皮尔逊相关系数

rik=siksii−−√sik−−√r_{ik}=\dfrac{s_{ik}}{\sqrt{s_{ii}}\sqrt{s_{ik}}}

数据的图表示法

本节介绍三种常用的图表示法,分别是散点图、箱线图和直方图。所用的例子数据是瑞士银行真(伪)钞票数据集,涉及到6个刻画票面特征的变量

  • 散点图( scatter plot )

散点图是两变量或三变量的数据点图。它有助于理解变量之间的关系。

  • 箱线图( boxplot )

箱线图又称盒图,是”五数概括”的图形表示。所谓”五数概括”,是指描述样本(数据)分布形态的五个统计量,即,样本的1/4分位数 FL 、中位数、3/4分位数 FU 、最小值和最大值。为了画出箱线图,需要定义 F-spread 统计量 dF=FU-FL, 上界 FU+1.5dF, 下界 FL-1.5dF, 处于上、下界之外的数据点,被称为异常值点( outliers )。需要注意的是,极值点(最大值和最小值)未必是 outliers.

箱线图的画法:

(1). 画一只箱子,使得箱子的下底边在1/4分位点,而上底边在3/4分位点,即,该箱内包含50%的数据;

(2). 在箱内的中位数处画一条实线,均值处画一条虚线;

(3). 从箱子的两个底边中央分别向最小值和最大值画线,称为须(whiskers);

(4). . 若存在outliers,将它们画成“*” 或 “.”,在图中标出。

  • 直方图( Histogram plot )

直方图是连续总体的密度估计,它用计数分别落入一列连续排列的格子( bins )的样品的数目,局部地表示总体密度。

令 Bj(x0,h)B_j (x_0, h) 表示以 x0x_0 为起始位置,长度为 hh 的 bin, 即

Bj(x0,h)=[x0+(j−1)h,x0+jh),j=1,2,…

B_j (x_0, h)=[x_0 + (j-1)h, x_0 + jh),\, j=1,2,\dots
设 x1,x2,…,xnx_1, x_2, \dots, x_n 是来自密度函数 ff 的样本,则 ff 的密度估计为

f^h(x)=n−1h−1∑j∑i=1nI(xi∈Bj(x0,h))I(x∈Bj(x0,h))

\hat{f}_h (x)=n^{-1}h^{-1} \sum\limits_{j}\sum\limits_{i=1}^n I(x_i\in B_j (x_0, h))I(x\in B_j (x_0, h))

通常用直方图表示数据分布的形态。常见的形态包括 symmetric, skewed left or right, unimodal, bimodal or multimodal.

精彩内容,请关注微信公众号”统计学习与大数据”!

统计学习(一):数据的组织和表示相关推荐

  1. 统计学习笔记(1)——统计学习方法概论

    1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习.统计学习是数据驱动的学科.统计学习是一门概率论.统计学.信息论.计算理论.最优化理 ...

  2. 机器学习——统计学习方法——第1章 统计学习及监督学习概论

    监督学习是从标注数据中学习模型的机器学习问题,是统计学习的重要组成部分. 1.1 统计学习 统计学习的特点 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科. 特点 ...

  3. AI之路(二)——关于统计学习(statistical learning)Part 1 概论

    从今日起,正式开启AI之路,在人工智能学习领域,无论机器学习还是深度学习,统计学习是入门的最好参考教材,是不可或缺的.因此,这漫漫求索之路,就从统计学习开始吧. 我所选择的是李航所著的统计学习(第二版 ...

  4. 统计学习:现代机器学习

    统计学习:现代机器学习 统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也称为统计机器学习.当前大部分机器学习也都指的是统计机器学习. 特点 以 ...

  5. 一.统计学习(统计机器学习)

    自嗨 本人目前是一名统计学在读本科生,统计学作为当代火爆的一门专业,在生活中也发挥了很多重要的作用,目前的大数据.预测等等都需要用到统计学的知识.因此,我决定在csdn上面也更新一些关于统计学的专栏. ...

  6. 第一节:论文数据统计学习笔记

    任务说明 任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量: 任务内容:赛题的理解.使用 Pandas 读取数据并进行统计: 任务成果:学习 Pandas 的基础操作: 可参考的学习 ...

  7. UA MATH574M 统计学习II 高维数据的二元分类

    UA MATH574M 统计学习II 高维数据的二元分类 LDA的直观解释 NSC 上一讲提到了高维数据相比低维数据的特殊性,并介绍了处理高维数据二元分类最简单的一个模型independent rul ...

  8. 统计学习二:数据的描述性统计

    参加此统计学习小组主要是巩固 python 语言,故所有笔记都以 python 代码实现. 完整代码见 github : StatisticLearning 如何描述数据的分布?可以从以下三个方面来描 ...

  9. 统计学习一:数据的图表展示

    本周内容总结: 参加此统计学习小组主要是巩固python语言,故所有笔记都以python代码实现 一.数据预处理 1.数据审核.筛选.排序 表一: 姓名 统计学成绩 数学成绩 英语成绩 经济学成绩 张 ...

  10. 什么是大数据?如何入门学习大数据?

    什么是大数据?在互联网技术快速发展的今天,大量日常生活和经营活动中产生的数据都已经信息化.我们产生的数据量相比以前有了爆炸式的增长,传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的 ...

最新文章

  1. c++ 关于char *的类库函数
  2. Winform中实现根据配置文件重新加载ZedGraph属性的实现思路
  3. 快速傅里叶变换之后的结果含义
  4. LeetCode 1054. 距离相等的条形码(优先队列)
  5. Python核心编程-第2章-网络编程(1)
  6. Visual C#中父窗口和子窗口之间实现控件互操作
  7. iOS原生APP和H5交互-delegate和第三方
  8. 阿里云发布异构计算产品家族,你可以在上面模拟核爆炸
  9. DOTween中文详解(持续更新)
  10. QQ认证空间已升级QQ公众空间,申请地址是?
  11. Spring Cloud (四):断路器(Hystrix)
  12. flyme by 云 os 系统不显示log解决方法
  13. 亚马逊为什么能吞噬世界?贝索斯有这么一种独特的战略思维
  14. Mac OS下安装Photoshop CC 2017破解版
  15. 使用乳腺癌数据集的人工神经网络
  16. 【记录】基于uni-app开发的微信小程序商城项目
  17. 编写一个完整的矩阵向量乘法的MPI编程代码
  18. Ubuntu 10.04 在 Vmware 虚拟机下安装 vmware tools
  19. 各种抠图动态图片_10种ps抠图办法(动态图演示全过程)
  20. Linux系统校准时间同步时间

热门文章

  1. 一个button同时执行多个有返回值的函数的解决方法(return false; or return true;)...
  2. 游戏开发之函数的增强(相比于C语言)(C++基础)
  3. 游戏筑基开开发之指针数组及数组指针详解(C语言)
  4. puppet详解(一)——puppet基础知识
  5. MySQL优化详解(五)——MySQL分库分表
  6. 帮你躲坑:pip install tensorflow 报错怎么办,import tensorflow 报错怎么办?
  7. doc命令操作数据库(下)
  8. Maven 在eclipse中如何配置
  9. 计组_IEEE754_练习题
  10. Docker 从零开始制作基础镜像[centos]