1.数据对象与属性类型

数据集合的类型:记录、图或网络、有序的列表、空间、图像和多媒体等。

数据集由数据对象构成,一个数据对象代表一个实体。又称为样本,事例,数据点,对象,元组等。

数据对象由属性来描述。

属性(也称作维度,特征,变量):一个数据字段表示一个数据对象的某个特征。

属性类型:标称属性——与名称有关

类别、状态等

Hair_color={auburn,black,blond,brown,grey,red,white}

婚宴状态,职业,ID号,邮政编码

二元属性——是一种特殊的标称属性或布尔属性

只有2个状态的名词性属性(0和1)

对称二元:同样重要,例如性别

非对称:非同等重要,例如医疗检查中的阴性和阳性

序数属性——有意义的序,但是相继值之差是未知的

值有一个有意义的排序,但连续值之间的大小未知,例如衣服大小号

Size={small,medium,large},等级等

数字属性——数量的

区间标度:相等的单位尺度,没有真正的零点,如年;

比率标度:具有固定零点的数值属性,如重量,身高等。

标称属性、二元属性和序数属性都是定性的。

离散属性和连续属性:

离散属性——一个有限的或可数无限集值,例如邮政编码

连续属性——属性值为实数,通常表示为浮点变量

2.数据的基本统计描述

(1)数据描述性统计之集中趋势—均值,中位数,众数

均值(样本vs总体)(mean):n是样本大小,N是总体大小

加权算术均值:

截断均值:去掉高低极端值

中位数(median):奇数则为有序集的中间值,否则为中间两个数的平均

众数(Mode):出现频率最高的值,经验公式mean-mode=3×(mean-median)

(2)描述性统计之离散趋势—变异程度的度量

极差(全矩):

极差(range,全距)是数据中最大与最小间的差距

是衡量数据变异程度最简单的描述

全距对最大与最小数据的值的敏感性很强

分位数(分位点,percentile):

将一个随机变量的概率分布范围分为几个等份的数值点

常用中位数(二分位数)、四分位数、百分位数等

四分位数(quartile):Q1,Q2,Q3,Q4

中间四分位数极差(Inter-quartile range):IQR=Q3-Q1

四分位点内距是第三与第一四分位数间的差距

是中间50%的数据的全距

它能够克服极端值的影响

五数概况(five-number summary):最小值,Q1,中位数,Q3,最大值

Boxplot:

使用盒子表示数据

盒子两端是第1/3四分位数,即盒子高度为四分位数极差IQR

盒内的线表示中位数

胡须:不超过四分位数1.5×IQR的最大/小数据点

离群点(Qutliers):单独绘出满足某个离群点阈条件的离群点

方差:方差是各数据值与平均值之间的差异

如果数据集为样本,样本方差为

如果数据集为总体,总体方差为

标准差:标准差为方差的正平方根

如果数据集是样本,样本标准差为

如果数据集为总体,总体标准差为

变异系数:变异系数是标准差相对于平均数的大小的度量。

如果数据集为样本,计算为

如果数据集为总体,计算为

(3)描述性统计分析—离散趋势度量

极差(range),四分位数(Quartiles),离群点(outliers),盒图(boxplots)

极差(range):max-min

四分位数(quartile):Q1(25百分位数percentile),Q3(75百分位数percentile)

中间四分位数极差(Inter-quartile range):IQR=Q3-Q1

五数概括:min,Q1,median,Q3,max

盒图:盒两端为四分位数,中位数标记,添加胡须,离群点独立标出

离群点:通常是值高/低于四分位数1.5×IQR

方差/标准差(样本;总体)

方差(Variance):

标准差(Standard deviation):方差的平方根

(4)描述性统计之基本统计图形

直方图(Histogram):图形显示每个列值的频率,条形图所示

显示有多大比例的点下落入每个类别

类别并不是均匀的宽度时有别于条形图一个关键:条形图的面积表示值而不是条形图的高度

类别通常指定为变量的一些非重叠区间。类别必须相邻

散点图(Scatter plot):

提供双变量的数据的第一印象:点的聚集,离群点等

每个值对作为一个坐标点绘于平面上

分位数图(Quantile Plot):

显示所有数据(允许用户评估全部行为和不寻常的事件)

分位数-分位数图(Q-Q图):

对着另一个分位数,绘制一个单变量分布的分位数

3.数据的相似性和相异性度量

(1)数据的相似性和相异性度量

相似性(Similarity):

数值测量两个数据对象类似程度

目标越相似时值越大

通常介于[0,1]

相异性(Dissimilarity):

数值测量两个数据对象差异程度

邻近度(Proximity)

(2)数据矩阵和相异度矩阵

数据矩阵(Data matrix):

相异性矩阵(Dissimilarity matrix):

(3)标称属性(名词性)的邻近度量

2个或多个状态,例如:red,yellow,blue,green(二元属性的推广)

方法1:简单匹配:

m:p个变量中匹配的个数

p:全部变量的个数

方法2:使用一系列的二进制属性

为M个名义状态的每一个产生一个新的二进制/二元属性

二进制数据的列联表:

对称二元变量的距离侧度:

不对称二元变量的距离侧度 :

Jaccard系数(不对称二元变量的相似性侧度):

二进制属性的相异度量

性别是对称属性

其他属性是非对称属性

令 Y和 P值为1,且N值为0

(4)数值属性相异性测度

Minkowski distance:一种流行的距离测度

h=1:曼哈顿距离(L1范数)

h=2:欧氏距离

计算例子:

(5)数值属性相异性测度—标准化

Z-score:

x:需标准化的原始数值,u:总体均值,σ:标准差

在标准偏差单位下,原始分数和总体均值之间的距离:“-”,“+”

数值属性相异性计算之前,一般先进行数据标准化处理

(5)余弦相似性

文档用词频来进行量化和表上,如下

余弦相似性计算公式:

4.python操作实现

数据的基本统计描述—集中趋势

均值

中位数

众数

方法一:

方法二:

数据的基本统计描述—离散趋势

极差

四分位数

四分位数极差(四分位距)

五数概况

单一箱线图

多个箱线图

方差和标准差

DataFrame描述性统计

数据的基本统计描述—基本统计图

条形图

饼状图

折线图

直方图

散点图

分位数—分位数图

雷达图

词云

计算数值属性的三种距离

数据挖掘(python实现)—认识数据相关推荐

  1. 数据挖掘 python库_python数据可视化、数据挖掘、机器学习、深度学习 常用库、IDE等...

    Qt 之 数字钟 本例用来展示 QTimer 的使用,如何定时的更新一个窗口部件. 1  QLCDNumber 类 QLCDNumber 是一种可将数字显示为类似 LCD 形式的窗口部件,它同 QLa ...

  2. python大数据分析实例-如何用Python分析大数据(以Twitter数据挖掘为例)

    原标题:如何用Python分析大数据(以Twitter数据挖掘为例) 来源:艾翻译(http://www.itran.cc/) 原文标题:Twitter Data Mining: A Guide to ...

  3. 视频教程-数据挖掘基础:零基础学Python数据分析-大数据

    数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...

  4. 为何python攀上数据科学巅峰?调查显示Python超越R

    根据KDnuggets 2017年最新调查,Python生态系统已经超过了R,成为了数据分析.数据科学与机器学习的第一大语言.本文对KDnuggets的此项调查结果做了介绍,并补充了一篇文章讲解为何P ...

  5. python量化投资必背代码-量化投资:用Python实现金融数据的获取与整理

    小编说:数据可以说是量化投资的根本,一切投资策略都是建立在数据基础上的.本文以优矿网为例,带领大家用Python实现金融数据的获取与整理. 本文选自<Python与量化投资:从基础到实战> ...

  6. python读取excelsheet-一文看懂用Python读取Excel数据

    原标题:一文看懂用Python读取Excel数据 导读:现有的Excel分为两种格式:xls(Excel 97-2003)和xlsx(Excel 2007及以上). Python处理Excel文件主要 ...

  7. 财务大数据比赛有python吗-Python 适合大数据量的处理吗?

    我很喜欢用python,用python处理数据是家常便饭,从事的工作涉及nlp,算法,推荐,数据挖掘,数据清洗,数据量级从几十k到几T不等,我来说说吧 百万级别数据是小数据,python处理起来不成问 ...

  8. python能处理多大的数据-Python 适合大数据量的处理吗?

    python 能处理数据库中百万行级的数据吗? 处理大规模数据时有那些常用的python库,他们有什么优缺点?适用范围如何? 王守崑,推荐系统,数据挖掘 需要澄清两点之后才可以比较全面的看这个问题: ...

  9. 确实会玩!教你用Python玩转数据~

    向大家推荐一个南京大学的公开课--用Python玩转数据 授课老师张莉博士是南京大学计算机科学与技术系副教授,主要研究领域为数据挖掘和自然语言处理.张老师上课走亲切风冷幽默路线,跟同学们相处愉快,常常 ...

  10. PDF课件下载!《用Python玩转数据》

    向大家推荐一个南京大学的公开课--用Python玩转数据 授课老师张莉博士是南京大学计算机科学与技术系副教授,主要研究领域为数据挖掘和自然语言处理.张老师上课走亲切风冷幽默路线,跟同学们相处愉快,常常 ...

最新文章

  1. windows2008 R2 如何建立FTP站点
  2. 解决sharepoint2010的多行文本框的插入图片—【从sharepoint】的disabled问题
  3. LeetCode 42. Trapping Rain Water 【两种解法】(python排序遍历,C++ STL map存索引,时间复杂度O(nlogn))
  4. electron 主进程与渲染进程 渲染进程与渲染进程 之间的通信
  5. baidumap vue 判断范围_vue中百度地图API的调用
  6. Centos6.7 64位安装配置kvm虚拟化
  7. 【蓝桥杯真题】蓝桥杯真题之旋转
  8. inkscape矢量图_使用Inkscape创建矢量图形的教程
  9. 室内设计——住宅空间室内设计(包含预览图jpg和.psd文件)
  10. cloudcompare断面提取
  11. Maven的setting仓库配置
  12. 东芝Toshiba DP-3003 一体机驱动
  13. 深度系统安装移动硬盘启动_如何安装PE系统(移动硬盘) ?
  14. 对一个整形数组进行顺序排列
  15. 数据库底层原理-------数据结构
  16. 小波阈值去噪的原理及程序
  17. 黑马程序员--C语言自学笔记---07预处理、进制、机器码
  18. git 下载代码到本地
  19. OCR识别之LEADTOOLS介绍
  20. 许奔创新社-第56问:创意洞见的基础是什么?

热门文章

  1. 正宇丨揭秘你不知道的网络水军产业链运作内幕
  2. win10无法使用Linux的samba,拒绝访问
  3. Word编辑公式 下划线取消自动套用格式 下划线不转义
  4. 【Go语言 · 学习笔记】
  5. matlab中输入数学字母,Matlab希腊字母和数学符号
  6. 在IDEA中手动创建基于Maven的Servlet项目
  7. 大一第一学期期末C语言程序设计笔记(一)
  8. 每日学习 与 每日未知
  9. 计算机桌面音量键在哪,win7系统控制音量的快捷方式有哪些
  10. 分享150个ASP源码,总有一款适合您