数据挖掘(python实现)—认识数据
1.数据对象与属性类型
数据集合的类型:记录、图或网络、有序的列表、空间、图像和多媒体等。
数据集由数据对象构成,一个数据对象代表一个实体。又称为样本,事例,数据点,对象,元组等。
数据对象由属性来描述。
属性(也称作维度,特征,变量):一个数据字段表示一个数据对象的某个特征。
属性类型:标称属性——与名称有关
类别、状态等
Hair_color={auburn,black,blond,brown,grey,red,white}
婚宴状态,职业,ID号,邮政编码
二元属性——是一种特殊的标称属性或布尔属性
只有2个状态的名词性属性(0和1)
对称二元:同样重要,例如性别
非对称:非同等重要,例如医疗检查中的阴性和阳性
序数属性——有意义的序,但是相继值之差是未知的
值有一个有意义的排序,但连续值之间的大小未知,例如衣服大小号
Size={small,medium,large},等级等
数字属性——数量的
区间标度:相等的单位尺度,没有真正的零点,如年;
比率标度:具有固定零点的数值属性,如重量,身高等。
标称属性、二元属性和序数属性都是定性的。
离散属性和连续属性:
离散属性——一个有限的或可数无限集值,例如邮政编码
连续属性——属性值为实数,通常表示为浮点变量
2.数据的基本统计描述
(1)数据描述性统计之集中趋势—均值,中位数,众数
均值(样本vs总体)(mean):n是样本大小,N是总体大小
加权算术均值:
截断均值:去掉高低极端值
中位数(median):奇数则为有序集的中间值,否则为中间两个数的平均
众数(Mode):出现频率最高的值,经验公式mean-mode=3×(mean-median)
(2)描述性统计之离散趋势—变异程度的度量
极差(全矩):
极差(range,全距)是数据中最大与最小间的差距
是衡量数据变异程度最简单的描述
全距对最大与最小数据的值的敏感性很强
分位数(分位点,percentile):
将一个随机变量的概率分布范围分为几个等份的数值点
常用中位数(二分位数)、四分位数、百分位数等
四分位数(quartile):Q1,Q2,Q3,Q4
中间四分位数极差(Inter-quartile range):IQR=Q3-Q1
四分位点内距是第三与第一四分位数间的差距
是中间50%的数据的全距
它能够克服极端值的影响
五数概况(five-number summary):最小值,Q1,中位数,Q3,最大值
Boxplot:
使用盒子表示数据
盒子两端是第1/3四分位数,即盒子高度为四分位数极差IQR
盒内的线表示中位数
胡须:不超过四分位数1.5×IQR的最大/小数据点
离群点(Qutliers):单独绘出满足某个离群点阈条件的离群点
方差:方差是各数据值与平均值之间的差异
如果数据集为样本,样本方差为
如果数据集为总体,总体方差为
标准差:标准差为方差的正平方根
如果数据集是样本,样本标准差为
如果数据集为总体,总体标准差为
变异系数:变异系数是标准差相对于平均数的大小的度量。
如果数据集为样本,计算为
如果数据集为总体,计算为
(3)描述性统计分析—离散趋势度量
极差(range),四分位数(Quartiles),离群点(outliers),盒图(boxplots)
极差(range):max-min
四分位数(quartile):Q1(25百分位数percentile),Q3(75百分位数percentile)
中间四分位数极差(Inter-quartile range):IQR=Q3-Q1
五数概括:min,Q1,median,Q3,max
盒图:盒两端为四分位数,中位数标记,添加胡须,离群点独立标出
离群点:通常是值高/低于四分位数1.5×IQR
方差/标准差(样本;总体)
方差(Variance):
标准差(Standard deviation):方差的平方根
(4)描述性统计之基本统计图形
直方图(Histogram):图形显示每个列值的频率,条形图所示
显示有多大比例的点下落入每个类别
类别并不是均匀的宽度时有别于条形图一个关键:条形图的面积表示值而不是条形图的高度
类别通常指定为变量的一些非重叠区间。类别必须相邻
散点图(Scatter plot):
提供双变量的数据的第一印象:点的聚集,离群点等
每个值对作为一个坐标点绘于平面上
分位数图(Quantile Plot):
显示所有数据(允许用户评估全部行为和不寻常的事件)
分位数-分位数图(Q-Q图):
对着另一个分位数,绘制一个单变量分布的分位数
3.数据的相似性和相异性度量
(1)数据的相似性和相异性度量
相似性(Similarity):
数值测量两个数据对象类似程度
目标越相似时值越大
通常介于[0,1]
相异性(Dissimilarity):
数值测量两个数据对象差异程度
邻近度(Proximity)
(2)数据矩阵和相异度矩阵
数据矩阵(Data matrix):
相异性矩阵(Dissimilarity matrix):
(3)标称属性(名词性)的邻近度量
2个或多个状态,例如:red,yellow,blue,green(二元属性的推广)
方法1:简单匹配:
m:p个变量中匹配的个数
p:全部变量的个数
方法2:使用一系列的二进制属性
为M个名义状态的每一个产生一个新的二进制/二元属性
二进制数据的列联表:
对称二元变量的距离侧度:
不对称二元变量的距离侧度 :
Jaccard系数(不对称二元变量的相似性侧度):
二进制属性的相异度量
性别是对称属性
其他属性是非对称属性
令 Y和 P值为1,且N值为0
(4)数值属性相异性测度
Minkowski distance:一种流行的距离测度
h=1:曼哈顿距离(L1范数)
h=2:欧氏距离
计算例子:
(5)数值属性相异性测度—标准化
Z-score:
x:需标准化的原始数值,u:总体均值,σ:标准差
在标准偏差单位下,原始分数和总体均值之间的距离:“-”,“+”
数值属性相异性计算之前,一般先进行数据标准化处理
(5)余弦相似性
文档用词频来进行量化和表上,如下
余弦相似性计算公式:
4.python操作实现
数据的基本统计描述—集中趋势
均值
中位数
众数
方法一:
方法二:
数据的基本统计描述—离散趋势
极差
四分位数
四分位数极差(四分位距)
五数概况
单一箱线图
多个箱线图
方差和标准差
DataFrame描述性统计
数据的基本统计描述—基本统计图
条形图
饼状图
折线图
直方图
散点图
分位数—分位数图
雷达图
词云
计算数值属性的三种距离
数据挖掘(python实现)—认识数据相关推荐
- 数据挖掘 python库_python数据可视化、数据挖掘、机器学习、深度学习 常用库、IDE等...
Qt 之 数字钟 本例用来展示 QTimer 的使用,如何定时的更新一个窗口部件. 1 QLCDNumber 类 QLCDNumber 是一种可将数字显示为类似 LCD 形式的窗口部件,它同 QLa ...
- python大数据分析实例-如何用Python分析大数据(以Twitter数据挖掘为例)
原标题:如何用Python分析大数据(以Twitter数据挖掘为例) 来源:艾翻译(http://www.itran.cc/) 原文标题:Twitter Data Mining: A Guide to ...
- 视频教程-数据挖掘基础:零基础学Python数据分析-大数据
数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...
- 为何python攀上数据科学巅峰?调查显示Python超越R
根据KDnuggets 2017年最新调查,Python生态系统已经超过了R,成为了数据分析.数据科学与机器学习的第一大语言.本文对KDnuggets的此项调查结果做了介绍,并补充了一篇文章讲解为何P ...
- python量化投资必背代码-量化投资:用Python实现金融数据的获取与整理
小编说:数据可以说是量化投资的根本,一切投资策略都是建立在数据基础上的.本文以优矿网为例,带领大家用Python实现金融数据的获取与整理. 本文选自<Python与量化投资:从基础到实战> ...
- python读取excelsheet-一文看懂用Python读取Excel数据
原标题:一文看懂用Python读取Excel数据 导读:现有的Excel分为两种格式:xls(Excel 97-2003)和xlsx(Excel 2007及以上). Python处理Excel文件主要 ...
- 财务大数据比赛有python吗-Python 适合大数据量的处理吗?
我很喜欢用python,用python处理数据是家常便饭,从事的工作涉及nlp,算法,推荐,数据挖掘,数据清洗,数据量级从几十k到几T不等,我来说说吧 百万级别数据是小数据,python处理起来不成问 ...
- python能处理多大的数据-Python 适合大数据量的处理吗?
python 能处理数据库中百万行级的数据吗? 处理大规模数据时有那些常用的python库,他们有什么优缺点?适用范围如何? 王守崑,推荐系统,数据挖掘 需要澄清两点之后才可以比较全面的看这个问题: ...
- 确实会玩!教你用Python玩转数据~
向大家推荐一个南京大学的公开课--用Python玩转数据 授课老师张莉博士是南京大学计算机科学与技术系副教授,主要研究领域为数据挖掘和自然语言处理.张老师上课走亲切风冷幽默路线,跟同学们相处愉快,常常 ...
- PDF课件下载!《用Python玩转数据》
向大家推荐一个南京大学的公开课--用Python玩转数据 授课老师张莉博士是南京大学计算机科学与技术系副教授,主要研究领域为数据挖掘和自然语言处理.张老师上课走亲切风冷幽默路线,跟同学们相处愉快,常常 ...
最新文章
- windows2008 R2 如何建立FTP站点
- 解决sharepoint2010的多行文本框的插入图片—【从sharepoint】的disabled问题
- LeetCode 42. Trapping Rain Water 【两种解法】(python排序遍历,C++ STL map存索引,时间复杂度O(nlogn))
- electron 主进程与渲染进程 渲染进程与渲染进程 之间的通信
- baidumap vue 判断范围_vue中百度地图API的调用
- Centos6.7 64位安装配置kvm虚拟化
- 【蓝桥杯真题】蓝桥杯真题之旋转
- inkscape矢量图_使用Inkscape创建矢量图形的教程
- 室内设计——住宅空间室内设计(包含预览图jpg和.psd文件)
- cloudcompare断面提取
- Maven的setting仓库配置
- 东芝Toshiba DP-3003 一体机驱动
- 深度系统安装移动硬盘启动_如何安装PE系统(移动硬盘) ?
- 对一个整形数组进行顺序排列
- 数据库底层原理-------数据结构
- 小波阈值去噪的原理及程序
- 黑马程序员--C语言自学笔记---07预处理、进制、机器码
- git 下载代码到本地
- OCR识别之LEADTOOLS介绍
- 许奔创新社-第56问:创意洞见的基础是什么?