一、数据类型

1.属性的定义

每一条数据可以称为数据集的一个样本，而每一条数据要用不同的特征描述出来，特征也称为属性。
属性通常分为两大类。
一类是定性描述的属性，其可以划分为标称属性，布尔属性，序值属性，不具备数的大部分性质。
一类是定量描述的属性，即数值属性，用数表示，并且具有数的大部分性质，可以是整数值和离散值。

标称属性：符号或事物的名称。但是有时候，机器学习任务中，模型只能接受数值型属性，所以可以用one-hot编码将标称属性重新编码。
二元属性：只有0和1两个状态，如果一个二元属性的两种状态有相同的权重，就说这个二元属性是对称的，如果两种状态不同，则这个二元属性是非对称的。
序值属性：提高足够的信息确定数据对象之间的序。
以上三种属性都是对对象的定性描述，描述的是对象的特征，而不给出实际的大小或数量。

数值属性：可度量的，用整数或实数表示，定量的分析对象。
区间标度属性：用相等的单位尺度度量，这种属性允许我们定量和评估值之间的差
比率标度属性：具有固定零点的属性，可以说一个值是另一个值的几倍，也可以说两个值相差多少。
离散属性：具有有限或无限个数的值，可以用整数表示，可以用也可以不用整数表示。
连续属性：连续属性和数值属性通常等价。

二、数据的统计描述方法

在对数据进行分析之前，把握数据的全貌是至关重要的，基本的统计描述方法不仅仅用来识别整个数据集的性质和特点，发现数据集中的噪声和离群点，还能够对缺失的数据值进行补全。

1.数据的中心趋势度量

中心趋势指一组数据向某一中心值靠拢的倾向。
算术均值：X=(X1+X2+…+Xn)/n
如果有权重，可以计算加权算术均值。
加权算术均值：X=(X1f1+X2f2+…+XnXn)/(f1+f2+…+fn)
均值对极端值极为敏感，为了抵消极端值的影响，可以使用截断均值。

对于倾斜的数据，均值不能很好的反应数据的中心，可以使用中位数或众数。
中位数：一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数(或最中间两个数据的平均数）。
众数：是集合中出现频率最高的值。
中列数：是数据集的最大和最小值的平均值。
近似中位数：当数据集很大时，计算中位数开销很大，可以计算近似中位数来反映中心趋势。
公式如下：

其中，L1是中位数区间的下界，N是整个数据集中数据的个数，(∑freq)l是低于中位数区间的所有区间的频率和，freqmedian是中位数区间的频率，而width是中位数区间的宽度。

偏斜度是对数据分布偏斜方向以及程度的度量。
在偏态分布中，当偏斜度为正值，称为分布正偏，众数位于平均值的左侧
当偏斜度为负值，称为分布负偏，众数位于平均值的右侧
在完全对称的数据中，均值，中位数，众数都是同一个值。
可以根据众数，中位数，算术平均值之间的关系来判断分布是左偏态还是右偏态。

2.数据的离散趋势度量

离散趋势度量反应了数据集中的值远离其中心值得程度。离散趋势度量主要有极差，分位数，五数概括，方差和标准差。
极差：又称为全距，是指数据集中最大值和最小值之差。极差只考虑最大值和最小值，所以只反映了最大得离散程度情况。
四分位数：将一组数据集从小到大排列，然后将数据划分为4等份，一共可以取出3个数据划分点。这三个数据划分点就是四分位数。分别为Q1，Q2，Q3。
四分位距：IQR = Q3 - Q1
五数概括：数据集分布形状得完整概括包括中位数，四分位数Q1和Q3，最大，最小观测值。
盒图：五数概括得可视化，其中最小观测值min = Q1 - 1.5IQR
最大观测值max = Q3 + 1.5IQR。
离群点是大于最大观测值或者小于最小观测值的点。
方差和标准差：

方差低表示越趋向于平均值，越稳定。
标准差是方差的平方根。

三、数据对象关系的计算方法

数据对象关系的计算方法围绕一组对象的多个属性数据展开。
主要分为两种：对象之间的相似性，属性之间的相关性（要区分对象之间和属性之间）

1.度量数据对象的相似性

假设有n个对象，每个对象有n个属性，则构建的矩阵如下：

其中n行代表n个元组，即数据对象。n列代表每一个数据对象有n个属性。
d（i，j）来表示两个数据对象i和j之间的距离值，也就是相似度值，d（i，j）越大，表明两者距离越大，相似性越小。

根据不同的属性来定义不同的距离函数d（i，j）
标称属性：两个对象i和j之间的距离可以根据对象属性的匹配率来计算。
公式如下：

其中p是所有属性的数目，m是两个对象取值相同的属性数目。
二元属性：分为对称的和非对称的两种情况。
在分析对象间相似性时，对称的二元属性两个状态取值的权重是一样的，而非对称的二元属性两个状态取值的权重是不一样的。

其中a是i和j同时取1的属性数，b是i取1，j取0的属性数。c是i取0，j取1的属性数，d是i取0j取0的属性数。
如果二元属性是对称的，
如果二元属性是非对称的（而且当属性值为1时权重最高），则可以在属性总数中减去同时为0的情况。

数值型属性：首先要做规范化处理，做到无量纲差别，然后再选用距离度量公式。
常见的有欧氏距离，曼哈顿距离，切比雪夫距离，闵可夫斯基距离，标准化欧氏距离。
欧氏距离：
曼哈顿距离：
切比雪夫距离：

闵可夫斯基距离：是欧氏距离和曼哈顿距离的推广。

标准化欧氏距离：

其中的s1，s2，…，sn是不同属性的标准差。
标准化欧式距离也可以看成加权的欧氏距离。

序值属性：序值属性的值具有有意义的序或排位。
主要思想是将序值属性映射到[0,1]之间的连续型数值属性，然后再根据数值型属性的距离度量公式来计算。
（1）第i个对象的f值为xi,f，属性f有Mf个有序状态，用对应的秩（排位）
来代替xi,f
（2）将每个属性的值映射到[0,1]上，映射公式如下：

（3）使用数值属性的距离度量公式来计算。
比例标度型属性：
两种方法：
（1）采用与处理区间标度同样的方法
（2）对比例标度变量进行对数变换
Jaccard相似性：通过计算两个对象集合的交集相对大小来衡量相似性。

余弦相似性：取值范围为[-1,1]，其值越大，两个向量夹角越小，两个样本的相似性也就越大。

2.度量数据对象的相关性

皮尔逊相关系数：线性相关系数，取值范围[-1,1]，绝对值越大，表明相关度越高。如果相关系数为0，表明两个变量间不是线性相关，但有可能是其他方式相关。一般用于处理数值属性间的相关性。
公式如下：

其中，n为样本个数，为他们的标准差。

斯皮尔曼相关性系数：与皮尔满相关性系数不同的地方是：建立在秩次的基础上，适应范围更广。

协方差：
协方差通常用于衡量两个变量的总体误差。

其中，u = E（x），v = E（y）
卡方检验：对于标称属性，通常使用卡方检验。卡方检验的思想在于比较理论频数和实际频数的吻合程度。

数据认知与数据预处理--数据认知相关推荐

语言认知偏差_我们的认知偏差正在破坏患者的结果数据
语言认知偏差 How do we know if we are providing high-quality care? The answer to this question is sought b ...
“认知计算”如何有效释放数据价值
2016 IBM论坛上,IBM曾提出认知商业时代已经到来.在各行各业的企业内,海量数据认知带来的挑战正更为紧密地与其实际业务产生关联.但在这样的背景下,绝大多数数据并未得到有效利用,因此,需要新的技术 ...
谈谈对数据中台，数据治理，数据管理，数据资产管理相关内涵认知
企业数字化转型与数据资产管理间存在千丝万缕的关系,解开这层关系的关键是首要厘清如下二者的逻辑: 企业数字化VS数据中台企业进行数字化转型是否一定要建设数据中台呢? 大家可以这样理解,企业的数字化可以 ...
图像+预处理+数据增强+总结
图像+预处理+数据增强+总结图像与处理的中间和最终结果的不同版本,本身就是图像数据增强的一部分. 染色归一化数据增强 Image augmentation for machine learning ...
对图像数据最主要的预处理： Resize
简介: 对于图像进行预处理,对于训练视觉深度网络非常重要.可以借助于OpenCV中的相关的函数,或者Paddle中的对于图像预处理的函数完成.本文验证了对于旋转数字进行Resize的方法. 关键词: ...
PyTorch基础（四）-----数据加载和预处理
前言之前已经简单讲述了PyTorch的Tensor.Autograd.torch.nn和torch.optim包,通过这些我们已经可以简单的搭建一个网络模型,但这是不够的,我们还需要大量的数据,众所 ...
从零开始数据科学与机器学习算法-数据预处理与基准模型-01
读取数据函数 from csv import reader # 导入库 def read_csv(the_name_of_file_to_be_read): # 定义数据读取函数file = open ...
PyTorch 系列 | 数据加载和预处理教程
图片来源:Unsplash,作者:Damiano Baschiera 2019 年第 66 篇文章,总第 90 篇文章本文大约 8000 字,建议收藏阅读原题 | DATA LOADING AND ...
一、数据预处理——数据归一化数据标准化
一.数据预处理--数据归一化 & 数据标准化点击标题即可获取文章相关的源代码文件哟! 1.1 数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据 ...

数据认知与数据预处理--数据认知