数据预处理之对数变换

对数据做一些变换的目的是它能够让它符合我们所做的假设，使我们能够在已有理论上对其分析。

对数变换(log transformation)是特殊的一种数据变换方式，它可以将一类我们理论上未解决的模型问题转化为已经解决的问题。我将说两类比较有代表性的模型。

这句话交代了假设，也就是说，数学模型在实际问题的应用（应用数学）

逆文本频率指数（Inverse document frequency 缩写为ＩＤＦ）
我们很容易发现，如果一个关键词只在很少的网页中出现，我们通过它就容易锁定搜索目标，它的权重也就应该大。反之如果一个词在大量网页中出现，我们看到它仍然不很清楚要找什么内容，因此它应该小。概括地讲，假定一个关键词ｗ在Ｄｗ个网页中出现过，那么Ｄｗ越大，ｗ的权重越小，反之亦然。

在信息检索中，使用最多的权重是“逆文本频率指数” （Inverse document frequency 缩写为ＩＤＦ），它的公式为ｌｏｇ（Ｄ／Ｄｗ）其中Ｄ是全部网页数。

比如，我们假定中文网页数是Ｄ＝１０亿，应删除词“的”在所有的网页中都出现，即Ｄｗ＝１０亿，那么它的ＩＤＦ＝log(10亿/10亿）= log (1) = ０。

假如专用词“原子能”在两百万个网页中出现，即Ｄｗ＝２００万，则它的权重ＩＤＦ＝log(500) =6.2。

又假定通用词“应用”，出现在五亿个网页中，它的权重ＩＤＦ = log(2)则只有 0.7。也就只说，在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用 IDF，上述相关性计算个公式就由词频的简单求和变成了加权求和，即 TF1IDF1 +　TF2IDF2 ＋… + TFN*IDFN。

在上面的例子中，该网页和“原子能的应用”的相关性为 0.0161，其中“原子能”贡献了 0.0126，而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。

告诉你为什么数据要取对数
平时在一些数据处理中，经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数，取对数后不会改变数据的相对关系，取对数作用主要有：

1.缩小数据的绝对数值，方便计算。例如，每个数据项的值都很大，许多这样的值进行计算可能对超过常用数据类型的取值范围，这时取对数，就把数值缩小了，例如TF-IDF计算时，由于在大规模语料库中，很多词的频率是非常大的数字。

2.取对数后，可以将乘法计算转换称加法计算。

3.某些情况下，在数据的整个值域中的在不同区间的差异带来的影响不同。例如，中文分词的mmseg算法，计算语素自由度时候就取了对数，这是因为，如果某两个字的频率分别都是500，频率和为1000，另外两个字的频率分别为200和800，如果单纯比较频率和都是相等的，但是取对数后，log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411，这时前者的和更大，取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见，所以选择前者。

4.从log函数的图像可以看到，自变量x的值越小，函数值y的变化越快，还是前面的例子，同样是相差了300,但log500-log200>log800-log500，因为前面一对的比后面一对更小。

也就是说，对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的，例如对于价格，买个家电，如果价格相差几百元能够很大程度影响你决策，但是你买汽车时相差几百元你会忽略不计了。
4. 取对数之后不会改变数据的性质和相关关系，但压缩了变量的尺度，例如800/200=4, 但log800/log200=1.2616，数据更加平稳，也消弱了模型的共线性、异方差性等。

5.所得到的数据易消除异方差问题。

6.在经济学中，常取自然对数再做回归，这时回归方程为 lnY=a lnX+b ，两边同时对X求导，1/Y*(DY/DX)=a1/X, b=(DY/DX)(X/Y)=(DYX)/(DXY)=(DY/Y)/(DX/X) 这正好是弹性的定义。

当然，如果数据集中有负数当然就不能取对数了。实践中，取对数的一般是水平量，而不是比例数据，例如变化率等。

数据预处理之对数变换相关推荐

整理一份详细的数据预处理方法
作者:lswbjtu https://zhuanlan.zhihu.com/p/51131210 编辑:机器学习算法与Python实战为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道, ...
数据标准化处理方法_机器学习系列-数据预处理-数据标准化（归一化）-理论
在做一个具体的机器学习项目中,拿到收集到的数据后,一般都是需要做数据预处理,而标准化(暂时不考虑标准化和归一化的主要区别)是数据预处理中一个比较重要的环节,那么为什么需要对数据进行标准化处理呢? 数据 ...
python数据预处理
最近在看python数据分析与挖掘实战这本书,所以就顺手做个笔记,方便日后忘记了查找.这本书前面五章主要讲的是数据挖掘的建模过程,包括数据探索.数据预处理以及挖掘建模常用算法等几个方面.后面十章是案例 ...
【Python数据分析】数据预处理2——数据集成
数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储位置(如数据仓库)中的过程. 一.实体识别常见的实体识别有: 1.同名异义(两个不同数据源中属性名称相 ...
光滑噪声数据常用的方法_整理一份详细的数据预处理方法
重磅干货,第一时间送达作者:lswbjtuhttps://zhuanlan.zhihu.com/p/51131210 为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道,数据处理相关的工 ...
【Python实战】数据预处理（数据清理、集成、变换、归约）
[Python实战]数据预处理前言数据预处理概述数据清理异常数据处理 1.异常数据分析 2.异常数据处理方法缺失值处理噪声数据处理数据集成 1.实体识别 2.冗余属性 3.数据不一致数 ...
数据预处理-python实现
首先是数据读取:格式主要有excel,csv,txt等 import pandas as pd data = pd.read_csv(r'../filename.csv') #读取csv文件 data ...
机器学习之为什么要数据预处理？如何预处理数据？
在现实生活问题中,我们得到的原始数据往往非常混乱.不全面,机器学习模型往往无法从中有效识别并提取信息.数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,在采集完数据后,机器学习建模的首 ...
数据预处理与特征工程—12.常见的数据预处理与特征工程手段总结
文章目录引言 1.数据预处理 1.1 数据清洗 1.1.1 异常值处理 1.1.2 缺失值处理 1.2 特征预处理 1.2.1 数值型特征无量纲化 1.2.2 连续数值型特征分箱 1.2.2.1 无 ...

数据预处理之对数变换

数据预处理之对数变换相关推荐

最新文章

热门文章