对数据做一些变换的目的是它能够让它符合我们所做的假设,使我们能够在已有理论上对其分析。

对数变换(log transformation)是特殊的一种数据变换方式,它可以将一类我们理论上未解决的模型问题转化为已经解决的问题。我将说两类比较有代表性的模型。

这句话交代了假设,也就是说,数学模型在实际问题的应用(应用数学)

逆文本频率指数(Inverse document frequency 缩写为IDF)
我们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的权重越小,反之亦然。

在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。

比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。

假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。

又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)则只有 0.7。也就只说,在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1IDF1 + TF2IDF2 +… + TFN*IDFN。

在上面的例子中,该网页和“原子能的应用”的相关性为 0.0161,其中“原子能”贡献了 0.0126,而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。

告诉你为什么数据要取对数
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:

1.缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。

2.取对数后,可以将乘法计算转换称加法计算。

3.某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。

4.从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。

也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。
4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。

5.所得到的数据易消除异方差问题。

6.在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a1/X, b=(DY/DX)(X/Y)=(DYX)/(DXY)=(DY/Y)/(DX/X) 这正好是弹性的定义。

当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。

数据预处理之对数变换相关推荐

  1. 整理一份详细的数据预处理方法

    作者:lswbjtu https://zhuanlan.zhihu.com/p/51131210 编辑:机器学习算法与Python实战 为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道, ...

  2. 数据标准化处理方法_机器学习系列-数据预处理-数据标准化(归一化)-理论

    在做一个具体的机器学习项目中,拿到收集到的数据后,一般都是需要做数据预处理,而标准化(暂时不考虑标准化和归一化的主要区别)是数据预处理中一个比较重要的环节,那么为什么需要对数据进行标准化处理呢? 数据 ...

  3. python数据预处理

    最近在看python数据分析与挖掘实战这本书,所以就顺手做个笔记,方便日后忘记了查找.这本书前面五章主要讲的是数据挖掘的建模过程,包括数据探索.数据预处理以及挖掘建模常用算法等几个方面.后面十章是案例 ...

  4. 【Python数据分析】数据预处理2——数据集成

    数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储位置(如数据仓库)中的过程. 一.实体识别 常见的实体识别有: 1.同名异义(两个不同数据源中属性名称相 ...

  5. 光滑噪声数据常用的方法_整理一份详细的数据预处理方法

    重磅干货,第一时间送达 作者:lswbjtuhttps://zhuanlan.zhihu.com/p/51131210 为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道,数据处理相关的工 ...

  6. 【Python实战】数据预处理(数据清理、集成、变换、归约)

    [Python实战]数据预处理 前言 数据预处理概述 数据清理 异常数据处理 1.异常数据分析 2.异常数据处理方法 缺失值处理 噪声数据处理 数据集成 1.实体识别 2.冗余属性 3.数据不一致 数 ...

  7. 数据预处理-python实现

    首先是数据读取:格式主要有excel,csv,txt等 import pandas as pd data = pd.read_csv(r'../filename.csv') #读取csv文件 data ...

  8. 机器学习之为什么要数据预处理?如何预处理数据?

    在现实生活问题中,我们得到的原始数据往往非常混乱.不全面,机器学习模型往往无法从中有效识别并提取信息.数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,在采集完数据后,机器学习建模的首 ...

  9. 数据预处理与特征工程—12.常见的数据预处理与特征工程手段总结

    文章目录 引言 1.数据预处理 1.1 数据清洗 1.1.1 异常值处理 1.1.2 缺失值处理 1.2 特征预处理 1.2.1 数值型特征无量纲化 1.2.2 连续数值型特征分箱 1.2.2.1 无 ...

最新文章

  1. 如何用虚幻引擎4和C++开发游戏?斯坦福相关课程上线
  2. Spring boot + Redis
  3. C语言常用宏定义(#define)使用方法
  4. Opencv 深度学习中为什么普遍使用BGR而不用RGB?
  5. 使用SQL Server分区表功能提高数据库的读写性能
  6. ORACLE RAC如何增加节点
  7. MyISAM与InnoDB的区别是什么?
  8. fatal: Authentication failed for又不弹出用户名和密码 解决办法
  9. Java随机数的创建
  10. Kylin Linux V10升级gcc操作
  11. Python 中的 PIL 库
  12. 伦敦时间现在几点_伦敦现在几点
  13. python关于二手房的课程论文_用python分析链家二手房信息
  14. FileZilla 服务器 报Warning: FTP over TLS is not enabled, users cannot securely log in.
  15. 腾讯云硬盘挂载宝塔命令
  16. 如何打开powershell 【超简单,一步完成】
  17. 如何用excel做一份好看的年度业绩报告,让领导满意呢?
  18. pytorch中register_hook以及register_forward_hook
  19. 跳槽一次能涨多少,今天带你见识到跳槽天花板,涨薪80%
  20. Linux 网络文件共享服务详细介绍

热门文章

  1. 【大唐杯学习超快速入门】5G技术原理仿真教学——通信网络认知
  2. Vue实现 “前后”图像对比效果
  3. P1015 [NOIP1999 普及组] 回文数 C语言实现
  4. Matlab按顺序读取文件夹内图片
  5. 在EXCEL中添加水印
  6. iOS10 注册极光推送(干货)
  7. 极光推送之iOS系统---devicetoken
  8. [OpenCv]简单摄像头监控Demo
  9. 【UE4 C++】如何关联GitHub 下载UE4引擎源代码
  10. 个人总结:机器学习与算法工程师方向面试题及答案(持续更新)