为什么特征数据要做对数变换?
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。
取对数后,可以将乘法计算转换称加法计算。
某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897,
log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。
从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。
也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。
4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4,
但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。
所得到的数据易消除异方差问题。
在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a1/X, b=(DY/DX)(X/Y)=(DYX)/(DXY)=(DY/Y)/(DX/X)
这正好是弹性的定义。
为什么特征数据要做对数变换?相关推荐
- python 广告分析算法_[Python]研究广告渠道的特征数据与结果数据的相关性, 并对渠道作出评分模型...
官方描述 公司近三个月(30天)大力投放广告,累计投放的渠道有889,每个渠道的客户性质也可能不同,比如在优酷视频投广告和今日头条投放广告,效果可能会有差异.现在需要对广告效果分析实现有针对性的广告效 ...
- 大数据只做三件事,对用户的理解、对信息的理解、对关系的理解
转载自:http://www.itongji.cn/article/123130292013.html 大数据这个概念提了好多年.每次提到大数据的时候,都是个性化.精准化,大家能想到的就是这些.在很多 ...
- 大数据DBA:大数据数据库管理做什么
在大数据快速发展的大背景下,大数据相关的岗位需求也在增多,并且随着大数据业务的扩展,大数据技术团队的工作,也开始走向岗位细分,比如说在大数据储存阶段,也有专门的大数据DBA岗位.今天我们就来了解一下大 ...
- 从幂律分布到特征数据概率分布——12个常用概率分布
在机器学习领域,概率分布对于数据的认识有着非常重要的作用.不管是有效数据还是噪声数据,如果知道了数据的分布,那么在数据建模过程中会得到很大的启示. 首先,如下图所示8个特征数据概率分布情况(已经做归一 ...
- 虹软人脸识别 - 采用数据库存取人脸特征数据
虹软人脸识别 - 采用数据库存取人脸特征数据 前几天有个朋友遇到了个问题,他在使用虹软的人脸识别引擎时,想更换一下人脸识别的存储方式,原本demo中使用的是文件的方式进行存储,而他想要通过数据库的方式 ...
- 使用python爬取BOSS直聘岗位数据并做可视化(Boss直聘对网页做了一些修改,现在的代码已经不能用了)
使用python爬取BOSS直聘岗位数据并做可视化 结果展示 首页 岗位信息 岗位详情 薪资表 学历需求 公司排名 岗位关键词 福利关键词 代码展示 爬虫代码 一.导入库 二.爬取数据 1.爬取数据代 ...
- vc中人脸识别数据导入mysql_虹软人脸识别 - 采用数据库存取人脸特征数据
虹软人脸识别 - 采用数据库存取人脸特征数据 前几天有个朋友遇到了个问题,他在使用虹软的人脸识别引擎时,想更换一下人脸识别的存储方式,原本demo中使用的是文件的方式进行存储,而他想要通过数据库的方式 ...
- 长尾关健词有些什么特征,如何做尾关键词
长尾关健词有些什么特征,如何做尾关键词 现在的关键词竞争越来越激烈,而且许多关键词也被别人从百度等花钱抢购一空,所以短的关健词一般的站长很难做到有排名,那么长尾关键词就成了不少中小站长网站优化的首选, ...
- python使用sklearn中的make_classification函数生成分类模型(classification)需要的仿真数据、使用pandas查看生成数据的特征数据、目标数据
python使用sklearn中的make_classification函数生成分类模型(classification)需要的仿真数据.使用pandas查看生成数据的特征数据(features).目标 ...
最新文章
- 快速单目三维人手和身体的运动捕捉回归与整合
- FastFormers:实现Transformers在CPU上223倍的推理加速
- CNN tflearn处理mnist图像识别代码解说——conv_2d参数解释,整个网络的训练,主要就是为了学那个卷积核啊。...
- Zabbix安装(server和agent)及基本配置
- 用c语言设计一个统计字符个数的程序,「第6篇」「C程序上机题」「统计输入的字符个数思路与实现」...
- springMVC下载FTP上的文件
- Python使用PyQT制作视频播放器
- Ubuntu 出现apt-get: Package has no installation cand
- Shared_ptr与 boost::any
- python画散点图-python学习之matplotlib绘制散点图实例
- jenkins java jar_Jenkins 安装和配置、启动jar包
- [总结] LCT学习笔记
- 新买的服务器安装系统流程,新买的服务器安装操作系统
- kpw4换壁纸_发挥全部潜能,Kindle越狱指南
- linux 双显卡如何切换显卡,解决Ubuntu双显卡切换问题
- DELL笔记本UEFI+GPT安装window10与Ubuntu双系统
- 在北大国家发展研究院发言
- 网易互联网产品运营管培生面试经历--从群面到终面面试经验分享
- 使用 DrMemory 详细教程
- 猫盘救砖方案(2021年最新版)