机器学习算法中,一些算法要求数据符合正态分布,但是对于一些标签和特征来说,分布不一定符合正态分布,

我们可以用np.log1p(x),即取对数,这样可以使得数据在一定程度上符合正态分布的特征。(正态分布(Normal distribution),也称高斯分布(Gaussian distribution)

数据平滑处理 -- log1p( ) 和 exmp1( )

1.  数据预处理时首先可以对偏度比较大的数据用og1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个好的结果。

2. 平滑问题很容易处理掉,导致模型的结果达不到一定的标准,log1p( )能够避免复值得问题 — 复值指一个自变量对应多个因变量

log1p( ) 的使用就像是一个数据压缩到了一个区间,与数据的标准类似。其逆运算就是expm1的函数

由于使用的log1p()对数据进行了压缩,最后需要将预测出的平滑数据进行一个还原,而还原过程就是log1p的逆运算expm1.

log1p = log(x+1)

当x较大时直接计算,当x较小时用泰勒展开式计算。

#le是2.718281828459
np.log1p(1e-99)
#1e-99np.log(1 + 1e-99)
#0.0

结论:log1p函数有它存在的意义,即保证了x数据的有效性,当x很小时(如 两个数值相减后得到),由于太小超过数值有效性,用计算得到结果为0,换作log1p则计算得到一个很小却不为0的结果,

同样的道理对于expm1,当x特别小,就会急剧下降出现如上问题,甚至出现错误值。

未经过np.log1p()处理的,经过数据后,符合正态分布图像展示:

np.log1p()取对数符合正态分布相关推荐

  1. c语言如何判断数据是否符合正态分布_统计学里的数据正态性检验

    在前面的文章中讲过,很多模型的假设条件都是数据是服从正态分布的.这篇文章主要讲讲如何判断数据是否符合正态分布.主要分为两种方法:描述统计方法和统计检验方法. 01.描述统计方法 描述统计就是用描述的数 ...

  2. python 怎么取对数_概率矩阵分解(PMF)及MovieLens上的Python代码

    首先对Probabilistic Matrix Factorization这篇论文的核心公式进行讲解和推导:然后用Python代码在Movielens数据集上进行测试实验. 一. 背景知识 文中作者提 ...

  3. matlab 数据是否符合正态分布的判断方法

    一.问题描述 给定序列X=(x1,x2,x3,...,xn),判断是否该数据序列X符合正态分布. 二.方法 常见已知分布的检验方法:kstest.jbtest.lillietest.chi2gof等, ...

  4. 回归分析什么时候取对数_技术派|SPSS数据分析心得小结及心得分享!必备收藏...

    作者:徐定德 来源:经管之家,欢迎转载,欢迎分享. 学习数据分析之spss分析工具,可真的不是一般的功夫,真的要很认真和很细心才能做得好spss.下面我来和大家分享一下关于SPSS数据分析心得小结,希 ...

  5. 告诉你为什么数据要取对数

    告诉你为什么数据要取对数 2016-06-07 16:04 746人阅读 评论(0) 收藏 举报  分类: 机器学习(13)  平时在一些数据处理中,经常会把原始数据取对数后进一步处理.之所以这样做是 ...

  6. 数据处理取对数的作用

    作者:姚岑卓 链接:https://www.zhihu.com/question/22012482/answer/21315349 来源:知乎 著作权归作者所有,转载请联系作者获得授权. 如需要收回, ...

  7. 处理数据时,对数据取对数的意义

    平时在一些数据处理中,经常会把原始数据取对数后进一步处理. 之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有: 1. 缩小数据的绝对数值,方便计算. ...

  8. [1]数据分析中变量取对数的意义

    目录 数据取对数的理论来源 数据取对数的作用 数据取对数的理论来源 参考:https://www.zhihu.com/question/22012482 数据取对数的作用 原始数据取对数是由于基于对数 ...

  9. python取对数及作对数差在绘制散点图中的作用

    文章目录 前言 一.diff()运算 二.三种情况下的散点图 1.取数据 2.绘制散点图 总结 前言 问题背景:在做两变量散点图分析其相关性时,在某本书上看到了如下操作: trans_data = n ...

最新文章

  1. ViewPager撤消左右滑动切换功能
  2. Delphi中文件名函数-路径、名称、子目录、驱动器、扩展名
  3. LeetCode 04寻找两个正序数组的中位数(困难)二分法
  4. 数据库设计新手容易掉进的陷阱(不断更新中)
  5. 周鸿祎:在360新员工入职培训上的讲话
  6. ffmpeg解析TS流
  7. 简单粗暴入门JAVA之方法
  8. Alpha冲刺 - (4/10)
  9. swoole中退出、异常与错误的处理笔记
  10. linux中兴上网客户端,中兴新支点N-Print,简单高效Linux桌面操作系统网络打印方案...
  11. 加密货币交易所Gemini已支持新加坡元(SGD)
  12. 深入浅出分布式系统Raft协议
  13. mdf和ldf是什么文件
  14. 从零开始设计一款APP之Android设计规范篇
  15. java二分法流程图,程序框图的法(二分法).ppt
  16. 【转】资深眼镜人告诉你一些所不为人知的眼镜知识和内幕
  17. 批量生成二维码、打印
  18. 外贸公司邮箱大全,选择哪个企业邮箱最好用?
  19. windows-sys9 :windows 系统官方下载网址
  20. 生信识图之 点图进阶-3(MA)

热门文章

  1. 【FPGA Verilog】如何捕获信号Posedge和Negedge?学习记录
  2. oracle配置odbc数据源
  3. python—二次规划求解
  4. CS党必须了解的P/NP常识
  5. 流体动力学—迹线和流线
  6. 一文尽览 | 计算机视觉中的鱼眼相机模型及环视感知任务汇总!
  7. 目录——Java趣味编程100例
  8. 顺舟智能获中国电信智慧家庭产业联盟“智慧家庭创新合作奖”
  9. 老旧小区为什么要进行安防升级改造
  10. exam平台Java试题阶段(二)