大数据分析实战-信用卡欺诈检测(一)

大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证

大数据分析实战-信用卡欺诈检测(三)- 模型评估

文章目录

  • 正则化惩罚

正则化惩罚

正则化惩罚,这个名字看起来有点别扭, 什么要惩罚呢?先来解释一下过拟合的含义。

建模的出发点就是尽可能多地满足样本数据,在图6-11中,图6-11(a)中直线看起来有点简单,没有满足大部分数据样本点,这种情况就是欠拟合,究其原因,可能由于模型本身过于简单所导致。再来看图6-1(b),比图6-11(a)所示模型稍微复杂些,可以满足大多数样本点,这是一个比较不错的模型。但是通过观察可以发现,还是没有抓住所有样本点,这只是一个大致轮廓,那么如果能把模型做得更复杂,岂不是更好?再来看图 6-11(c),这是一个非常复杂的回归模型,竟然把所有样本点都抓到了,给人的第一感觉是模型十分强大,但是也会存在一个问题——模型是在训练集上得到的,测试集与训练集却不完全一样,一旦进行测试,效果可能不尽如人意。


在机器学习中,通常都是先用简单的模型进行尝试,如果达不到要求,再做复杂一点的,而不是先用最复杂的模型来做,虽然训练集的准确度可以达到99%甚至更高,但是实际应用的效果却很差,这就是过拟合。

我们在机器学习任务中经常会遇到过拟合现象,最常见的情况就是随着模型复杂程度的提升,训练集效果越来越好,但是测试集效果反而越来越差,如图 6-12 所示。

对于同一算法来说,模型的复杂程度由谁来控制呢?当然就是其中要求解的参数(例如梯度下降中优化的参数),如果在训练集上得到的参数值忽高忽低,就很可能导致过拟合,所以正则化惩罚就是为解决过拟合准备的,即惩罚数值较大的权重参数,让它们对结果的影响小一点。


子来看看其作用,假设有一条样本数据是x:[1,1,1,1]x:[1,1,1,1]x:[1,1,1,1],现在有两个模型∶

型参数θ1、θ2与数据x组合之后的结果都为1(也就是对应位置相乘求和的结果)。这是的效果相同呢?再观察发现,两个参数本身有着很大的差异,θ1只有第一个位置有值,第一个特征,其他特征完全不考虑;而θ2会同等对待数据中的所有特征。虽然它们的结让大家来选择,大概都会选择第二个,因为它比较均衡,没有那么绝对。

也需要进行这样的筛选,选择泛化能力更强的也就是都趋于稳定的权重参数。那么如何需要一个惩罚项,以惩罚那些类似θ,模型的参数,惩罚项会与目标函数组合在一起,让模型在迭代过程中开始重视这个问题,而不是建模完成后再来调整,常见的有L1和L2正则化惩罚项∶

两种正则化惩罚方法都对权重参数进行了处理,既然加到目标函数中,目的就是不让个别权重太大,以致对局部产生较大影响,也就是过拟合的结果。

在L1正则化中可以对w求累加和,但是只直接计算绝对值求累加和的话,例如上述例子中θ1和θ2的结果仍然相同,都等于1,并没有作出区分。

这时候L2正则化就登场了,它的惩罚力度更大,对权重参数求平方和,目的就是让大的更大,相对惩罚也更多。θ1的L2惩罚为1, θ2的L2惩罚只有0.25,表明θ1,带来的损失更大,在模型效果一致的前提下,当然选择整体效果更优的θ2组模型。

大数据分析实战-信用卡欺诈检测(四)-正则化惩罚相关推荐

  1. 大数据分析实战-信用卡欺诈检测(五)-逻辑回归模型

    大数据分析实战-信用卡欺诈检测(一) 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(三)- 模型评估 大数据分析实战-信用卡欺诈检测(四)-正则化惩罚 逻 ...

  2. 大数据分析实战-信用卡欺诈检测(三)- 模型评估

    大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(一) 文章目录 模型评估方法 模型评估方法 接下来,没错,还没到实际建模任务,还需要考虑模型的评估方法,为什 ...

  3. 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证

    第一部分已经写到这里了,看完第一部分再看这一部分:大数据分析实战-信用卡欺诈检测 文章目录 下采样方案 交叉验证 下采样方案 下采样方案的实现过程比较简单,只需要对正常样本进行采样,得到与异常样本一样 ...

  4. 大数据分析实战-信用卡欺诈检测

    文章目录 数据分析与预处理 数据读取与分析 样本不均衡解决方案 特征标准化 数据分析与预处理 假设有一份信用卡交易记录,遗憾的是数据经过了脱敏处理,只知道其特征,却不知道每一个字段代表什么含义,没关系 ...

  5. 毕业设计 - 题目:基于大数据的信用卡欺诈检测

    文章目录 0 简介 1 数据集 2 分析流程 3 数据预览 3.1 数据浏览 3.1.1 查看数据分布 4 数据规范化 4.1 amount特征缩放并去除time字段 4.2 解决样本不均衡问题 5 ...

  6. python之逻辑回归项目实战——信用卡欺诈检测

    信用卡欺诈检测 1.项目介绍 2.项目背景 3.分析项目 4.数据读取与分析 4.1 加载数据 4.2 查看数据的标签分布 5.数据预处理 5.1 特征标准化 5.2. 使用下采样解决样本数据不均衡 ...

  7. 机器学习项目实战----信用卡欺诈检测(二)

    六.混淆矩阵: 混淆矩阵是由一个坐标系组成的,有x轴以及y轴,在x轴里面有0和1,在y轴里面有0和1.x轴表达的是预测的值,y轴表达的是真实的值.可以对比真实值与预测值之间的差异,可以计算当前模型衡量 ...

  8. 机器学习项目实战----信用卡欺诈检测

    一.任务基础 数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据.此数据集显示两天内发生的交易,其中284807笔交易中有492笔被盗刷.数据集非常不平衡,正例(被盗刷)占所有交易的0.172 ...

  9. 机器学习项目实战----信用卡欺诈检测(一)

    一.任务基础 数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据.此数据集显示两天内发生的交易,其中284807笔交易中有492笔被盗刷.数据集非常不平衡,正例(被盗刷)占所有交易的0.172 ...

最新文章

  1. 深度学习与计算机视觉系列(9)_串一串神经网络之动手实现小例子
  2. 离开互联网大厂的年轻人都去了哪儿?
  3. [裴礼文数学分析中的典型问题与方法习题参考解答]5.1.21
  4. java option作用_java – 类Option [T]的意义是什么?
  5. python调包侠_拒绝调包侠,不需要高级算法和数据结构技巧
  6. Java任何一个元素都可以转换成String类型
  7. pycharm 运行.py文件如何像控制台那样传参?
  8. 【问题收集·知识储备】Xcode只能选择My Mac,不能选择模拟器如何解决?
  9. phpcms顶部导航代码、高亮显示设置
  10. git的CentOS服务端安装和windows客户端的使用
  11. 《AngularJS高级程序设计》——第2章 你的第一个AngularJS应用 2.1 准备项目
  12. .net中多控件共享事件处理程序的方法
  13. Kubernetes kubectl The connection to the server localhost:8080 was refused - did you specify the rig
  14. java 添加 psd_psd缩略图生成上传解决方案
  15. 使用 Swift 在 iOS 10 中集成 Siri —— SiriKit 教程(Part 1) 1
  16. vim java win
  17. WIN7修改“桌面”存储位置
  18. 在线订舱物流详情 广州力其
  19. 【蓝桥真题3】蓝桥改革变难,想进国赛这些能力你可缺一不可
  20. 备战Noip2018模拟赛5(B组)T2 Tree 采果子

热门文章

  1. cad 打开硬件加速卡_CAD卡顿?电脑带不动?几个简单实用的方法,解决CAD运行卡顿问题...
  2. 【script】python字符串相似度匹配
  3. pythonide的作用_Linux程序员宝典:2020年10款出色的Python IDE!
  4. Centos7上卸载openJdk安装,安装自己的JDK1.8
  5. Python 编写代码出现 process finished with exit code 0
  6. MyEclipse非正常关闭问题
  7. RazorExtensions Templated Razor Delegates
  8. Windows 下命令行修改文件夹的控制权限 Cacls
  9. 开启Python之路
  10. 无限分级 层次输出 demo