大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证

大数据分析实战-信用卡欺诈检测(一)

文章目录

  • 模型评估方法

模型评估方法

接下来,没错,还没到实际建模任务,还需要考虑模型的评估方法,为什么建模之前要考虑整个过程呢?因为建模是一个过程,需要优先考虑如何评估其价值,而不是仅仅提供一堆模型参数值。

准确率是分类问题中最常使用的一个参数,用于说明在整体中做对了多少。下面举一个与这份数据集相似的例子∶医院中有1000个病人,其中10个患癌,990个没有患癌,需要建立一个模型来区分他们。假设模型认为病人都没有患癌,只有10个人分类有错,因此得到的准确率高达990/1000,也就是0.99,看起来是十分不错的结果。但是建模的目的是找出患有癌症的病人,即使一个都没找到,准确率也很高。

这说明对于不同的问题,需要指定特定的评估标准,因为不同的评估方法会产生非常大的差异。

在这个问题中,癌症患者与非癌症患者人数比例十分不均衡,那么,该如何建模呢?

既然已经明确建模的目标是为了检测到癌症患者(异常样本),应当把关注点放在他们身上,可以考虑模型在异常样本中检测到多少个。对于上述问题来说,一个癌症病人都没检测到,意味着召回率(Recall)为0。这里提到了召回率,先通俗理解一下∶就是观察给定目标,针对这个目标统计你取得了多大成绩,而不是针对整体而言。

如果直接给出计算公式,理解起来可能有点吃力,现在先来解释一下在机器学习以及数据科学领域中常用的名词,理解了这些名词,就很容易理解这些评估方法。

下面还是由一个问题来引入,假如某个班级有男生 80人,女生 20人,共计 100人,目标是找出所有女生。现在某次实验挑选出50个人,其中20人是女生,另外还错误地把30个男生也当作女生挑选出来(这里把女生当作正例,男生当作负例)。

表列出了TP、TN、FP、FN四个关键词的解释,这里告诉大家一个窍门,不需要死记硬背,从词表面的意思上也可以理解它们。


上面介绍了3 种比较常见的评估指标,下面回到信用卡分类问题,想一想在这份检测任务中,应当使用哪一个评估指标呢?由于目的是查看有多少异常样本能被检测出来,所以应当使用召回率进行模型评估。

大数据分析实战-信用卡欺诈检测(三)- 模型评估相关推荐

  1. 大数据分析实战-信用卡欺诈检测(五)-逻辑回归模型

    大数据分析实战-信用卡欺诈检测(一) 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(三)- 模型评估 大数据分析实战-信用卡欺诈检测(四)-正则化惩罚 逻 ...

  2. 大数据分析实战-信用卡欺诈检测(四)-正则化惩罚

    大数据分析实战-信用卡欺诈检测(一) 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(三)- 模型评估 文章目录 正则化惩罚 正则化惩罚 正则化惩罚,这个名 ...

  3. 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证

    第一部分已经写到这里了,看完第一部分再看这一部分:大数据分析实战-信用卡欺诈检测 文章目录 下采样方案 交叉验证 下采样方案 下采样方案的实现过程比较简单,只需要对正常样本进行采样,得到与异常样本一样 ...

  4. 大数据分析实战-信用卡欺诈检测

    文章目录 数据分析与预处理 数据读取与分析 样本不均衡解决方案 特征标准化 数据分析与预处理 假设有一份信用卡交易记录,遗憾的是数据经过了脱敏处理,只知道其特征,却不知道每一个字段代表什么含义,没关系 ...

  5. 毕业设计 - 题目:基于大数据的信用卡欺诈检测

    文章目录 0 简介 1 数据集 2 分析流程 3 数据预览 3.1 数据浏览 3.1.1 查看数据分布 4 数据规范化 4.1 amount特征缩放并去除time字段 4.2 解决样本不均衡问题 5 ...

  6. python之逻辑回归项目实战——信用卡欺诈检测

    信用卡欺诈检测 1.项目介绍 2.项目背景 3.分析项目 4.数据读取与分析 4.1 加载数据 4.2 查看数据的标签分布 5.数据预处理 5.1 特征标准化 5.2. 使用下采样解决样本数据不均衡 ...

  7. 机器学习项目实战----信用卡欺诈检测(二)

    六.混淆矩阵: 混淆矩阵是由一个坐标系组成的,有x轴以及y轴,在x轴里面有0和1,在y轴里面有0和1.x轴表达的是预测的值,y轴表达的是真实的值.可以对比真实值与预测值之间的差异,可以计算当前模型衡量 ...

  8. 机器学习项目实战----信用卡欺诈检测

    一.任务基础 数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据.此数据集显示两天内发生的交易,其中284807笔交易中有492笔被盗刷.数据集非常不平衡,正例(被盗刷)占所有交易的0.172 ...

  9. 机器学习项目实战----信用卡欺诈检测(一)

    一.任务基础 数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据.此数据集显示两天内发生的交易,其中284807笔交易中有492笔被盗刷.数据集非常不平衡,正例(被盗刷)占所有交易的0.172 ...

最新文章

  1. 产品经理入门_所以您想成为产品经理? 这就是我的入门方式。
  2. 太生猛!AI应届生年薪涨到80万!网友:后悔生的太早
  3. 学会Python,我们可以从事哪几类工作呢?
  4. 海量数据随机抽样问题(蓄水池问题)
  5. 操作系统的运行机制和体系机构
  6. 带圈汉字 在线生成_手写签名在线生成器-手写签名在线生成器可复制
  7. java快速排序算法_JAVA版排序算法之快速排序示例
  8. [virtualenvwrapper] 命令小结
  9. idea常用快捷方式
  10. 编程范式之字符和基本类型
  11. java软件工程师自我评价_java开发简历自我评价【java简历自我评价模板】
  12. 接口测试中POST方法该怎么测?4种数据提交方式,测试用例设计和测试工具操作步骤全讲清
  13. 经典CNN图像分类网络汇总
  14. 微信通话服务器有录音保存吗,微信语音通话如何录音保存并回放
  15. 卡方检验的统计量推导_卡方检验如何计算?
  16. delete操作对UNDO表空间容量的冲击
  17. 批发记账本软件隐私政策
  18. css怎么做响应式布局,用CSS实现响应式布局
  19. unity3d的playmaker插件使用教程,五、进入区域改变平台颜色
  20. YAML简介(.yml文件后缀)

热门文章

  1. 使用keras为什么accuracy一直为0_TensorFlow 2.0+Keras 防坑指南
  2. python多目标跟踪卡尔曼滤波_卡尔曼多目标跟踪的例子?
  3. mysql如何建立索引workbench_MySQL数据库中如何正确的理解与使用索引?
  4. matlab改变矩阵的元素,Matlab中元素不变情况下改变矩阵形态——reshape()
  5. java输入输出及文件_(java基础)Java输入输出流及文件相关
  6. strstr函数_leetcode第28题实现strStr()
  7. visual studio 设计器不显示_设计模式 | Iterator设计模式
  8. 鸿蒙渊之后是什么任务,都说这次主线好,那我来唱唱反调吧
  9. 微服务实现不同登陆_微服务网关——实现篇
  10. fiddler证书 iphone_使用Fiddler进行iOS APP的HTTP/HTTPS抓包