概率质量函数 (probability mass function,PMF)是离散随机变量在各特定取值上的概率。
概率密度函数(probability density function,PDF )是对连续随机变量定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。
累积分布函数(cumulative distribution function,CDF) 能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。对于所有实数x ,与pdf相对。

机器学习反欺诈实践:Python+scikit-learn+随机森林

金融领域的数据应用,从金融机构的角度通俗地讲,我认为主要体现在两个大的维度:
赚钱。包括不限于投资分析、资产收益率、债券收益与价格、获客分析、精准营销、用户画像、促销优惠、流失防范、客户挽留…
省钱。如:产品定价、合格投资人、KYC、风险定价、金融风险管理、反欺诈与反洗钱、运营优化…

![](https://img-blog.csdnimg.cn/img_convert/ecc350d1afa872e307eebdbc47895077.png)

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

1.一致性检查

一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。

2.无效值和缺失值的处理

由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。

估算。**最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。**这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。

**整例删除****是剔除含有缺失值的样本。**由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。

变量删除。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。

成对删除是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。

采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。因此,在调查中应当尽量避免出现无效值和缺失值,保证数据的完整性。

机器学习部分内容总结相关推荐

  1. [2022]李宏毅深度学习与机器学习课程内容总结

    [2022]李宏毅深度学习与机器学习课程内容总结 课程感受 第一讲必修 ML的三个步骤 第一讲选修 深度学习发展趋势 反向传播 从线性模型到神经网络 为什么要用正则化技术 为什么分类是用交叉熵损失函数 ...

  2. 基于机器学习的内容推荐算法及其心理学、社会学影响闲谈

    基于机器学习的内容推荐算法目前在各类内容类APP中使用的非常普遍.在购物.时尚.新闻咨询.学习等领域,根据用户的喜好,进行较为精准的用户画像与内容推荐.此类算法不但可以较为准确的分析用户的特征,如年龄 ...

  3. fprom预测结果内容_预测模型之机器学习 Machine Learning结果解读篇

    原标题:预测模型之机器学习 Machine Learning结果解读篇 学友提问:对于机器学习出来的只有图形,我怎么解释呢?怎样才能在临床使用呢? 论文的实例:2013年发表在The American ...

  4. 技术 | 入门机器学习必须知道的6件事,你可未必都了然于心了

    翻译 | AI科技大本营(rgznai100) 参与 | shawn 过去两年中,我曾经多次折服于机器学习的魅力.但每当我决定尝试新事物时,经常会不得不重新学习某些概念和课程,其实大部分学习就是这样一 ...

  5. 你离开学只差这个视频:李宏毅机器学习2020版正式开放上线

    机器之心报道 参与:思.Jamin 2020 年的机器学习和过去有一些不一样的地方:首先,这一门课增加了很多作业. 台大李宏毅老师的机器学习课程可以说是最具代表性的中文公开课之一,已成为大量国内初学者 ...

  6. 机器学习及其在信息检索中的应用

    机器学习及其在信息检索中的应用  --记李航研究员讲座 12月28号,我们迎来了新的一期"前沿研究讲座",本次讲座的主讲人是李航博士.李老师目前是微软亚洲研究院信息检索与挖掘组(I ...

  7. 独家 | 菜鸟级机器学习入门(附代码实例)

    作者:Ben Sanders 翻译:吴慧聪 校对:郑滋 本文约2400字,建议阅读10分钟. 本文将简要介绍什么是机器学习,其运作原理,以及两个主要的机器学习的算法. 简介 本文中,数据科学创业公司Y ...

  8. 一文掌握机器学习必备数学知识(附学习资源)

    来源:运筹OR帷幄 作者:留德华叫兽&王源 本文共5800字,建议阅读10分钟. 本文划分了ML数学基础的的初.中.高三个阶段并提供针对各阶段的学习资源. 0.前言 本篇文章是由留德华叫兽在知 ...

  9. 【经典课程】李宏毅机器学习2020版正式上线!!!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本文转自:机器之心 2020 年的机器学习和过去有一些不一样的地方:首先,这一门课 ...

最新文章

  1. antd table排序 vue_ant-design-vue中的table取消默认不排序的状态
  2. 大数据量高并发的数据库优化(转)
  3. 杭电1860--统计字符
  4. 公共钥匙盒(排序CCF)
  5. MarkDown之typora
  6. AGC004(A~E)
  7. 微机原理实验2:多字节BCD加法实验
  8. 运算均值方差_Python数据分析之NumPy(运算篇)
  9. 【ElasticSearch】ElasticSearch 7.8 IK 同义词 配置
  10. 第 20 次 CSP认证 202009-5 密信与计数
  11. mysql install and config
  12. 【转】 CSS3实现10种Loading效果
  13. SQL 动态创建临时表
  14. 【紫书第十一章】图论模型与算法入门
  15. 往十年不忘初心,新十年不负韶华丨万字长文带你完整回顾2020数据技术嘉年华
  16. dataframe两个表合并_python处理DataFrame数据的一些常用操作
  17. 开手游要选用怎么样的服务器
  18. c语言赛车游戏代码,python制作赛车游戏
  19. 浏览器查看请求与响应报文
  20. Visual Studio 2017安装使用方法

热门文章

  1. 商城系统PageBean分页 Cookie存储浏览记录
  2. Factory Method (工厂模式)
  3. codeblocks主题修改(vim)
  4. 《android基于andFix的热修复方案》思路篇
  5. 创建ros的程序包--3
  6. 原码 反码 补码 详解
  7. c#不可忍受之慢——谁是罪魁祸首
  8. C语言函数二维数组传递方法
  9. Python函数进阶
  10. 重写方法,重载方法,虚方法和抽象方法的使用