统计学分为两大部分,描述性统计学和推断性统计学。而描述性统计学在建模的时候往往是很重要而又容易被人忽略的一步, 而它的作用往往如下:

1.发现数据中的异常

2.通过分布图发现离群值点

3.检查数据缺失情况

4.检查标签占比情况,如坏样本太少的话,需要抽样调整好坏样本比例

所需模块python模块

matplotlib

pandas

seaborn

numpy

SciPy

例子

首先用numpy来创造一组随机数,我这边创造一组正态分布的随机数,总共50个用于实验。

from numpy.random import normal, randint

datatest= normal(0, 50, size=50)

一般描述性统计的统计量有均值,众数,中位数,极差,标准差,方差

这三种重要的统计量,可以分别用numpy包,SciPy包,pandas包计算

Numpy包计算方法

from numpy import mean, median

import numpy as np

np.mean(datatest)---计算均值

np.median(datatest)—计算中位数

np.std(datatest)—计算标准差

np.var(datatest)—计算方差

scipy包计算方法

from scipy.stats import mode

mode(datatest)

pandas包计算方法

用pandas计算统计量,需要先把数据转换重pandas的数据框格式

先加列名’number’,转为字典

datatestn={'number':datatest}

再转为dataframe格式

datatestn =pd.DataFrame(datatestn)

就可以直接用

datatestn.mean()

datatestn.median()

datatestn.mode()

或者一步到位

datatestn.describe()

如上,产出数量,均值,标准差,最大最小值,以及各分位点。

datatestn.skew()

datatestn.kurt()

针对我们自己要分析的数据,可以在sas上面处理完,用python读取,例如:

datatestnnn=pd.read_sas(‘D:\dataplay.sas7bdat’)

datatestnnn['salary'].shape—取收入变量,再看行数和列数

然后用刚才提到的一系列方法分析,当用datatestnnn.skew()计算出来的偏度越大且为正数,说明数据的分布重尾在右边,右边的极端值较多,可能有较多的异常值。

可视化

可视化可以用matplotlib包和seaborn包,就可以从图片观察数据的分布,有直观的感觉。

import matplotlib.pyplot as plt

plt.hist(datatest,bins=50,color='b')

plt.xlabel('number')

plt.ylabel(Frequency’)

import seaborn as sns

sns.distplot(datatest)

要做箱线图的话可以执行以下代码

from pylab import *

解析金融反欺诈技术的应用与实践相关推荐

  1. 【风控术语】数字金融反欺诈技术名词表

    转自:https://blog.csdn.net/hajk2017/article/details/80866115 感谢博主分享 另附Tech Fin微信社群,感兴趣可添加微信wu805686220 ...

  2. 数字金融反欺诈技术名词表

    1.大数据分析(Big Data Analysis) 大数据指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高 ...

  3. 互联网金融领域反欺诈技术已发展到哪一步?

    http://www.ce.cn/xwzx/gnsz/gdxw/201711/13/t20171113_26835875.shtml 近日,在JDD大会上,京东金融集团副总裁.技术研发部总经理曹鹏介绍 ...

  4. 图数据库应用:金融反欺诈实践

    1 背景介绍 1.1 传统反欺诈技术面临挑战 数字技术与金融业的融合发展,也伴随着金融欺诈风险不断扩大,反欺诈形势严峻.数字金融欺诈逐渐表现出专业化.产业化.隐蔽化.场景化的特征,同传统的诈骗相比,数 ...

  5. 顶象深度画像亮相GMIC,用AI提升金融反欺诈

    顶象深度画像亮相GMIC,用AI提升金融反欺诈 凤凰新闻04-2819:30 原标题:顶象深度画像亮相GMIC,用AI提升金融反欺诈 "最近Facebook信息泄露问题,再次让隐私保护成为焦 ...

  6. 反欺诈技术揭秘-设备指纹VS关系网络模型 此博文包含图片 (2017-05-12 10:23:52)转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型 分类: 风控 文章来源:网络(经整合梳理

    反欺诈技术揭秘-设备指纹VS关系网络模型 (2017-05-12 10:23:52) 转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型 分类: 风控 文章来源:网络(经整合梳理,仅供交流学习使 ...

  7. 如何利用IP地址开展金融反欺诈?

    "用明天的钱,原今天的梦"."融化烦恼.贷来快乐",如今,我们随处可见这样诱人的广告语,我国互联网金融行业迎来了爆发式发展,甚至传统的商业银行也都纷纷推出自己的 ...

  8. 宜人贷何林海:社交图谱在金融反欺诈产品的应用

    在今年的「QingCloud Insight 2017」上,麦思博(msup)组织了主题为"AI落地实践"的专场论坛.宜人贷数据产品经理 何林海 在本场带来了题为<构建基于社 ...

  9. 金融反欺诈-交易基础介绍 - 阿里巴巴云誉【转载】

    转载{http://www.vuln.cn/7136} 0×00 前言 一.简介 如今,互联网金融比较火热,金融欺诈也变得非常普遍,金融反欺诈也应运而生.本文将主要介绍下金融交易中的一些基本内容,并简 ...

最新文章

  1. animation与transition区别
  2. 用 Flask 来写个轻博客 (19) — 以 Bcrypt 密文存储账户信息与实现用户登陆表单
  3. 科研工作者一般怎么找文献?
  4. 《网站安全攻防秘笈》摘录
  5. SpringBoot整合Redis集群版本问题
  6. connectionstring mysql_Entity Framework 6 自定义连接字符串ConnectionString连接MySQL
  7. 2022年中国物联网行业研究报告
  8. 下载android 源码对应的kernel版本
  9. 理解运算符优先级(简单易懂,建议收藏)
  10. 什麼是SWOT分析?示例和模板
  11. php 登陆微博,用新浪微博账号登录(第三方登录)
  12. css3 dyoe_【跑马灯】纯css3跑马灯demo
  13. html css ps切图教程,CSS切图学习之认识PHOTOSHOP(PS)
  14. 磊科路由器dns服务器老要修复,路由器DNS劫持的解决方法
  15. 联想服务器bios查看网卡信息,如何通过BIOS检查确认硬盘信息可被正常识别
  16. golang 数学函数
  17. 基于 Docker 的 Slurm 作业管理系统
  18. CT图像重建算法------射线驱动投影模型
  19. 虚拟换衣 VITON 论文笔记
  20. 百家号基于AE的视频渲染技术探索

热门文章

  1. 哪里有计算机一级的题库,计算机一级题库带答案哪有?
  2. 基于PHP的图片共享网站设计,基于php实现的web图片共享系统(论文+程序)
  3. android 之Dialog对话框(简易版)
  4. 游戏维护关闭服务器,游戏服务器正在维护中
  5. python 爬虫输出为空,python爬取文件时,内容为空
  6. python的openpyxl库如何读取特定列_Excelize 2.3.2 发布,Go 语言 Excel 文档基础库,2021 年首个更新...
  7. python为什么用号做注释符_Python为什么用#号作注释符?
  8. 空间金字塔池化SPP
  9. 机器学习笔记 invariance data augmentation
  10. 李宏毅线性代数笔记 10: PageRank