(本文是写给风控入门同学的建议!)

一 准备工作

根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:

科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;

非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。

后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。

左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。

右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。

核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。

所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。

画个VISIO:

所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)

那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。

1、行业经验互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。

风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。

2、知识基础

(以下详细内容请看笔者其他相关文章) - 数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。 - 统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。 - 数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。 - 常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。

3、代码能力python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。

(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)

二 面试问题

1、风控建模谈谈你对风控模型的理解?

模型如何设计? 可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。

对客群进行细分建模的本质是什么? 其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。

拒绝推断应该怎么做,作用是什么?效果怎么样? (多查资料,博学审问慎思明辨)

简要说明下标准评分卡开发流程 (多查资料,博学审问慎思明辨)

2、特征工程如何对数据做质量检验? 在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面: 1、数据分布。 2、数据集中度检测。 3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。

特征工程流程 关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。

筛选变量的常用方法 筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。

好的特征需要具备哪些优势? 1、稳定性高 2、区分度高 3、差异性大 4、符合业务逻辑

如何衍生特征? 变量的衍生并不复杂,通常我们会从三种角度出发: 1、数学运算。求和、比例、频率、平均等。 2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。 3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。 衍生出来的特征要符合实际业务含义,并且要保持稳定。

3、机器学习算法简单介绍你熟悉的几种算法及其在应用场景中的差别!

一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。

简单评价几种常用算法的优缺点: 1、逻辑回归 优点:简单、稳定、可解释、技术成熟、易于监测和部署 缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高 2、决策树 优点:对数据质量要求不高,易解释 缺点:准确度不高 3、其他元模型 4、组合模型 优点:准确度高,稳定性强,泛化能力强,不易过拟合 缺点:不易解释,部署困难,计算量大

4、模型评估模型评估的常用方法? 从三方面回答: 1、区分度:主要有KS和GINI指标,理解KS的定义及用法 2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法 3、稳定性:主要有PSI指标,理解PSI的定义及用法

auc和ks的关系? 有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。

5、模型部署模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。

6、模型监测上述一些运营数据和风控指标的关注

三 写在后边

在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。

总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。 ——北大经济学博士 香帅老师

风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。 ——数据驱动风险分析之父 阿什·古普塔

别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。

总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。

我是正阳, 很高兴能通过文字认识你,点个关注,后会有期。

微信公众号:正阳能量场

风控建模 python 知乎_风控建模基本要求及面试问题小结相关推荐

  1. 风控建模 python 知乎_智能风控:Python金融风险管理与评分卡建模

    推荐序 前言 第1章 信用管理基础 /1 1.1 信用与管理 /2 1.2 风控术语解读 /3 1.2.1 信贷基础指标 /4 1.2.2 信贷风险指标 /5 1.3 企业信贷风控架构 /7 1.4 ...

  2. python稳健性检验_风控模型6大核心指标(附代码)

    欢迎各位同学学习python金融风控评分卡模型和数据分析微专业课 在我们开发完信用分模型后,经常需要计算如下的一些指标:●      区分度的指标:○      AUC○      KS○       ...

  3. python 广义线性模型_数学建模/机器学习:广义加性模型(GAM)及其Python实现

    笔者做过国赛也做过美赛,其中一类典型问题就是分析相关性,从而进行预测或者其他操作.这类问题通常情况下属于比较常规的问题,一般通过matlab或SPSS分析相关性,得到一个较好的数值即可. 然而有的时候 ...

  4. 数学建模python教材推荐_数模竞赛专攻python应该准备什么?

    想起以前打开Matlab就不忍心关掉的阴影(无SSD打开及其慢). 没有什么非要二选一,喜欢哪个用哪个都行,两个都试试比一比也行,比赛更不会关心你的结果图哪儿来的(小孩才...大人全都...). Ma ...

  5. 数学建模python和java_参加数学建模用 MATLAB,还是 Python?

    用哪个不重要,重要的是能找到代码!代码查找和改写的能力很重要!建模就三天的时间,纯打代码肯定是来不及的,必须要找点套路!!! 一般情况下,这两个软件都可以,不过大多数人会选择使用MATLAB ,因为用 ...

  6. 儿童 编程 python 知乎_知乎热议!学完Python之后,我的编程能力竟然退化了!

    来源:雪球App,作者: 雪_雪雪_球,(https://xueqiu.com/7788828530/135705417) 在知乎上有一个特别火的问题:如何学Python? 你会看到很多高赞回答是: ...

  7. 怎么学python知乎_你是怎么学习Python的 ?

    大家不要看到这个文章的题目,就认为这是一篇广告软文.然而并不是,因为我看到了很多同行都被大数据.人工智能的热潮吸引了,开始纷纷学习python.这是好事,但看到了好多人都走了不少弯路,浪费了时间.于是 ...

  8. go还是python 知乎_知乎用Go替代Python

    说不上哪个语言会比另一个语言更好.只能说某个语言在某个方面处理某些问题更具有优势吧. 大概每个开发人员应该都会认为自己使用的语言是世界最好的语言吧.这都相对来说的.对于每个人应该都是不同的. 众所周知 ...

  9. @property python知乎_知乎某处XSS+刷粉超详细漏洞技术分析

    我觉得十分经典的一个漏洞,和大家分享一下~ 好久没法前端漏洞分析了,这次来一个. 将输入的信息传入URI参数,解码以后赋值与location.href.明显可以利用JavaScript:伪协议执行js ...

最新文章

  1. SAP QM 物料主数据QM视图里字段MARC-INSMK的更新
  2. cmd编译运行Java文件详解
  3. 如何用Java编写最快的表达式评估器之一
  4. 如何从0-1制作数据大屏,我用大白话给你解释清楚了
  5. 重大要素改变中的机会选择包括_种草莓通过IT技术实现,代码“魔法”改变了什么?...
  6. 清华计算机复试线2020,清华大学2020年研考复试线公布,复试时间待定
  7. MySQL中的这17个关键问题,一定要弄清楚!
  8. 常规对数据库库的操作
  9. C语言:输入一个华氏温度f,计算并输出对应的摄氏温度。计算摄氏温度的公式为:c=5/9*(f-32),输出取两位小数。
  10. ios网络学习------1get post异步请求
  11. 基于注解的 Spring MVC(上)
  12. 【转】为VS2005安装STLport
  13. 对软件开发感到惊讶的共识
  14. python调用百度地图画轨迹图_利用python和百度地图API实现数据地图标注的方法
  15. windows使用小技巧 ━━ Windows 10 HEVC扩展要收费怎么办?教你怎么免费下载HEVC扩展
  16. 通信原理学习笔记-第二章《基础知识》
  17. MMKV_Android数据持久化方案调研-MMKV SP REALM ROOM WCDB...
  18. Your Uninstaller! 注册码
  19. oa项目经验描述_OA项目实施经验总结,为你的项目成保航
  20. 【物理学术竞赛】——绳上的球(再续)

热门文章

  1. 清除webbrowser cookie/session的6种方法
  2. echarts在.Net中使用实例(一) 简单的Demo
  3. Linux cached过高问题
  4. Linux 定时任务crontab_014
  5. Linux之grep及正则表达式
  6. c语言中包含math.h的时用gcc编译要加-lm参数
  7. 搭建elsticsearch集群 报错 failed to send join request to master [{data-node-0}(已经测试)
  8. 在Linux环境下mysql的root密码忘记解决方法(三种)
  9. jQuery获取元素
  10. PHP的Composer install、require、update