风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量

  • 1、常识知识
  • 2、个例分析
  • 3、分布排查

智能手机的诞生改变了人类的生活方式,智能手机所承载的功能日臻完善、强大,人们在衣、食、住、行、工作、生活中面临的方方面面问题,似乎都可以在移动设备端找到答案。这也直接导致了人们越来越依赖于移动设备,大量的时间与关注力都花费到了手机上。据统计,国人每天平均使用手机时长超过100分钟,每天使用手机时长超过10个小时的更是大有人在,吃饭、睡觉、交通出行都是机不离手,眼不离屏已然是大部分人的普遍状态。对大部分人来讲,手机才是其最忠实的伴侣,真正了解其人行为习惯、喜恶偏好、日常作息的,非他的手机莫属。
随着这种趋势应运而生的是大量的移动设备数据服务商,实时监控着我们移动设备上各种应用的安装、卸载、活跃以及位置打点信息。在信贷风控领域,移动设备数据早就成为了数字化业务中不可或缺的数据底座,大大小小的信贷平台,只要有数字化业务,都在直接或间接地把移动设备信息作为一个重要维度去刻画客户。目前行业内对移动设备数据的挖掘和应用虽然早已过了“立柱架梁”的阶段,还还远达不到“积厚成势”的程度,所以本文做个初步探讨,讲一下如何从APP数据中进一步挖掘出更多有效信息,用于数字化建模。
目前提供移动设备APP数据的厂商大体分为两类,一类是做SDK服务的厂商,像极光、友盟、个推等等;一类就是基于流量监控的运营商,像移动、联通等,每类厂商的数据都各有优劣。像SDK厂商数据,优势就在于APP信息全面,对于安卓设备来讲,只要嵌入了其SDK服务的APP活跃了,就可以把设备中所有的APP信息统统上报,所以数据服务商那里掌握着大几千万的APP映射关系,这也为APP数据的挖掘提供了广阔的空间;其劣势在于,覆盖度低,主要表现在三个方面,一是只覆盖部分设备,具体而言就是只有这个设备上使用了嵌入其SDK服务的APP,厂商才能获取到该设备的数据,如果一个设备没有安装嵌入其SDK服务的APP,那该设备对厂商来讲就是个盲点,目前没有一家SDK服务商一家独大,SDK服务能覆盖个市面上十万、百万的APP就算有规模了,而这个数字和目前过亿款的APP相比,实在不多;二是活跃上报频次低,一般只有当嵌入其SDK服务的APP活跃时,厂商才能接收到上报的信息,这就导致对于那些不覆盖主流APP的SDK厂商来讲,很多设备一个月也就能看到几次上报信息;三是挑设备,对于IOS设备,由于其安全级别比安卓更高,厂商就只能看到嵌入了其SDK的APP的信息,而不能扫描整个设备列表,导致设备上的其它APP信息完全获取不到。对于运营商来讲,其优势在于覆盖度高,只要该设备在使用此运营商的流量,那这些信息都会被详细地记录下来,虽然在使用WIFI网络情况下的设备信息无从得知,但这个数据全面性相比SDK可算是高多了,但其主要的劣势也比较突出,就是拨测的APP属实有限,目前来看,运营商也就拨测了2万多款APP,除了这2万多款APP,我们可以详细知道设备在哪个时点用了多长时间,其它APP的信息就全然不知了,这相比全量上亿的APP也就只是九牛一毛。
这就是目前我们面临的实际数据情况,这种情况下,想要做到全知全能,无比精细是完全不可能的,甚至想要做一些比较精细化的探索目前阶段也是非常困难的,挖掘工作再深入,也必然逃不出“可能”、“大概”的概率性问题。所以我们的工作就是要在这种现实情况下,尽量挖掘出更多概率性更高的、可用的有效信息。
变量设计通常来自两个思路,一是根据常识知识设计变量,二是根据客户的个例调查,发现异常特征,并提炼形成具有普遍性的变量。从这样正反两个思路出发,最终交汇才能发现并设计出较好用的变量。当我们能看到客户的APP详细列表数据的时候,还可以使用第三种较为特殊的分析方法,即查看APP分布的方法来排查出能识别优质客户或高风险客户的APP,并总结形成可用变量。我们就从这三个思路出发,看一下在实际业务中,如何设计出较为好用的APP变量。

1、常识知识

从常识知识出发设计变量,就是利用我们平日的常识认知、经验知识、结合分析过的客户画像、调研报告等等来从APP数据中挖掘可用信息。我们可以从好、坏两个维度出发,从资质、品质两个维度来设计变量。
对于好的维度,从资质角度来讲,一般有稳定工作、特定职业、或有特殊身份的客户我们认为资质较好。怎么判断客户有稳定工作呢,可以从这么几个维度判断:

  • 企业微信、钉钉、飞书这样的APP定期活跃;
  • 安装有发放企业福利的APP,比如东方福利网、给到等;
  • 使用办公类的APP,比如发票报销、思维导图、腾讯会议等;
  • 使用个人所得税APP报税等等;

特定职业怎么去发现呢,APP里面线索也很多:

  • 安装有以教师版、教师端、医生版、医生端结尾的APP;
  • 很多公务员有特定的公务出行APP,比如公务之家等;
  • 大型企业内部专用的APP,比如中国石油员工宝、中油e学等;

特殊身份,包括党员、退役军人、高端差旅人士等都是优质属性:

  • 党员,最常见的的学习强国APP可以单独一类;
  • 其它党员类APP,比如某某党建平台、红旗飘飘等;
  • 退役军人,迷彩网、退役军人之家APP安装等;
  • 商旅人士,飞常准、各种商旅、航旅类APP等;

对于好的维度,从行为品质维度上也可以挖掘出很多好品质,比如勤于学习、热爱运动、热心公益、自我管理等等,可以从以下思路进行APP的挖掘:

  • 勤于学习:网易公开课、CSDN学院、资格证书等APP;
  • 热爱运动:Keep、Fit等APP的使用;
  • 热心公益:各种志愿者、爱心包裹、社会义工类APP;除此之外,用于核酸采集信息的“采集”APP也是一个很好的线索,安装了这类APP的不是热心公益,就是医护人员;
  • 自我管理:像是时光序、小番茄等时间管理类APP使用,Forest专注、时间锁等手机使用时长管理的APP使用,冥想星球、潮汐等冥想类APP的使用、定投理财类财富管理类APP的使用等等;

对于坏的维度,我们同样从资质和品质两方面去挖掘。
坏的资质同样可以从不稳定性职业、特殊身份两方面入手去挖掘:
不稳定性职业有以下这些线索:

  • 司机,比如以司机端、司机版结尾的APP;万顺车主、首约司机等司机用的APP;
  • 外卖快递员,比如快递哥、美团众包等等APP;
  • 房屋中介,比如幸福里经纪人、移动经纪人APP等;
  • 保险销售,比如神行太保APP等;

比较高危的特殊身份有以下这些线索:

  • 社区矫正人员,数字化时代,很多社区矫正和服刑人员也开始被施行数字化管理了,市面上可见很多款社区矫正类的APP,比如心岸、浙里矫、音容社矫等;
  • 重病人员,比如与癌共舞、癌度、乳腺癌之家等等这样能够大概率识别得了癌症的人群,对于重病人群,我们可以捐助,但不适合给他们商业性贷款,而且,在我们之前的实际业务经验中,会发现一些严重逾期客户在一段时间后直接注销户口了,排查后发现这些人很多借款的时候打点在医院附近,很可能是重病晚期的人在临死前贷了一笔,这种情况也不能不防。
  • 心理疾病,像心药医、抑郁症治愈日记等等APP可以大概识别;

对于坏的品质,就比较广泛了,可以从涉及黄赌毒、诈骗、不良行为几个方面入手:

  • 黄:涉黄类APP因为和监管审查不断的拉锯,所以更新换名非常快,可以考虑用关键字匹配的方式来识别此类app,比如“狼友、色欲、性感、午夜”之类的;
  • 赌:涉赌类APP同样变化无常,同样可以以关键字的形式去识别app,比如“葡京|娱樂場|百家乐|百家樂|威尼斯人”等等;
  • 骗:最直接要防控的就是骗贷,可以用“撸卡、撸贷、征信修复、撸口子、上岸之家”等关键词识别APP;
  • 虚拟定位:关键词“虚拟定位、位置修改、位置伪装”等等;
  • 应用分身:关键词“应用双开、虚拟分身、分身大师”等等;
  • VPN翻墙:关键词“翻墙神器、网络梯子”等等;

当然还有很多欺诈特征可以识别,这里就不一一列举了。
仅仅依靠常识来设计变量,毕竟是有局限性的,我们应该充分调研外部资料,获取外部信息来帮助我们补充完善变量的设计思路。比如,在一篇永安在线对黑灰产的调查研究报告中,就详细列出了市面上常用的黑灰产APP工具有哪些,而这些信息可以很大程度上帮助我们完善坏行为变量的设计,并拓宽变量的设计思路。

再比如在一篇列举欺诈APP的文章中展示了很多涉嫌诈骗的APP,虽然我们很难把这些涉嫌诈骗的APP都理全,但从这些APP中我们可以发现一些规律,比如很多涉诈APP名字都会用点号把汉字或字母隔开,那我们就可以根据这个规律提炼出一些挖掘APP的正则规则,把疑似涉诈的APP找出来。这些APP就可以在一定程度上把易于受骗,行为异常的客户体现出来。

总之,基于常识认知,沿着一个逻辑框架枚举出所有变量设计的思路,并通过广泛地调研各种行业资料和信息进行完善补充,是通过常识知识构造变量的基本做法。

2、个例分析

常识知识可以帮我们搭起一个较为完善的变量设计框架,但很难尽善尽美。个例调查,就可以让我们从思路的另一端出发,从个例客户的行为线索中提炼具有普遍意义的变量,让变量设计框架进一步趋于完善。
个例调查可以从逾期较为严重的客户着手,但更好的方式是能够根据贷后催收记录,把逾期客户根据不同的逾期原因进行分类,在明确了一个客户为什么逾期之后,再有针对性地去寻找他的行为线索。
比如,我们针对一个因赌博而严重逾期的客户,调查了他的APP列表,从他的APP列表中我们看不到任何网络赌博类的APP,但有一个比较小众的APP引起了我们的注意,叫做“默往”,经查询后发现默往是一个私密性非常高的聊天交友软件,进一步调查后,我们发现了这样一段内容:

当我们查阅了更多新闻后,发现默往可以说是一个骗子、网络赌博、炒币、黑灰产、涉黄的聚集地,类似默往的这种小众私密聊天软件还有蝙蝠、Instagram等等。当然我们并不是说,使用这种小众私密聊天软件的都是坏人,但安装了这种软件的客户值得我们警惕。我们可以把类似这种私密聊天软件都整理起来,或单独做一个变量,或用它和其它维度组合使用。
我们再来看另一个称自己做生意失败的案例,从这个客户的APP列表中也没有发现什么特别异常的东西,但同样找到了一个小众的APP,叫共信鼎。调查后发现,共信鼎就是传销,我们有理由怀疑这个客户所谓的生意失败,可能就是让这个传销把钱搞没了。

这同样给我们提供了一个变量衍生的思路,可以把类似这种涉及传销的APP整理归类,做变量的衍生。
除了这些蛛丝马迹的客户线索,我们也调查到一些特征比较明显的客户特征,比如有个客户我们发现他的列表中有这样两类APP:

一个是涉黄类的APP特别多,而且很多这类的APP从名字上看并不明显,但我们能把握一个明显的特征,就是很多涉黄APP会以“视频”,“社区”结尾,那我们就可以设置这样的规则,找出所有以视频、社区结尾的APP,并排除主流的社区、视频APP,当做一个疑似涉黄APP类别进行衍生变量。另外,当他安装了大量涉黄APP后,就不得不考虑把这些APP做一个隐藏,不让人轻易发现,从而也就有了第二类APP线索,应用隐藏类APP,这同样给了我们做变量衍生的线索,单独或组合使用。
个例调查就是这样从实践中来,到实践中去,以实践指导理论的方法论。

3、分布排查

分布排查,也可以说是一种实践调查的方式,是一种针对APP列表数据的比较特殊的方法。具体来说就是遍历所有客户所有安装的APP,看一看每一款APP到底有多少人安装,安装了这一款APP的客户整体风险表现是怎样的。通过一定的筛选条件,把覆盖一定人群,并且风险表现有明显区分度的APP都展示出来,再做具体分析。
通过这种方法,可以进一步弥补我们之前遗漏的APP类别或是完善已整理类别中的具体APP。比如我们通过这种方式,发现了一些涉及炒虚拟货币或挖矿的APP会覆盖一定的客群,且客群资质较差。

以上就是对APP数据挖掘思路方法的简单介绍,是一种理论结合实践的工作思路。以上所讲的这些也只是一个思路方法,和具体实践还有一段距离,而这段距离就是按照这个思路方法所进行的大量的调查研究、信息收集、整理汇总和实践检验,并注意与时俱进,将随时代变化而应运而生的最新APP纳入考虑范围,如此才能不断从数据中挖掘出真正有效用的信息和知识,从而不断完善信贷中的风控逻辑。

风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量相关推荐

  1. matlab提取数据画图,matlab提取excel表格数据画图-如何将Excel中的数据导入MATLAB并在MATLAB中画出图......

    在matlab上如何导入excel表格然后画图 工具:matlab 2018b 1.打开matlab,点击主页下面导入数据,可以导入excel数据,在此将自己命名的huitushuju文件导入: 2. ...

  2. App设计灵感之十二组精美的旅行App设计案例

    有哪些名胜古迹可以去旅行,旅行目的地的食宿如何解决,这些都可以通过旅行 App 来解决.来看看这十二组旅行 App 给你的灵感吧. ① Trip time mobile app screens by ...

  3. App设计灵感之十二组精美的健身App设计案例

    随着人们对身体健康的不断重视,健身运动 App 也随之繁衍,层出不穷.如何让自己的设计更加吸引用户?来看看这十二组健身 App 的界面设计,也许会带给你一些不错的灵感. ① Workout App b ...

  4. Aspose.Words for .NET使用教程(十二):在Word文档中使用图表轴

    Aspose.Words无需Microsoft Word也可在任何平台上满足Word文档的一切操作需求.本文将与大家分享如何检测文件格式和检查格式兼容性. [下载Aspose.Words for .N ...

  5. 如何从购物数据中挖掘出啤酒与尿布的关联关系?

      首先说一个关联分析的经典案例,零售业巨头沃尔玛对消费者的购物行为进行分析时发现,男性顾客在购买婴儿尿布时,通常会顺带购买几瓶啤酒来犒劳自己,于是推出了尿布和啤酒摆在一起销售的促销手段.而这个举措真 ...

  6. 【RecyclerView】 十二、RecyclerView 数据更新 ( 修改单条数据 | 批量修改数据 )

    文章目录 一.修改单条数据 二.批量修改数据 三.完整代码示例 四.RecyclerView 相关资料 一.修改单条数据 修改单条数据 : 调用 RecyclerView.Adapter 的 void ...

  7. 深聊全链路压测之:第二十二讲 | 如何解决 GoReplay 动态数据关联。

    解决 GoReplay 动态数据关联 1.引言 2.中间件 2.1 什么是中间件 2.2 如何使用中间件 3.关联 3.1 什么是关联 3.2 关联回放实现 4.总结 1.引言 第二十讲,我们聊的是G ...

  8. Unity(四十二):EPPlus读写Excel数据、JSON解析

    获取EPPlus 下载EPPlus 将得到的EPPlus.dll移动到Plugins文件夹下 读取Excel数据 // Assets/Example_01/Editor/HandleExcel.csu ...

  9. 【TensorFlow】TensorFlow从浅入深系列之十二 -- 教你深入理解卷积神经网络中的池化层

    本文是<TensorFlow从浅入深>系列之第12篇 TensorFlow从浅入深系列之一 -- 教你如何设置学习率(指数衰减法) TensorFlow从浅入深系列之二 -- 教你通过思维 ...

最新文章

  1. 象 DEV-Club 那样的彩色校验码
  2. 转载 想要在项目中引入其他项目的方法为
  3. 实验中遇到的Quartus II的Warning的解释、原因以及解决方法
  4. java笔试题_一个Java程序员在百度的笔试题整理
  5. 不同网段互PING,对不?
  6. vue 获取url地址的参数_2020年 vue常见面试问题总结(干货)!
  7. 地理信息系统概论_地理信息系统概论黄杏元第3版配套练习题库——才聪学习网...
  8. DP~数塔(hrbustoj1004)
  9. 怎么暂时关闭网站php,WordPress怎么临时关闭网站进行维护
  10. gitee如何搭建mysql_Windows基于gitee使用hexo搭建个人博客笔记
  11. linux删除目录tmpab是什么意思_linux 下tmp目录文件怎么被删除的?
  12. mysql插入日期_MySQL 的两个特殊数据类型属性 unsigned与 zerofill
  13. 要买多少路由器? 水题.
  14. 计算机不驱动u盘启动,电脑U盘驱动没有启用的解决方法
  15. 动图ps在html不动,教你如何用ps把动态图片加到静态图片上
  16. 第一代电子计算机英语,第一代电子计算机的意思
  17. 《微波原理与技术》学习笔记3传输线理论-史密斯圆图(Smith Chart)
  18. Python简介及官网文档
  19. 三个字组成的汉字 - 中国汉字的奇妙(二)
  20. 总体设计启发性规则7条

热门文章

  1. mysql 不免费了? java收费还远吗?
  2. ANSJ调用word2vec model文件
  3. 干货 | 呆滞库存(Slow moving)产生原因分析和预防措施
  4. 惊闻!港媒:中国首艘航母海试时间延后1个月(图)
  5. 计算机硬盘无法启动怎么办,电脑硬盘不读盘无法开机怎么办
  6. java梅森素数计算程序_梅森素数计算器(prime95)
  7. 【P2P网络】DHT协议基础1:Kademlia翻译稿
  8. 2020年笔记本电脑计算机专业,适合女生用的笔记本电脑排名2020
  9. python网易云_[Python] 网易云歌单/歌曲下载
  10. Python——循环嵌套