反欺诈之地址的处理和使用
反欺诈之地址的处理和使用(一)
信用卡申请需要填写家庭地址、卡寄地址、公司地址;电商购物需要填写收货地址;外卖订单需要填写订单地址;保险理赔会有出险地址;第三方支付会有消费地址……因互联网和O2O的快速发展和广泛普及,使得地址信息成为了一种普遍的采集字段。但目前风控领域对地址的使用大都比较浅显,甚至有的信贷公司和银行仅在催收时才会使用地址信息,但实际上,地址所包含的信息十分有价值,被诸多公司如此冷落也着实可惜。以下,黄姐姐就结合相关文献和项目经验,来系统性地梳理一下地址信息的处理和使用方法。
#地址的种类#
· 家庭地址:通常为用户的住宅地址,可能是自有住房,也可能是租用住房;
· 公司地址:通常为用户的工作地址,例如xxx大厦,xxx园区;
· 户籍地址:户口本/身份证上的地址。特别地,某些人可能持有集体户口,例如大学生;
· 收货地址/订单地址:点外卖,网购时,要求送货员/快递员送货的地址。大部分为家庭地址和公司地址,也有可能是他人地址(送礼物给他人)和酒店地址(出差)
· 定位地址:通过GPS或其他技术手段定位发生动作时的地址。
· 卡寄地址:办理信用卡时邮寄卡片的接收地址;
· 出险地址:车祸发生的地址。
#地址的获取方式#
· 用户主动填写;
· 平台通过技术手段主动获取(包含第三方提供);
可以想象,后者可信度更高,但也不排除有GPS模拟器、IP模拟器等干扰。例如,当坏人知道一个城市的地址比一个农村的地址可以获得更高的信用卡额度;或者一个高房价小区的IP可以获得更高的贷款额度,他们就会利用模拟器去模拟这样的条件。
#利用地址进行欺诈的常用手法#
· 真实地址:为了能够申请到大额信用卡,或者申请到贷款,一些用户找中介为其包装信息。采用的方式是网上寻找某个公司的地址,电话则留中介公司的电话,以应付电话审核员的电话验真。这种方式,中介通常喜欢瞄准那些新开的公司,由于其网络信息很少,大多没有公司主页,所以审核员很难对其公司真实情况进行验证。为了更加逼真,用户所填写的公司地址也按照其营业执照(工信部网站可查)填写。黄姐姐在上海某银行做一个信用卡申请项目时,发现一个月内的17个申请全部来自一家注册不到三个月的公司,所有申请的卡寄地址全部填写家庭地址,职位均为会计。单纯想一想,也觉得这家中介笨得可以了。但看公司名称和公司地址,的确可以匹配,偏偏又躲得过银行的风控体系,也不得不佩服中介这愚蠢的聪明!
· 虚假地址:在外卖平台大战期间,黄姐姐有幸参与了一家大型外卖平台的反欺诈项目。由于这一期间,各个平台的首单红包很大,吸引了一大批网络黑产,攻击方式也是变化多端、五花八门,其中一种就是填写虚假地址。首先,跟一个饭店串通好,再用n个新账号在这家店铺下单,送餐地址填写一个根本就不存在的地址。甚至有人直接在订单备注里写“不需要配送”等留言,让店主知道这是自己人。再后来,送餐员也加入了这个利益链。通过整个闭环操作,骗取了大量的平台补贴(此处心疼投资人三秒)。
· 模糊地址:现金贷被央妈列入重点监管对象后,消费贷如雨后春笋般涌现,几个主流电商平台也位列其中:如京东白条,蚂蚁花呗,唯品花等。消费贷的兴起引发了黑产的套现风潮,其方式通常是通过购买3C等容易变现的商品,再进行变卖套现(俗称“额度回收”)。对于有入驻商家的电商平台,也会有直接勾结的情况——你买个Iphone,我寄给你个砖头,直接利用平台推广期间的消费分期免息福利,套取大量资金。电商平台为了减少这种套现行为,对于同一地址集中订单的情况做了限制。为了骗过系统,绕过风控规则,不法分子采用模糊地址的方式进行交易。例如:xxx小区门口,xxx广场,不写具体几幢几号房间,并在备注里写“到了电话联系,自取”。对于这种没办法精确到门牌号的模糊地址,风控规则很难覆盖全面。如果采用一刀切,会引起大量的误伤,十分棘手。
· 特殊地址字符:为了对抗各个平台的风控规则,不法分子采用繁体字、错别字、地址中间夹杂特殊字符以分割关键词等方式进行攻击。例如,对电商提出的分期免息福利,不法分子通过测试和内外勾结手段获知,如果地址中出现“手机城”三个字,则会被认定为高风险用户,他们会采用例如“首机城”(故意写错别字)、“手ji城”(采用拼音)、“手机%城”(加特殊字符)、手機城(繁体字)等方式越过风控规则。
背景说明:在消费分期场景套现中,对于购买到的商品的销赃通常需要包含零售商这一环节,甚至有些零售商就是套现头子。通用做法是,用户采用平台下发的额度下单,直接填写零售商的地址,例如xxx手机城,xxx电脑城等,零售商收到货后,以8.3折~9.2折的价格给到用户现金,如此,套现完成。所以,通过对收货地址的关键词识别,可以判别一些高风险用户。而为了躲避这一规则,不法分子就通过各种手段把关键词做变更和分割
· 更改地址和地址排序:针对小贷申请场景,通常会让用户填写几个常用地址。用户可以通过调整常用地址次序来获得更高的评分;针对一些消费分期场景,为了获得更高的额度或者为了获得使用权限,用户会先填写一个高级CBD(会被认为是优质客户)的地址下单,成功使用消费分期权益后,再打电话给客服更改成实际地址(可能是一个高风险地址)。而电商的通用做法是直接检测下单地址,对于客服人工修改过的地址则关注较少,因此给了不法分子可乘之机。如下图所示:
某贷款产品的申请表
某论坛的用户经验分享
更换地址可以获得更高授信额度
反欺诈之地址的处理和使用(二)
反欺诈之地址的处理和使用(一)系统地梳理了地址的种类和利用地址的欺诈手法,本文将以此为基础,介绍一下地址的处理和使用方法。
#地址的标准化#
(插播一则笑话:一天,黄姐姐在上海地铁上,听两个游客聊天,甲貌似在上海读书,乙从北京过来玩。乙说:我要去外滩,城隍庙和陆家口…甲没听清,什么?乙又重复了一遍:外滩,城隍庙和陆家口…这时,周围一群人都笑趴了,黄姐姐也是憋出了内伤!甲强忍住笑说:陆家嘴!乙一脸懵逼:哦哦,我说张家口说顺口了,对对,陆家嘴。)
言归正传,人有对常规地址的自动识别能力(一提到陆家嘴就知道在上海)和纠错能力(能知道陆家口是陆家嘴的误读),而机器没有。为了让地址更有识别度,并且能让机器看得懂,需要对地址进行标准化。何为标准化?让我们看一个标杆性的地址标准化产品——淘宝。想必在淘宝/天猫买过东西的人都知道,我们在填写收货地址时,通常让我们按照省+市+区+街道+详细地址这五项来区分,体贴的淘宝,对于我们不太确认的地址,还提供“暂不知道”这一选项,之后会根据我们填写的详细地址来做匹配,以完善标准化信息,如下图所示。
按照省+市+区+街道四个等级填写,且在街道不确定时,提供“暂不知道”选项
再完善详细地址后,会自动匹配对应街道
地址的标准化在采集时强制处理是最简单有效的做法,但对于历史数据的修复,以及对错误数据的更改和对特殊字符的处理,则需要比较细致地处理。以下罗列了几种常用的方法。
#不同种类地址的评估维度#
地址标准化好后,就可以根据地址的静态信息和动态信息对其进行画像了。
#贴标签#
地址标准化并根据评估维度进行字段衍生后,就可以为每个地址/区域贴标签了。标签也可以按照几个维度来贴:
1.按照省、市、区、街道、商圈、楼、室几个级别来贴;
2.按照房价绝对值和相对值来贴;
3.按照关键词来贴,例如:“大学”对应老师或学生,“医院”对应医生、护士和病人,“电脑城”/“手机城”对应零售商等等;
4.按照地址属性来贴,例如:模糊地址标签,虚假地址标签等
5.按照地址/区域逾期率来贴;
6.按照地址接收的平均订单金额/订单量来贴;
7.按照订单商品来贴;
8.按照收货地址变化频率来贴;
9.按照公司地址行业来贴;
10.按照公司属性来贴,例如:是属于政府机关、学校还是企业?
其中,黄姐姐解释一下第6条和第7条。在消费分期场景中,用户会拿到一个授信额度,可以在电商平台上购物。坏人套现的方式就是一次性用光额度购买手机等易变现商品,例如,近期比较容易变现的是一款899的荣耀手机和799的红米手机。那么,假设黄姐姐的额度为2500元,那么我会充分利用这一额度,巧妙组合,例如:两款799➕一款899,也即799*2+899=2497<2500,可谓是完美套现。那么,结合地址信息,如果一个地址的订单金额都约等于授信额度,且寄送的商品品类(如手机)和型号(如红米5)集中,则可能为高风险客户。
这个过程有点类似于给人物做侧写或者画像,只是这里的主角不再是人,而是地址。一个好的地址画像需要结合场景和业务知识,同时要对数据分布做详细周密地分析。此处无监督可以提供的就是对地址的分群处理。为了形象地描述,我将无监督的应用抽象成如下案例以方便大家理解。
对于一组杂乱的数据,逾期率为1%。我们通过一定手段对地址进行了分词处理,发现其中包含“电脑”和“手机”两个词的群组中,逾期率高达80%。于是,我们给包含了“电脑”和“手机”的地址贴了一个标签【零售商】,若结合业务知识,还可以给诸如“华强北”、“赛格”等词汇同样贴上【零售商】的标签。
所以,简单来说,地址文本的非结构化给地址的标注带来了一定难度,而无监督有利于整理这些词汇,有点像excel里的筛选和排序功能,只是,对地址的处理,你不知道是按照什么条件来筛选和排序,而无监督给了你一个可能的筛选条件和思路,让你无需对案件进行独立分析,而是批量分析,从而大大节约了时间。
当然,单从地址信息这一个维度,不足以准确判定欺诈行为,仅能作为其中一个角度。为了不因为一刀切而导致的高误伤,欺诈属性的判别中,还是需要非常强的扩维能力,从各个角度进行欺诈属性的综合评分。
反欺诈之地址的处理和使用相关推荐
- 如何利用IP地址开展金融反欺诈?
"用明天的钱,原今天的梦"."融化烦恼.贷来快乐",如今,我们随处可见这样诱人的广告语,我国互联网金融行业迎来了爆发式发展,甚至传统的商业银行也都纷纷推出自己的 ...
- python 靶心_手把手教你使用Python实战反欺诈模型|原理+代码
原标题:手把手教你使用Python实战反欺诈模型|原理+代码 作者 | 萝卜 来源 | 早起Python(ID: zaoqi-python) 本文将基于不平衡数据,使用Python进行 反欺诈模型数据 ...
- 社交网络分析与反欺诈
一.总体概述 目前针对图网络结构,比较热门的一个部分就是知识图谱,知识图谱是基于二元关系知识库,构成网络结构,基本组成单位是"实体-关系-实体"的三元组,实体之间通过关系相互联结. ...
- 【文本挖掘】反欺诈模糊匹配
问:一个可以做模糊匹配的字段,同一行的数据需要和其他行的数据分别比对,除了循环,有没有什么可以调高效率的方法. 方法一:数据量小的话,可以行列交换,矩阵运算 方法二:python内置map和reduc ...
- 【大佬漫谈】5G对AI反欺诈行业提出更高要求——谢映莲
转自:澎湃新闻 硅谷AI创业者谢映莲:5G对AI反欺诈行业提出更高要求 澎湃新闻见习记者 张唯 实习生 邹静祺 2019-03-25 07:37 来源:澎湃新闻 "人工智能的本质是一项技术或 ...
- 【反欺诈】互金欺诈与反欺诈
转:原文链接:https://zhuanlan.zhihu.com/p/36891707 作者黄姐姐,在科技金融反欺诈.无监督学习等领域有兴趣非常资深.可关注她的知乎. 另附Tech Fin微信社群, ...
- 【采用】如何搭建反欺诈策略与模型
信用风险与反欺诈哪个更加重要?为什么是先讲策略再谈模型?一个完整的反欺诈流程如何搭建?如何说服CEO接受模型测试成本?在一本财经商学院举办的第二期风控闭门课程上,天创信用首席科学家陈黎明一一做出解答. ...
- 【待继续研究】解析机器学习技术在反欺诈领域的应用
反欺诈简单说,就是:根据借款人提供的信息,查找多方面资料,进行不同属性的比对,从而发现"羊群中的狼".这种工作复杂而枯燥,为了识别团伙欺诈,往往需要收集.整理.分析各种维度的数据, ...
- 反欺诈评分模型之手机终端
道高一尺,魔高一丈",黑色产业链的飞速发展也带来了反欺诈行业的快速发展.各大互联网公司纷纷结合自己的业务去探索反欺诈的方法和技术,一大批专业的反欺诈公司也如雨后春笋般冒了出来.在攻与防的过程 ...
最新文章
- 【LeetCode从零单排】No28	Implement strStr()
- java面试题7 牛客:关于AWT和Swing说法正确的是?
- VB禁止使用 Alt-Tab 或 Ctrl-Alt-Del
- VS 2017 RC到期的解决方法
- LINUX下载编译libpng
- 通过分析词性进行人名、地名、组织的替换,生成新的狗屁不通文章
- 操作系统实验一实验报告
- Excel如何合并单元格
- 【渝粤题库】广东开放大学 标准化专业英语 形成性考核
- 阿里服务器配置随笔记 centos 服务器 Linux 部分命令合集
- gitea 手动编译过程,以及踩坑记录
- Android 8.0版本更新下载
- 利用人工智能的优点,明了人工智能的局限。不要依赖它
- 深度解析粉象生活VS花生日记哪个更好,哪个更有优势更容易赚钱
- yum安装telnet详解
- 西电李航 操作系统课程笔记 day11 IO softwarelayer
- 17.代理_CDN_网络安全
- 10月,你知道有哪些程序员热点新书上榜了吗?
- 中枢模式发生器(CPG)
- CSS —— 手摸手实现一个文字霓虹灯闪烁特效
热门文章
- esp8266设置sta失败_使用NodeMCU_ESP8266驱动OLED
- 应用内评分_游戏评分低,怎么办?
- java encodedurl_Java ParseUtil.fileToEncodedURL方法代码示例
- c语言分隔符分离出str字符串中的数字,C语言版Tokenize()函数,由分隔符获取字符串...
- java监听变量的变化_[Java学习小记]使用PropertyChangeSupport来监听变量的变化
- A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】
- CCF 2018年题目题解 - Python
- jetson nano 安装 onnx
- dailykt爬取tushare 数据存入本地mysql
- 青海省西宁市职称计算机考试试题,【青海西宁2017年第一批职称计算机考试时间4月8日起】- 环球网校...