Datawhale干货

作者:知乎King James,伦敦国王大学

知乎|https://www.zhihu.com/people/xu-xiu-jian-33

导读:大概知道特征工程,但是不清楚特征工程在实际业务中怎样应用,怎么和业务知识结合?本文将结合作者实际经历尝试回答。

首先明确一下问题,“特征工程在实际业务中的应用”,也就是领域业务知识和机器学习建模的相互结合。下面会对特征工程简单介绍,并且用自己工作中实际参与的项目给大家分享在银行贷款申请反欺诈场景&零售线上APP推荐场景的机器学习建模里,业务知识是如何帮助特征工程的。

01 简单介绍特征工程是什么?

特征工程是工业界建模中最最最重要的一个模块。模型效果的好坏,一部分是由数据质量决定的,另一部分是由特征工程决定的,大家使用的算法有时候都是一样的。

什么是特征工程?比如金融信贷申请反欺诈场景下,当一个新的用户来申请贷款,我们如何评估一个用户是欺诈用户还是正常用户,那么就需要找到这二者在哪些特征上表现存在差异,通过这些特征来进行区分。寻找基本特征、构建组合特征来有效地区分不同label的样本,这个就是特征工程。

02 业务知识如何帮助特征工程?

几乎所有工业界的建模,数据科学家都会去请教一下业务专家。除非是特别资深的数据科学家,在该场景下建模经验十分丰富,对业务很了解。不然,数学科学家一般都会去请教对于该场景熟悉的业务专家,有他们的输入对建模会有很大的帮助。

比如我们给银行做贷款申请反欺诈项目,我们会对对方的风控人员进行访谈。了解他们在没有反欺诈模型,人工审核时是通过哪些特征来区分欺诈用户和正常用户的。我们给商超做线上推荐项目,我们会访谈对方的运营人员,在没有推荐模型时他们为每个门店不同时间段设置推荐商品时是依据什么样的原则。专家懂的东西,业内我们一般叫做 “专家规则”

为什么要去了解业务知识?

(1)有的放矢,提高建模效率和保证模型效果下限

业务专家的输入,可以帮数学科学家快速做一层特征筛选和特征组合工作。比如银行贷款申请反欺诈场景下,用户的基础特征、征信报告特征加上资产等特征,加起来好几百个特征。很多数学科学家第一次接触征信报告,征信报告都看不懂,无法理解特征字段意义。这时候业务专家就会做输入,哪些特征上欺诈客户和正常客户表现差异很大,哪些特征组合在一起看比较有效。

业务专家的输入,降低了建模试错成本。也一定程度上保证了模型效果的下限。

(2)避免特征过多过拟合

当没有业务输入的时候,很多时候数据科学家只能通过训练集上效果的表现来判断特征有效性,有时候为了模型效果会加入很多特征进去,导致训练集上效果还不错,测试集上可能效果就一般,实际上线后模型效果可能会更差,这就是模型出现了过拟合。这两条原因中,第一条是最主要原因。

03 实例介绍

下面给大家分享一些实际工作中专家规则如何映射到特征工程上。

3.1 银行贷款申请反欺诈场景

场景说明: 用户来银行申请贷款,数据科学家根据用户申请信息、征信数据等等,构建一个反欺诈信用评分模型。分数取值在【0,100】之间,100分代表用户欺诈程度极高,0分代表用户欺诈程度极低,为每一个客户进行信用评分。

使用模型: LR模型;

专家规则:专家规则有很多,我列举几个常见且易懂的规则。

  • 信息是否一致: 银行风控人员在审核贷款申请时,特别关注用户的申请信息和央行征信报告上的数据是否一致,比如申请表上写的离异,但是征信报告上却是已婚。申请表上写的是A公司,征信报告上却是B公司。如果出现此类情况,说明用户存在隐瞒真实信息的可能;

    (不了解征信报告的读者可以看看这篇,讲的还算清楚 https://zhuanlan.zhihu.com/p/91911632;想了解央行的征信报告和芝麻信用等区别的可以看这篇文章:https://zhuanlan.zhihu.com/p/22280599)

  • 不同时间段内的还款行为: 做过金融行业信贷风控审批的肯定都知道一条专家规则 “半年内不能连三累六” ,这句话的意思是说用户在半年内不能有六次的贷款逾期,且不能有连续三个月贷款逾期不还。稍微解释一下这条规则,可能部分读者觉得半年内贷款逾期六次也太夸张了,实际上满多用户不注意还款时间,加上很多小企业主有很多贷款信用卡等,还款晚了一两天很正常,所以半年内有个2,3次逾期还蛮正常的,但是6次就超过银行风控的底线了。

  • 基本信息: 用户的年龄、学历、籍贯等等都会综合考虑;

专家规则转化为特征工程

关键的一步来了,如何将专家规则转化为特征工程?

  • 信息是否一致: 转化为冲突类特征,模型中会将申请信息的很多关键信息与征信报告中的信息进行比对;

  • 基本信息:转化为基本特征,同时在此之上我们会衍生很多复合类特征;

  • 不同时间段内的还款行为: 转化为聚合特征,按照时间来分桶。将用户的还款行为和时间组合在一起,模型中我们可能会按照近1个月、3个月、6个月、12个月、24个月来分桶。其实不仅是将用户的还款行为来按照时间分桶,我们还会将用户的历史负债行为、申请贷款记录等等,按照时间来分桶,只是有的可能是6个桶,有的可能是12个桶等等。

3.2 零售线上移动端购物车推荐

场景说明: 用户在生鲜电商APP上如叮咚买菜、盒马生鲜,购买相关生鲜商品。购物车的下方,会有“经常一起买“栏位,根据用户已经加购的商品为用户推荐其他商品。数据科学家构建一个推荐模型,为用户千人千面地推荐相应的商品。传统的零售运营,都是后台运营系统根据门店手动配置的,定位在这个门店的用户,不管购物车加购什么商品,最后“经常一起买”栏位展示的商品都是完全一样的。

使用模型: 协同过滤算法+LR模型

专家规则

  • 不同季节不同门店推荐不同的商品: 电商运营会根据不同季节以及门店所处地域来配置商品。比如春节快到了,就会配置“春联”、“饺子皮”、“酵母粉”等。川渝地域就会配置“火锅底料”等;

  • 推荐热销的商品:有时候会配置一些这个门店热销的商品,比如该门店最近”特仑苏“卖的特别好,就会统一为用户推荐“特仑苏“。

专家规则转化为特征工程

在零售推荐场景下,专家规则起到的作用就远远没有贷款申请反欺诈领域大了。不是说规则不重要,而是说该场景比较容易理解,那些专家规则数据科学家也比较容易想到。

  • 不同季节不同门店推荐不同的商品: 转化为“门店画像的时窗统计特征”,数据科学家按照门店维度统计不同历史时窗内(如近3、7、30天)商品的销售量、销售额;门店维度不同历史时窗内(如近3、7、30天)售出商品品类、价格的聚合类衍生特征等等

  • 推荐热销的商品: 热销商品其实在推荐场景下更多是用在召回策略里面,千人千面的排序策略中,我们会构造一个“用户商品画像的时窗统计特征”,如统计用户商品组合维度不同历史时窗内(如近3、7、30天)的购买频次、价格等。

04 特征重要性

我们一般在做最终项目总结汇报时,有一页PPT会专门介绍该模型中Top N重要的特征;

比如该模型只使用某一个特征,可以达到的AUC是多少

因为很多时候业务方都需要我们的模型可解释,你使用了哪些特征需要和业务方解释,业务方会从业务层面来判断你这个模型背后的业务逻辑是否合理。尤其是金融领域,模型可解释是必备的。金融都是和钱、风险挂钩的,如果模型使用的特征在业务层面解释不过去,业务方就会质疑模型的有效。

05 如果数据科学家对领域内业务知识完全不懂怎么办?

不同领域不同场景对领域内业务知识的了解和最终建模的效果影响程度是不一样的。

在金融领域,对领域内业务知识了解就十分重要。之前给银行做反洗钱领域建模时,反洗钱这个场景普通人接触的就够少了,所以没有业务输入,数据科学家建模就很痛苦,只能不停尝试各种特征组合。而像零售领域,普通人都可以接触到,已经具备了一定的业务知识,所以建模起来就相对简单一些,但也是领域内业务知识懂的越多越好。

现在已经有AutoML技术了,完全无任何人工干预,机器直接自己构造特征计算等等。但在工业界目前AutoML落地还存在很大问题,最大的问题就是模型效果不可保证,很多时候只能做到一个及格分,想进一步提升,模型自身无从下手,只能人工干预。

所以如果你既是业务专家,又是建模大师,那你在目前的AI市场将会相当地吃香。

整理不易,三连

特征工程在实际业务中的应用!相关推荐

  1. 机器学习-特征工程中的特征选择

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  2. 「推荐系统中的特征工程」1. 特征工程基础知识介绍

    作者 | gongyouliu 编辑 | auroral-L 全文共6858字,预计阅读35分钟. 本章目录 一.特征的基本概念 二.特征工程介绍 三.特征工程的基本思路和方法 1. 根据不同数据类型 ...

  3. 机器学习-特征工程中的特征降维

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  4. 机器学习-特征工程中的数据预处理

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  5. 干货分享 | 详解特征工程与推荐系统及其实践(附PPT)

    云脑科技机器学习训练营11月13日正式开始啦!量子位作为合作媒体独家为大家分享课程干货内容. 本期内容简介 主题:亿级用户电商平台推荐系统挑战 主讲人:张本宇(云脑科技创始人&CEO) 从事人 ...

  6. 2.2w字长文详解推荐系统之数据与特征工程,码起来慢慢看

    作者丨gongyouliu 编辑丨lily 来源 | 大数据与人工智能(ID:ai-big-data) [导读]推荐系统是机器学习的一个子领域,并且是一个偏工程化.在工业界有极大商业价值的方向.大量应 ...

  7. 如何进行特征工程,以及特征工程的一些理论

    正如一句业界经典的话所说,"Garbage in, garbage out",对于一个机器学习问题,数据和特征决定了结果的上限,而模型.算法的选择和优化决定了模型的下限. 1.什么 ...

  8. 「构建企业级推荐系统系列」推荐系统之数据与特征工程

    作者 | gongyouliu 编辑 | auroral-L 推荐系统是机器学习的一个子领域,并且是一个偏工程化.在工业界有极大商业价值的方向.大量应用于提供toC类产品的互联网企业服务中,通过推荐系 ...

  9. 推荐系统之数据与特征工程

    点击上方"大数据与人工智能","星标或置顶公众号" 第一时间获取好内容 作者丨gongyouliu 编辑丨lily 这是作者的第25篇文章,约2.2w字,阅读需 ...

最新文章

  1. Linux那些事儿 之 戏说USB(7)不一样的core
  2. IntelliJ IDEA使用记录
  3. Java System类
  4. linux登陆界面卡死_Linux 上最好的五款音乐播放器
  5. 同时在一个WebService服务中发布多个普通Java类
  6. python找答案__学小易找答案
  7. 【JEECG 官方】技术支持联系方式
  8. android csv显示乱码问题,Android CSV解析器问题
  9. Linux 命令(86)—— head 命令
  10. hal库串口dma卡死_HAL库版DMA循环模式串口数据收发
  11. python 调用gpu算力_教你免费使用百度云GPU算力提交深度学习任务
  12. 数据抓取的艺术(一)
  13. vue token过期如何处理_超市货架上摆放有过期食品如何定性处理?总局这样答复...
  14. html海报源码,8款好用的Html5海报制作工具,让你一分钟做出风靡朋友圈海报
  15. [fairseq] 报错:TypeError: _broadcast_coalesced(): incompatible function arguments
  16. git push 时出现错误error: failed to push some refs to ‘https://gitee.com/**.git‘
  17. 小程序中生成带logo的二维码,有源码
  18. Linux常用命令(二)
  19. qt获取网卡流量_智能手机变成台式电脑的无线网卡来使用并连接WIFI上网的方法...
  20. 法本转债上市价格预测

热门文章

  1. bzoj1854: [Scoi2010]游戏
  2. 【数学基础】校招算法工程师笔试题
  3. 数据结构与算法:22 精选练习50
  4. 编程基础知识科普:C#中的问号运算符
  5. 算法基础知识科普:8大搜索算法之红黑树(上)
  6. 《2022产业互联网安全十大趋势》发布,专家学者透析产业安全新变化
  7. Python 办公自动化,一键给PDF文件加密,超方便
  8. iPhone 隐私新规下的“大地震”:四大平台损失近百亿美元,“连用户是男是女都分不清……”
  9. 懂外语、会创作,机器高质量学习挑战均在这里实现
  10. 拿来就能用! CTO 创业技术栈指南!