大数据文摘出品

编译:笪洁琼

预测是机器学习算法最重要的一个研究方向。众多保险公司利用机器学习算法为他们的客户建立预测模型。其中,车祸预测模型是众多模型里面最难建立的。

车祸发生的影响因素多种多样,变化多端,着实让人摸不着头脑。

与其他商品不同的是,车祸保单的最终成本在初始销售时是未知的。因此,建立一个合理的定价机制是非常具有挑战的。有些保险公司尝试使用统计方法来解决这一问题:预测每个客户的未来风险。

例如,非常经典的汽车保险。大部分的保险公司确定的保险风险因素有司机的年龄、他的汽车配置相关以及汽车发生事故的历史情况。这也是为什么保险公司会在成交汽车保险之前需要客户提供的详细信息的原因。

下载地址:

https://arxiv.org/abs/1904.05270

波兰华沙大学经济科学系的Kinga Kita-Wojciechowska和斯坦福大学生物工程系的Łukasz Kidziński利用谷歌Google街景收集相对应的房屋图像,通过标释房屋的特征:例如年龄、类型以及其它条件。然后与目前最先进的保险风险模型相比,最后发现用谷歌街景数据建立的模型,能够有效地改进了汽车事故风险预测。

作者通过对谷歌街景数据的研究,发现下列结论☟

  • 房子的特征与居民的发生车祸风险相关,

  • 与谷歌街景的其他研究用途相比,此模型数据特征来自于地址,并不是按照邮政编码或地区进行汇总,可能存在更为精细的划分;

  • 从地址中提取的数据(房屋的图像)可用于保险和其他行业;

  • 现代数据收集和科技技术允许对个人数据进行前所未有的利用,可能会超过立法的发展速度,并增加个人隐私威胁。

建模数据收集方法与特点

保险公司之前进行的风险建模和定价,通常只使用邮政编码这一特征。然而汇总到邮政编码的索赔数据仍然太不稳定,所以还需要进一步地调整。

另一方面,对于一些“外人”来说,保险公司客户的信息数据很难获得。本文使用的谷歌街景数据可以从来自Google街景的公开图像信息中提取出来。

图1.位于同一邮政编码中不同房屋的示例,根据当前保险公司的模型,这些房屋的居民具有相同的预期索赔频率。

此数据集包含20,000条记录的汽车保险数据集,数据来源于2012年1月至2015年12月期间收集到在波兰的保险投资组合的随机样本。

其中每项记录均涵盖汽车发动机第三方责任(MTPL)保险单的特点,包括投保人的地址、风险敞口(定义为一小部分有效年份在2013-2015年期间的保单)以及2013-2015年间发生的财产损坏索赔的统计数量。保险公司还提供了这些保单的财产损失索赔的预期频率,是根据他们目前最好的风险模型进行估计的,是根据客户的邮政编码进行分区的。

图2.使用注释功能将为数据库中提供的地址,匹配收集谷歌卫星视图和谷歌街景图像。

对图像中可见的房屋中以下特征作了说明:居民的年龄、状况、财富以及邻近地区其他建筑物的类型。根据Fleiss’kappa(属性型测量分析)统计数据结果表明,它们之间大多数是一致稳健的。

继续注释剩余的19,371个地址(还从本研究的范围中删除了129个地址,因为它们要么是另外区域的,要么是Google地图找不到的),剩余的都将得到了一组单独的、随机选择的地址。

研究者比较了收集到的注释的分布情况,并在最后对四个注释器进行了小的修正,以匹配平均值和标准差。

表1。在进行了必要的简化后,风险模型中对7个新创建的变量进行了统计

建模过程

接下来,估计一个广义线性模型(GLM)来研究新创建的变量对于风险预测的重要性。

假设索赔的概率模型如下:

频率为f,定义为索赔次数除以风险敞口:

其中,MTPL保险中的一些财产损失索赔是服从泊松分布的,X是自变量的向量,也是系数的向量。

为了对方法所带来的增加值进行评价,引入了三个模型:

模型A(空模型),其中向量为

模型B(一流保险商模型):其中向量为

模型C(研究者使用的模型):其中向量为

保险人为数据集中的每条记录提供了模型B的实现。

该模型是在一个更大的未对外披露数据集上进行估计的,包含j个预测变量(驾驶员特征、车辆特征、索赔历史、地理区域等)。

利用GLMs的特性,可以将模型C分解为两个部分:一个对应于模型B,另一个则包含新变量。

因此,模型C为:

这些系数的值是否为非零,将表明研究者构造的变量为模型提供了额外的预测能力。在本研究中新创建的七个变量中,有五个对于预测财产损坏MTPL索赔频率模型具有重要意义,而在最好的保险公司模型中使用的许多其它评级变量都是重要的(表1)。

通过观察a、B、C模型的基尼系数的显著变异性,特别是对于模型A(只包含截距且没有选择其他变量的空模型)在20次重采样试验中,其变化范围为20 ~ 38%。将其解释为证据,即所提供的数据集非常小(20,000条记录),用于构建MTPL保险中的罕见事件,如财产损失索赔(平均频率为5%)。

图3.在20个自举试验中获得的20%的检验样本上的基尼系数(A),从零模型(A)到最好的保险公司的模型(B)和研究者新建立的变量模型(C)。

尽管数据的波动性很大,但将五个简单变量加入到保险公司的模型中,在20次重新采样试验中的18次中尝试,提高了它的性能,并提高了基尼系数的平均水平。提高系数接近2个百分点(从38.2%到40.1%)。

通常保险公司的模型会运用更大的数据集,并包含了广泛的变量选择(例如驾驶员特征、汽车特征、索赔历史和基于客户邮政编码的地理区域),将基尼系数与空模型从0~30%提高到0~38%,提高了8个百分点(见图3)。

创新之处

通常保险公司的预测模型都是以常规的特征进行预测的,比如驾驶车辆习惯,索赔历史和客户财富级别等特征。

但是文中的模型使用了全新的谷歌街景地图的特征,比如街景地图中房屋所在周围环境,所在区域的密度,街景的质量和房屋类型年限等特征,评测结果也是比较令人欣慰,三个模型的基尼系数变动范围在20%—38%之间,我们能从图3中看见,经过20次的重采样实验得到的结果:具有街景新特征的模型比使用原有的优秀传统模型还要高出接近2个百分点。

当然由于数据样本量比较少,大概只有2万条左右,所以这也在一定程度上影响了基尼系数的提升。但是这在预测模型的研究方向中,给了我们一个新的思路,原来街景地图的特征会比传统的特征更加有效。当然未来肯定还会有更加有效的特征出现,来帮助我们提升预测准确度。

译者注:

基尼系数通常判定超过60%就是一个好模型,但是文章中的数据量有点少,所以这个系数可能没有60%,但是肯定不能说这个思路错的,希望大家可以尝试自己更换数据集来做复现。

总结

从一张房子的图像中可见的特征预测发生车祸的风险,而且独立于经常使用的变量,如年龄或邮政编码。

这一发现迈出了一大步。它不仅提供了更为精确的风险预测模型,而且还说明了社会科学的一种新方法。

在这种方法中,真实世界中的细粒度数据可以经过大规模收集后进行分析。从保险公司的实际情况来看,给出的实验结果是显著的。研究者使用的模型中的5个变量包含了来自不完全注释的一些偏差,与保险公司在其最佳风险模型中已经使用的众多变量带来的8个百分点的改进相比,基尼系数提高了近2个百分点。

保险行业可能很快就会被银行效仿,因为保险风险模型与信用风险之间存在着已被证明的相关性。从谷歌街景(GoogleStreetView)中提取有价值信息的方法本身,不仅为金融业提供了各种机会。

此方法和深层次的学习技术可以使它在一个大规模自动化的模型中进行。同时,这种做法引起了人们对存储在公开可用的Google街景、Microsoft Bing Streetside、Mapillary或类似的私有数据集中的数据隐私的担忧。

客户同意公司存放其地址信息并不一定意味着同意储存有关其房屋外观的信息。特别是房屋的特征可以是种族、宗教或与一个人的社会地位有关的其他特征的代名词,法律上也禁止将这些特征用于任何歧视,例如某些区域的价格歧视。

斯坦福最新研究:看图“猜车祸”,用谷歌街景数据建立车祸预测新模型相关推荐

  1. 自动驾驶玩漂移,一顿操作猛如虎!!! 斯坦福最新研究

    点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 根据斯坦福最新研究,自动驾驶也可以玩漂移技术.话不多说,上车,咱们漂移去! 看完,是不 ...

  2. 【游戏系列】用vue做个看图猜成语游戏吧

    前几年看图猜成语一类游戏风靡一时,很多人玩这个游戏,我当时也是其中之一,如今当了一个没多少头发的程序员,有时间的时候,也会去研究一下以前的那些小游戏 vue怎么创建项目这里就不介绍了,后面有时间再写一 ...

  3. [软件评测第八期]看图猜成语

    看图猜成语 作者: 君君 大家好,今天我给大家评测的是一款简单的手游-- 看图猜成语. 软件评分(85分) 应用大小:48.3MB 开发商:FAN YANG 类别:教学  更新:2015-02-10  ...

  4. 【知识星球】每日干货看图猜技术,你都会吗?

    有三AI-知识星球上线新玩法了,这个玩法叫做"看图猜技术",顾名思义,就是有三出一些对比图,大家猜测背后的核心技术. 1.为什么出这个板块 出这个板块是出于两个方面的考虑,下面分别 ...

  5. python看图猜成语_看图猜成语200个图答案 看图猜成语图片答案大全

    看图猜成语2游戏v1.40苹果版 类型:ios休闲益智大小:100M语言:中文 评分:10.0 标签: 立即下载 看图猜成语200个图答案 看图猜成语图片答案大全.看图猜成语是一款很受欢迎的休闲猜谜类 ...

  6. app式成语_成语看图猜app

    成语看图猜app是一款休闲益智猜成语类游戏.玩家可在游戏中享受简单有趣的玩法,慢慢一步步解锁更多的关卡.关卡多,不怕学不了多的词汇.还有大量的游戏道具可让游戏变得更加简单.喜欢就小伙伴就快下载吧! 成 ...

  7. 看图猜成语小程序源码+详细搭建教程

    本小程序可开通流量主 ,后台可以自行设置关卡.等级.也可以一键部署, 开通流量主之后实现躺赚,你懂得. 个人号也可以开通,审核一次性必过. 类目选择 教育 小程序源码下载地址:(8条消息) 看图猜成语 ...

  8. (已更新)看图猜成语小程序源码+详细搭建教程

    本小程序后台可以自行设置关卡.等级.也可以一键部署, 个人号也可以开通,审核一次性必过. 类目选择 教育 小程序源码下载地址:(已更新)看图猜成语小程序源码+详细搭建教程-小程序文档类资源-CSDN下 ...

  9. Python GUI案例之看图猜成语开发(第三篇)

    Python GUI案例之看图猜成语(第三篇) 前言 看图猜成语小程序开发(第三篇) 游戏闯关模式页面 Python GUI案例之看图猜成语开发(第一篇) Python GUI案例之看图猜成语开发(第 ...

  10. 学计算机可以用算盘吗,看图猜成语黑板学生算盘计算机答案玩法经验分享

    看图猜成语黑板学生算盘计算机答案玩法经验分享是小编今天给各位玩家老爷到来的内容,这道题是什么呢,4张不同形式的表达效果,每张图所指的方向都是同一点,还不了解的玩家跟着小编一起看看接下来的分析吧,希望能 ...

最新文章

  1. VMware卸载虚拟机
  2. struct_config.xml中action/set-property标签的用法
  3. Create Geometry from WKT(转载)
  4. 理解JavaScript面向对象的思路
  5. 没有在工厂1112中维护 MRP 参数
  6. Spring Boot 2.3.x 分层构建 Docker 镜像实战
  7. 在Ubuntu8.04上编译安装QT4(Application Development)开发环境
  8. MDK寄存器地址映射分析
  9. Berkeley DB作用
  10. 【载誉】致远互联荣获“2017最佳协同管理解决方案”殊荣
  11. 【计算机组成原理】总线
  12. 大白话Docker入门(二)
  13. C/C++排序算法(2)希尔排序
  14. docker create_Docker镜像管理(一)
  15. Android URLEncoder和URLDecoder
  16. 计算机软件销售收入会计,嵌入式软件产品销售额如何计算
  17. 软件测试b s环境如何配置,B/S架构测试环境搭建_SQLServer篇(Win32系统)
  18. Maven 错误找不到符号
  19. 广西大学计算机研究所宿舍,广西大学宿舍条件,宿舍环境图片(10篇)
  20. Antd的Upload组件上传文件控制文件数量、格式等,以及提交时如何获取文件

热门文章

  1. 苹果x来电闪光灯怎么设置_免费设置来电视频彩铃,安卓苹果都适用!
  2. python相关系数显著性检验_Python+pandas计算数据相关系数的实例
  3. 解决plsql使用无法导出DMP
  4. html5抖动效果代码,JS文字抖动特效代码
  5. iview 省市区 三级联动
  6. Cadence PSpice 仿真6:反向放大器傅里叶仿真(FFT,谐波分析)实战图文教程
  7. 本特利探头330104-00-02-10-02-00
  8. 东北大学数理统计 2019-2020 年试题答案
  9. 流水灯c语言代码switch,单片机C语言入门之六switch case语句流水灯
  10. 华创e路航固件_华创e路航地图升级工具 v1.0 官方版(图文)