在公众号「python风控模型」里回复关键字:学习资料

要了解有待通过异常检测解决的问题的范围,只需查看统计数据即可。例如,根据美国银行家协会 (ABA) 的最新数据,到 2016 年,由于欺诈活动,银行业的损失高达 22 亿美元。同样,2016 年,使用 SEPA 发行并在全球范围内获得的卡片进行的欺诈交易总价值达到 18 亿欧元。同年,有 30 亿个雅虎账户被黑客入侵,这是有史以来最大的违规行为之一。

现在让我们来谈谈什么是异常检测作为一个概念。异常是对正常事物流意外发生的事件。因此,使用机器学习进行异常检测 - 是识别数据中的异常模式、事件或观察结果的过程,这些模式、事件或观察与整个信息范围的差异足够大,是可疑的。

除了用于预防欺诈外,异常检测还高度适用于多个领域:医药、制造、交通系统。更具体地说,在医学中,它用于检测损坏或恶意的细胞,在制造中,它可以用于识别结构缺陷、设备工作中的故障根源等。

状态监测和预测性维护

任何机器或设备都有可能的使用寿命和某些健康指标,从它制造的那一刻开始。总结了许多工作中的类似设备的参数后,人们可以得出结论,某天一台机器坏了,或者它的健康指标会下降,严重到足以使其工作不佳。为了防止意外关闭或故障,机器学习专家提供了一种预测性维护技术,该技术使用异常检测作为工具之一。

当工业 4.0 被发明时,一种确保机器可用性的新方法开始发挥作用。由于大约 82% 的公司经历过计划外停机,并考虑到此类事件的成本——一台机器停机每小时约 260,000 美元,很明显必须以某种方式解决这个问题。此外,大约 64% 的计划外停机时间与设备故障(维护不当、缺乏状态跟踪)有关。

用于状态监控和预测性维护的异常检测用例领域非常广泛:

  • 汽车行业
    在这个行业中,跟踪焊接机、铣床中的主轴、激光钻孔机等的状况非常关键。此外,结合汽车工业物联网的机器学习解决方案有助于实时识别裂纹、润滑问题、组装零件的错位等。

  • 钢铁行业
    在这里,状态监控用于监控冷轧机的状态(对于钢材质量尤其重要)。及时检测轧机缺陷有助于采取纠正措施并将负面影响降至最低。

  • 石油和天然气
    石油和天然气并不是最后一个应用预测性维护的行业,但它被用于实时监控海上钻井,也结合物联网。一旦远程处理数据,就可以识别设备的潜在临界状态。

黑客攻击和欺诈检测

异常检测用例中最受欢迎的领域是与互联网或银行业务相关的任何类型的欺诈活动。自 2015 年以来,随着芯片卡技术的出现,银行卡对欺诈的保护有所增加,每次请求交易时都要求输入 PIN 码。尽管如此,到 2020 年,在线信用卡欺诈预计将高达 320 亿美元。

从 2016 年开始到现在,网络攻击事件层出不穷,威胁着互联网企业和商业网站。即使是雅虎和优步等大公司也都遭受过网络攻击,大约 30 亿个雅虎账户被黑客入侵,优步有超过 5700 万乘客和司机的信息被盗。在全球范围内,Wannacry 病毒感染了大约 150 个国家/地区的 350,000 多台机器,造成了 40 亿美元的损失。

当涉及信用卡欺诈检测或任何网络安全系统漏洞时,机器学习专家可以构建智能机器学习模型,根据交易细节(例如商家、金额、位置、时间等)将交易分为合法或欺诈。

电子商务交易欺诈检测算法

在使用机器学习检测异常时,可以采用两种方式:有监督或无监督。监督代表处理预先标记的数据,例如,如果一个人有一组正常和异常的日志,但这些日志没有被标记为这样,他必须手动为每个日志获得“正常”或“异常”标签。它们,以便算法可以区分它们。无监督方法不需要标记——特殊算法会根据其内部机制假设哪些数据是恶意的,哪些通常是基于其内部机制,例如,大多数互联网连接是正常的,只有少量是欺诈性的,因此出现更罕见的连接类型异常。

使用异常检测来识别金融服务公司的欺诈交易,提供可以使用 Mobile Money(Airtel Money、MTN Mobile Money)、银行卡(Visa Card、Master Card)、钱包支付的各种产品和服务和赊帐(稍后付款)。问题在于很少发生通过公司的非法交易,作为输入,我们有几个月内发生的 150,000 笔交易的数据。

作为常规流程,每个机器学习项目都包括 3 个阶段:

  • 数据收集,预处理

  • 训练模型

  • 模型调参/再训练。

在项目建立时,我们遇到了数据集不平衡的问题,这意味着数据集在其中的两类观测值之间存在显着差异。可以使用大约 9 种方法处理不平衡数据,其中最流行的有 3 种:过采样、欠采样和 SMOTE。在实践中尝试它们,我们得出结论,SMOTE 最适合我们所追求的任务。

如果您有兴趣了解机器学习建模流程,系统化学习Python数据分析与机器学习项目实战

发展历程

一般1000笔交易中可能只有0.1%左右的信用卡欺诈,这使得模型训练的过程非常不平衡。我们通过使用欠采样(随机删除正常交易以尽量减少与欺诈相比的数量)和过采样(复制欺诈样本以制作许多欺诈样本并平衡数量与正常交易)和合成采样或 SMOTE 解决了这个问题(在现有样本的基础上自动生成合成数据样本)。最后一种方法似乎是最有效的,因为它将我们的算法准确度提高了 5%,结果是 85%。

在数据准备步骤意味着数据平衡之后,下一步是尝试不同的分类方法。受监督的技术是将数据分为以下类别之一:使用逻辑回归、KNN、SVM 和决策树分类器的欺诈或正常交易。在无监督学习算法中,我们使用 One-Class SVM、Isolation Forest、Fitting 和 Local Outlier Factor 在监督中将所有交易分为两类,无需标记。此外,还使用了具有监督和无监督方法的神经网络方法:LSTM 和 MLP(监督)和自动编码器 (AE)、受限玻尔兹曼机 (RBM) 和生成对抗网络 (GAN)。

结论

机器学习异常检测主要用于解决制造、电子商务、银行、零售、石油和天然气、医药等各个行业的网络安全漏洞、在线欺诈检测和预防、预测性维护和状态监控等问题。在众多操作的常规流程中检测不同异常的价值,无论是关于进行信用卡交易还是消除设备工作中的问题,都难以估量,尤其是在预测可能很重要的意外异常时影响企业/业务收入的因素。您对机器学习开发感兴趣吗?请随时与我们联系!

学习QQ群:1026993837,免费领取python机器学习相关学习资料

机器学习算法-异常值检测(outlier),30 亿个雅虎账户被黑客入侵?相关推荐

  1. 雅虎再曝黑客入侵事件 10亿用户数据遭窃!

    雅虎公司(Yahoo!Inc.,YHOO)表示新发现一起数据遭窃事件,有超过10亿的用户的私人信息被泄露.这一影响范围超过了近期被披露的另一次黑客入侵事件,也使 Verizon Communicati ...

  2. 用于时间序列异常值检测的全栈机器学习系统

    在本文中,我想介绍一个开源项目,用于构建机器学习管道以检测时间序列数据中的异常值.本文将简要介绍三种常见的异常值以及相应的检测策略.然后将提供基于两个支持的 API 的示例代码:用于开发时间序列异常值 ...

  3. matlab svm异常值判断,异常值检测

    数据处理过程中,通常需要对数据进行预处理,包括缺失值填充,异常值检测等.异常值处理对于后续数据分析,建模具有非常很重要的影响. 基于描述统计 1.基于常识判断 针对数据进行简单的描述统计,查看数据的极 ...

  4. Facebook、新浪微博OAuth2.0通行证惊爆漏洞,10亿APP用户账户面临盗号劫持威胁

    那些支持Facebook.Google和新浪微博账号单点登录(SSO)的APP遇到大麻烦了,近日中国香港大学的三位研究者在欧洲黑帽大会上发布的研究报告"通过OAuth2.0轻松登录10亿AP ...

  5. kaggle信用卡欺诈看异常检测算法——无监督的方法包括: 基于统计的技术,如BACON *离群检测 多变量异常值检测 基于聚类的技术;监督方法: 神经网络 SVM 逻辑回归...

    使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异 ...

  6. 【机器学习】异常检测算法速览(Python代码)

    正文共: 8636字 8图 预计阅读时间: 22分钟 一.异常检测简介 异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据,也被称为离群点.异常值检测等等. 1.1 异常检测适用的场景 异常检 ...

  7. 机器学习 异常值检测_异常值是否会破坏您的机器学习预测? 寻找最佳解决方案

    机器学习 异常值检测 内部AI (Inside AI) In the world of data, we all love Gaussian distribution (also known as a ...

  8. 机器学习算法在用户行为检测(UBA)领域的应用

    [摘要]最近看到越来越多的安全圈的同学开始关注UBA或者UEBA的相关产品和技术,恰好这一段时也一直在跟进UBA产品的状况,正如Gartner报告所述,最具创新能力的UBA供应商往往都是一些初创公司, ...

  9. 机器学习 基础理论 学习笔记 (6)异常值检测和处理

    1.异常值定义 异常值是指样本中的个别值,其数值明显偏离它所属样本集的其余观测值. 异常值分析是检验数据是否有录入错误以及含有不合常理的数据.忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据 ...

  10. 异常检测:综述(基本都是无监督算法)【时间序列算法:AR/MA/ARMA】【传统机器学习算法:孤独森林、One Class SVM】【深度学习算法:AutoEncoder、LSTM、DeepLog】

    一.什么是异常值? 在机器学习中,异常检测和处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本 ...

最新文章

  1. 【Bootstrap+JSP+Mysql学习笔记(二)】开发环境配置(二)
  2. linux 指定库名 登录mysql_linux下对应mysql数据库的常用操作
  3. python考试题库 pcap_使用Python修改PCAP
  4. 总结了点React,咱也不敢说
  5. Redis集群-哨兵模式
  6. python定义符号常量_python注释、变量、常量的学习
  7. web.xml里filter-mapping中的dispatcher作用
  8. CentOS6.5搭建SVN服务器(Apache+SVN)
  9. 基于事件驱动架构构建微服务第3部分:Presenters, Views和Controllers
  10. 机器人测钢卷直径_酒钢碳钢冷轧钢卷自动焊接机器人上线
  11. for jq 嵌套_遍历嵌套列表 – jQuery
  12. 如何优化java反射,如何有效地使用Java反射
  13. 微软ASP.NET站点部署指南(11):部署SQL Server数据库更新
  14. java.lang.stringind_为什么越界了? java.lang.StringIndexOutOfBoundsException
  15. win32汇编实现一个简单的TCP服务端程序(WinSock的简单认知应用)
  16. cordova不是内部或外部命令的解决方案
  17. Win11电脑一边耳机没声音怎么解决
  18. 为开源新时代赋能 2021开源科技节完美落幕
  19. MCU VR 應用班 翻轉式課堂
  20. 安装语言包(LANGUAGE PACKAGE)

热门文章

  1. java 序列号 1l_private static final long serialVersionUID=1L 是什么意思
  2. 如何去实现机械灵巧手玩魔方和弹钢琴_单手解魔方效果惊艳,OpenAI发布最强机器手...
  3. observable java_RxJava之Observables类型理解
  4. transformer机制讲解_Transformer在视觉领域的应用
  5. 在O(1)时间复杂度删除链表节点(372)
  6. Vue教程20:Vuex入门
  7. 思科:多款主流信息传递应用程序易遭到会话劫持
  8. mongodb笔记 getting started
  9. eclipse导入不到嵌套的项目
  10. 使用组策略配置QoS