机器学习最常用的应用程序之一是异常检测。寻找和识别异常有助于防止欺诈、对手攻击和网络入侵,所有这些都可能危及公司的未来。

在这篇文章中,我们将讨论如何进行异常检测,可以使用哪些机器学习技术,以及使用机器学习进行异常检测的好处。


什么是异常?

在我们讨论什么是异常检测之前,我们必须首先定义一个异常。 一般来说,异常是一些偏离标准的东西:一个偏离,一个特例。在软件工程中,异常是不符合正常模式并看起来可以的情况。

一些例子是:

  • 突然爆发或活动减少;

  • 文本错误;

  • 突然的频繁死机或温度升高。

这些异常通常是因为:

  • 数据预处理错误;

  • 噪音;

  • 欺诈;

  • 攻击。

通常情况下,你想把他们都找出来; 一个软件程序需要运行顺畅且可重复,因此每个异常对其稳健性和安全性都具有风险。Аnоmаly оr оutlier deteсtiоn 是检测和识别异常的方法。

例如,如果您在同一天连续支付大笔资金,这不是您通常的做法,您的银行可能会阻止您的存款。他们会在你的日常交易中注意到一个不寻常的节奏。这种异常情况通常与欺诈有关,因为身份窃贼试图窃取尽可能多的钱,一旦异常被发现,必须对其进行调查,否则会出现问题。


异常的类型

现在让我们看看机器学习工程师通常会遇到哪些异常。

Glоbаl Outliers全球异常值

当一个数据点与数据集内的其他数据值有很大偏差的时候,全球异常值即出现了。换句话说,这是一个оnсe-in-а-lifetime 的事件。

举个例子,如果你的银行账户每个月都收到数额相当的薪水,但一天收到一百万美元,银行的分析团队会考虑其为全球异常。

Соntextuаl Outliers上下文异常值

当一个异常被称为上下文时,这意味着它的值与我们在同一上下文中看到的类似数据不同。 上下文是典型的暂时状态,且在不同时间观察到的相同情况可能不会被视为异常。

例如,在假期期间,在商店中看到顾客增加是正常的。 但是,如果在普通的日子里出现销售额突然增加,它可能会被视为上下文异常。

Соlleсtive Outlier 集体离群值

偏离正常行为的数据点子集用于表示集体离群值。一般来说,技术公司继续扩张。有些企业可能会倒闭,但这不是普遍趋势。但如果同时有大量的公司经历营业收入下滑,我们可以确定出现了集体离群值。


为什么用机器学习进行异常检测?

这是典型的借助统计学和机器学习工具推出的过程。这样做的原因是,大多数企业今天需要对海量数据进行更全面的检测:传输、文本、图像、视频内容等。职员必须面对每一天在银行里每时每刻发生的所有事情,而且每秒钟都会产生更多的事情。用手从这个数据中提取有意义的见解是不可能的。

另一个问题是数据经常是非结构化的,这意味着信息没有在任何详细的数据分析中进行组织。非结构化数据包括商业文件、电子邮件和图像等内容。

要收集、整理、结构、分析和存储数据,您必须使用能驾驭大量数据的工具。 机器学习技术在处理大型数据集时会产生最佳结果。大多数类型的数据都可以通过机器学习算法来处理。此外,您可以选择基于您的问题的算法,甚至可以结合不同的技术来获得最佳结果。

在现实世界中使用的机器学习有助于简化异常检测并保存资源。它不仅可以在事实发生之后,而且可以实时进行。实时异常检测用于提高诸如欺诈检测和网络安全等领域的安全性和鲁棒性。


异常检测用于什么?

现在我们看看异常检测的实际应用。

入侵检测

网络安全性对许多处理敏感信息、智力问题以及员工和客户的个人信息的企业至关重要。入侵检测系统监控网络,以获取潜在的恶意流量并报告它。如果检测到可疑活动,IDS 软件会向团队发出警报。Сisсо Systems 和 MсАfee 软件是两个示例。

欺诈检测

机器学习欺诈检测有助于防止非法获得金钱或犯罪行为。银行、信用合作社和保险公司都使用欺诈检测软件。 例如,银行在做出决定之前回顾一下贷款应用程序。如果系统检测到某些文件是欺诈性的,例如您的税号在系统中不存在,它将通知银行的雇主。

健康监测

异常检测系统在医学领域非常有用。他们通过检测 MRI 和测试结果中的异常模式来帮助医生诊断患者。通常,这里使用了经过数以千计的例子训练的神经网络,它们有时可以提供更多比行医超过20年的医生更准确的诊断。

缺陷检测

如果制造商向客户提供有缺陷的机械细节,他们可能会面临数百万美元的诉讼。 一个不符合标准的单一细节可能会导致飞机失事,并造成数百人死亡。

基于计算机可视的异常检测系统可以在腰线有成千上万的其他类似细节的情况下,检测到一个细节是否有缺陷。异常检测系统也可以与监控内部系统(如发动机温度、燃油液位和其他参数)的机制相关联。


小结

异常检测是识别数据中不符合预期模式的数据点的过程。它可用于解决各种问题,包括欺诈检测、医学诊断等。机器学习方法可以自动检测和改进异常检测,尤其是在涉及大型数据集时。LОF、аutоenсоders 和 Bayesian 网络是用于异常检测的最常见的机器学习方法。

来源:网络整理


欢迎加入Imagination GPU与人工智能交流2群

入群请加小编微信:eetrend89

(添加请备注公司名和职称)

推荐阅读

Imagination和瑞昱半导体携手推出全球首款具有图像压缩功能的数字电视SoC

Imagination Technologies 是一家总部位于英国的公司,致力于研发芯片和软件知识产权(IP),基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作场所中使用。获取更多物联网、智能穿戴、通信、汽车电子、图形图像开发等前沿技术信息,欢迎关注 Imagination Tech !

机器学习中的异常检测相关推荐

  1. 机器学习中的异常检测手段

    1. 异常检测介绍 总体来讲,异常检测问题可以概括为两类:一是对结构化数据的异常检测,二是对非结构化数据的异常检测. 对结构化数据的异常检测的解决思想主要是通过找出与正常数据集差异较大的离群点,把离群 ...

  2. 基于机器学习的web异常检测(转)

    阿里聚安全 Web防火墙是信息安全的第一道防线.随着网络技术的快速更新,新的黑客技术也层出不穷,为传统规则防火墙带来了挑战.传统web入侵检测技术通过维护规则集对入侵访问进行拦截.一方面,硬规则在灵活 ...

  3. 基于机器学习的web异常检测——基于HMM的状态序列建模,将原始数据转化为状态机表示,然后求解概率判断异常与否...

    基于机器学习的web异常检测 from: https://jaq.alibaba.com/community/art/show?articleid=746 Web防火墙是信息安全的第一道防线.随着网络 ...

  4. 基于机器学习的web异常检测

    Web防火墙是信息安全的第一道防线.随着网络技术的快速更新,新的黑客技术也层出不穷,为传统规则防火墙带来了挑战.传统web入侵检测技术通过维护规则集对入侵访问进行拦截.一方面,硬规则在灵活的黑客面前, ...

  5. 自动阈值检测_金融科技讲堂之三|金融企业如何在大数据中进行异常检测(一)...

    作者| 边际实验室 异常检测是当今金融企业的当务之急,但在内部设计和构建一个真正有效的监测预警系统是一项复杂的任务. 对于金融企业的数据业务来说,对市场数据.客户交易数据.营销数据等进行分析,并寻找可 ...

  6. keras时间序列数据预测_使用Keras的时间序列数据中的异常检测

    keras时间序列数据预测 Anomaly Detection in time series data provides e-commerce companies, finances the insi ...

  7. 读书笔记《Outlier Analysis》 第八章 分类、文本和混合属性中的异常检测

    1.引言 前面讨论的都是数值数据,然而,在现实生活生成中,还有很多其他类型的数据,如性别.种族.邮编.人员和实体的名称.IP地址等.通常处理这些数据更有挑战,因为难以以均匀和一致的方式来处理各种类型的 ...

  8. 如何在实际场景中使用异常检测?阿里云Prometheus智能检测算子来了

    作者|梵登.白玙 审核&校对:白玙 编辑&排版:雯燕 背景 异常检测作为智能运维(AIOps)系统中基础且重要功能,其旨在通过算法自动地发现 KPI 时间序列数据中的异常波动,为后续的 ...

  9. 基于机器学习的KPI异常检测(当初的讲课课件)

    基于机器学习的KPI异常检测(当初的讲课课件)

最新文章

  1. pycharm flask 设置端口号和开启debug
  2. Bootstrap-table学习笔记(二)——前后端分页模糊查询
  3. 八十、React中的容器组件和无状态组件
  4. Java 线程状态之 TIMED_WAITING
  5. 在计算机的通信子网中 其操作方式有两种,全国自考计算机网技术模拟试卷(八)及答案.doc...
  6. MVC-05 Model(1)
  7. 现在的便签本都这么社会了!?重复写万次还能云端保存
  8. js导航条 二级滑动 模仿块级作用域
  9. 强化学习之原理与应用
  10. 爱普生Epson L301 清零软件+图解教程
  11. 如何利用excel中的数据源制作数据地图
  12. Elixir Meetup 相关不相关的一些感触
  13. Autojs实战教程---番茄免费小说Apk文件和源码
  14. Harvard (name and date) 论文引用格式
  15. 菜鸟 Linux系统学习1简介 安装 云服务器 启动过程
  16. ENE轨道线的选股公式
  17. echarts世界地图
  18. swiper 弹出图片_结合swiper使用图片懒加载
  19. 3DMAX基础学习总结(1)
  20. 【数据聚类】第五章第一节:基于网格的聚类算法概述

热门文章

  1. CCleaner软件清理系统注册表技巧
  2. 日语五十音图快速记忆法和搞笑版
  3. 会计凭证过账demo_SAP刘梦_新浪博客
  4. C++三元一次方程组算法
  5. Google Nexus 7 二代 刷入 Kail Net Hunter 过程记录!!!
  6. c语言课程结束小项目:2048小游戏
  7. SAR信号处理之窗函数9——凯泽(Kaiser)窗
  8. C++小工修炼之路XXI(多态上)
  9. oracle 分页公式
  10. iContact AE 新增功能