作者:David Sweenor    编译:ronghuaiyang

导读

异常检测的一些入门问题。

问问题是学习的最好方法之一。但有时你不知道从哪里开始,或者该问什么 —— 尤其是在你还比较熟悉的异常检测之类的话题上。在这种情况下,最好倾听别人的问题,让他们的思路来指导你的学习。以下是我们在“[Ask Me Anything: Anomaly Detection](https://www.tibco.com/events/ask-me- anything-webinar-anomaly-detecing-machine -learning)”网络研讨会上收到的一些问题,可以帮助你入门。

离群点和异常值的区别是什么?

离群值是远离分布的位置或者平均值的观测值。然而,它们并不一定代表异常行为或由不同过程产生的行为。另一方面,异常是由不同的过程生成的数据模式。

异常检测在药品中有什么应用吗?

异常检测在药物生命科学领域有许多应用。包括在制药生产中使用统计过程控制(SPC)或质量控制(QC)和多元过程控制(MSPC)图表进行过程监控和质量控制。及时发现异常是避免异常事件发生,遵守安全标准的关键。发现柜台交易中的异常情况,可以用来打击医药零售数据中的处方滥用。实时检测多参数临床试验数据中的异常,有助于保证临床试验的成功。

GANs也用于异常检测吗?如果是的话,能否提供一个行业用例

生成对抗网络(GANs)是一种新的无监督学习方法,在识别异常方面非常有效。由于GANs是设计成迭代的,并且对抗性训练的目的是利用重构样本来优化减少残差损失,因此它们在半结构化和非结构化数据中工作得很好。它们在医学图像分析(帮助放射学家发现难以识别的肿瘤)、面部识别、文本图像转换等方面非常有用。

数据相关性会影响异常检测吗?我们可以用什么方法,怎样减少这些影响?是否最好在开始异常检测之前清除和删除关联数据?

正如在网络研讨会上提到的,我们不认为相关性会影响异常检测,但我们有许多可用的技术来帮助确定如何处理相关变量。一个建议是使用主成分分析(PCA)这样的技术来减少维数。

建议使用什么样的算法适合于检测与识别网络活动或数据中的不寻常活动有关的异常?

正如在网络研讨会上提到的,有许多方法和算法可以很好地用于异常检测的各种应用和用例。其中有递归神经网络(RNN)、生成对抗网络(GAN)、隔离森林、深度自编码器等。如果你对网络/图分析特别感兴趣,用来识别网络图异常的两种主要方法是直接邻居离群点检测算法(DNODA)和社区邻居算法(CNA)。

在我目前的工作中,“新颖性”是我们努力去发现的主要东西。质量控制图对于已知的模式很有效,但是自动识别新模式比较困难。我希望能得到一些在这方面有所帮助的工具的想法。

对于单变量质量控制图,西方的电气规则可以用于检测少数常见的模式。经典的多元方法,如偏最小二乘(PLS),会捕获到涉及不止一个变量的模式,但不能被单变量方法检测。自动编码器是最全面的工具,将涵盖最广泛的不同模式。它可以捕获多变量、循环、非线性和交互的模式。你使用一组正常数据训练autoencoder,在训练集中没有出现的新数据中出现的任何模式都将被标记。

通过做PCA来减少维度会影响数据集中的异常吗?它会导致异常现象的消失吗?如果是这样,如何预防呢?

做PCA将会在原始数据集中捕获一些百分比的方差。因此,我们使用PCA进行异常检测的方法是计算原始点到低维空间中表示的点的“距离”。距离越大(即在将观测结果映射到低维空间时“丢失”的越多),我们就越认为它是一种异常。

—END—

英文原文:https://www.tibco.com/blog/2020/01/27/7-questions-on-how-to-use-machine-learning-for-anomaly-detection/

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群请扫码进群:

【机器学习基础】关于如何使用机器学习来做异常检测的7个问题相关推荐

  1. 以实时风控场景为例,阿里云实时计算如何来做异常检测?

    内容来源:本文内容由阿里云实时计算,流计算团队提供.IT 大咖说(微信id:itdakashuo)作为独家合作方,经授权发布. 阅读字数:3102 | 8分钟阅读 前言 DT时代,数据是最重要的生产资 ...

  2. 深度学习 机器学习基础_实用的机器学习基础

    深度学习 机器学习基础 This article describes my attempt at the Titanic Machine Learning competition on Kaggle. ...

  3. 关于如何使用机器学习来做异常检测的7个问题

    导读 异常检测的一些入门问题. 问问题是学习的好方法之一.但有时你不知道从哪里开始,或者该问什么 -- 尤其是在你还比较熟悉的异常检测之类的话题上.在这种情况下,最好倾听别人的问题,让他们的思路来指导 ...

  4. 使用计算机视觉来做异常检测

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:Mia Morton 编译:ronghuaiyang(AI公园) 导读 创建异常检测模型,实现生 ...

  5. 使用计算机视觉来做异常检测!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Mia Morton,来源:AI公园 导读 创建异常检测模型,实现 ...

  6. 用计算机视觉来做异常检测

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:AI公园 作者:Mia Morton  |  编译:ronghuaiyang 导读 ...

  7. 【机器学习基础】深入讨论机器学习 8 大回归模型的基本原理以及差异!

    作者 | 台运鹏 几乎每个机器学习从业者都知道回归,其中一些人可能认为这没什么大不了的,只是从参数之间的切 换罢了.本文将阐明每种回归算法的细节,以及确切的区别.包括 : OLS Weighted L ...

  8. 机器学习基础:人工智能、机器学习、深度学习的概念和关系(一)

    本文属于入门深度学习系列文章的第一篇,该系列专栏主要是记录我在Coursera上学习Andrew Ng的 Machine Learning 和 Deep Learning.AI课程时做的笔记,如果有错 ...

  9. 【机器学习基础】5种数据同分布的检测方法!

    作者:小雨姑娘,康涅狄格大学,Datawhale成员 在数据挖掘比赛中,很重要的一个技巧就是要确定训练集与测试集特征是否同分布,这也是机器学习的一个很重要的假设.但很多时候我们知道这个道理,却很难有方 ...

最新文章

  1. DDD 领域驱动设计:贫血模型、充血模型的深入解读!
  2. 笔记整理-信息系统开发基础-面向对象分析与设计-面向对象设计的基本任务
  3. python编程*三角形图形创意图片_python循环输出三角形图案的例子
  4. P5055 【模板】可持久化文艺平衡树
  5. 可持久化Splay 学习笔记
  6. 【洛谷 - P2756】飞行员配对方案问题(网络流最大流,输出方案)
  7. 计算机各种硬盘的规格,硬盘规格参数表大全
  8. 关于GaussDB(DWS)的正则表达式知多少?人人都能看得懂的详解来了!
  9. 最近录制了一些视频,搭建和测试了一下视频平台
  10. 2019年7月9日星期二(C语言)
  11. Java import javax.servlet 出错
  12. 自组织映射网络SOMnet
  13. 2022年湖北省中小企业公共服务平台认定指南(各地配套奖补政策及申报条件)
  14. topjui的表格怎么得到行与列的数据
  15. JAVA JSP网上订餐系统JSP餐厅点餐系统源码JSP点餐系统JSP网上订餐系统JSP在线订餐系统
  16. python公众号文章阅读量_怎么判断一篇微信公众号文章阅读量是不是刷上来的?...
  17. 蓝桥杯 基础练习 特殊回文数 JAVA
  18. 基于VaR模型与CAPM模型的个股日收益率分析报告——以宁德时代(300750)为例
  19. canvas 实现截图功能——截取图片的一部分
  20. es中单机部署状态为Yellow解决办法

热门文章

  1. 2019-04(2)Python学习
  2. c#.net 获取时间日期年月日时分秒生成自动文件名格式
  3. 2017百度之星程序设计大赛 - 初赛(A)数据分割
  4. 高效地加载图片(一) 高效地加载大图
  5. PHP二维数组排序函数
  6. IE调用客户端程序实例
  7. ksd文件怎么打开_文件KSDStore这是个什么文件 – 手机爱问
  8. python实现2048游戏_python实现一个简单的2048游戏
  9. oracle9i用expdp导出全库,Linux下Oracle 11g数据库全库自动备份(EXPDP)
  10. 毕业论文 | 基于单片机的多功能智能小车设计论文(电路+程序+论文)