机器学习自主解决安全威胁离我们还有多远?
曾经听见不止一次这样的问题:
“机器学习会替代基于人工经验规则的安全解决方案么?”
把这个问题放在去年来看,我们已经得到了非常多的讨论甚至是一些已经实际应用的解决方案,对于人工智能在安全以及其它各种对数据进行价值挖掘的场景下,大家都表现出了极高的兴趣与激情。
1.你希望机器学习帮助你解决什么问题?
这个问题实际上代表了我们对机器学习的期待,而绝大多数人包括笔者在内的回答可能都比较类似:
我希望机器学习算法能够帮助我更有效的挖掘数据内在价值,发现潜在未知问题,并且极大的节省人工成本;实际上有更偏激的想法是想把数据丢给模型算法,然后期待它可以告诉我所有我想知道的事情。
2.机器学习应用在安全场景下的担忧
笔者最初发现机器学习算法的应用并不是在安全领域,而是在电商精准营销的场景下,通过用户的一系列搜索、收藏、购买行为积累,预测一个新的用户可能更倾向于买什么商品从而进行推荐。
这与安全场景是有一定类似性的,同样也是通过用户的访问、登陆、购买行为对威胁进行预测,评估一个用户是否是坏人。但这两个场景又具有一个本质的不同:
在精准营销场景下,你预测错误推荐了一个用户他不喜欢的商品,用户并不会为此大发雷霆;但是如果你的算法错误的预测了一个坏人的身份,用户又因此而被锁定账号、封禁或被限制,影响的就不仅仅是用户的感受,同时也降低了信任甚至对其他用户产生负面影响,我们所承担的代价是不同的。
3.机器学习在当下更多的是一个驱动者
在有限条件的应用场景下,机器学习无论从效率还是效果上都有着惊人的表现,从下围棋到设计电路板,我们无法理解也无法解释为什么电脑能够做的又好又快。
安全场景下为什么去封禁一个IP或者取消一个订单是需要给业务部门合理的解释的,一个黑盒的逻辑最大的弊端就在于对于给出的结果合理性无法从常识角度来给出解释,你只能默认接受。
所以,我们看到应用了各类机器学习算法的安全解决方案往往会回避最终决策的步骤,而是交给人工进行再次确认或只做参考。由此笔者认为,现阶段机器学习更多的是一个驱动安全运营的角色。
4.数据质量决定了机器学习算法应用于安全场景的价值天花板,而安全运营则是决定了转化率
数据源就是机器学习算法的黄油和面包,没有高质量的数据喂进去很难指望有高价值的产出,而目前接入数据的思路主要有两种:
一种是从企业现有数据中去做清洗和适配,这种方式对于集成双方都是一个非常痛苦的过程;
另外一种是摒弃企业现有存量数据,通过JS、SDK等方式从底层通用环节重新搭建业务数据模型,这种方式会导致历史数据无法有效的应用。
从卖方来讲,希望后一种模式,因为降低了方案实施难度,复制性较强,产品形态简单。而从买方来讲,条件允许的情况下都希望前一种模式,因为可预期的产出价值最高。
两种想法冲撞的结果下,最终会寻求到一个平衡点,但这里存在一个特例,也是最近两年比较热的威胁情报+机器学习概念,区别于内部数据挖掘场景,威胁情报的数据大多都来自外部,服务提供方一次性接入数据便可以快速复制给多个客户,这无疑规避了一个客户一个处理方式的弊端。
但笔者认为,威胁情报如今可以快速聚集起大量数据的原因在于数据持有者变现意愿增强同时监管存在空白,之后还是存在很大的政策风险的。
而我们进一步来看机器学习应用所驱动的安全运营,“一人安全部”甚至没有安全运营是目前的普遍现状,在机器学习引入过之后发现依然需要大量的调优、协调、结果落地评估工作需要人工来完成,这种尴尬局面我认为在热度过后,今年会有更多的冷静思考,认识到:既然现在没有可以绝对替代人工完成风险决策的方案出现,那么安全运营这个角色就是不可或缺的,至少是在目前的过渡阶段。
5.机器学习的安全前景
经济增长往往都来自于生产效率的大幅提升,所以无论是在安全或是其他,机器学习的应用都已经表现出了可承诺的前景。
在这个过程中,低层次数据分析的人工角色会逐渐的被淘汰,而可有效链接数据与价值的高端人才将持续保持其竞争力,至少我们需要知道现阶段的机器学习算法并不能让我们放心的坐到一边喝咖啡,它自动解决所有问题,依然需要我们不断的给予正确的关注和培养,不是吗?
原文发布时间为:2017-03-16
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
机器学习自主解决安全威胁离我们还有多远?相关推荐
- 【机器学习】解决中小微企业的信贷决策问题(一)
[机器学习]解决中小微企业的信贷决策问题(一) 文章目录 概述 问题重述 问题分析 数据预处理说明 模型假设 模型评价与推广 未完待续! 参考 概述 中小微企业对我国国民经济发展做出巨大贡献,但由于其 ...
- ML:人工智能之机器学习ML解决实际应用问题的思路总过程(最全)
ML:人工智能之机器学习ML解决实际应用问题的思路总过程(最全) 目录 详细思路结构 详细思路结构
- Java:做一个自动生成24点游戏,并能自主解决的程序
我们首先利用random函数,随机从1-13中挑选数字,挑选四次. public static void main(String[] args) {Random r = new Random();in ...
- 机器学习解决什么问题_机器学习帮助解决水危机
机器学习解决什么问题 According to Water.org and Lifewater International, out of 57 million people in Tanzania, ...
- PAI通过流式机器学习算法解决实时热点新闻挖掘案例
打开新闻客户端,往往会收到热点新闻推送相关的内容.新闻客户端作为一个承载新闻的平台,实时会产生大量的 新闻,如何快速挖掘出哪些新产生的新闻会成为成为热点新闻,决定着整个平台的新闻推荐质量. 如何从平台 ...
- 机器学习如何解决看病难?Jeff Dean详述机器学习在医疗领域应用
在这篇文章中,Jeff Dean 等人工智能大牛描绘了一幅机器学习在医疗领域的应用蓝图. 先来看两个场景: 场景 1: 一名 49 岁的病人注意到肩膀上起了皮疹,因为不觉得疼痛,所以也没有寻求治疗.几 ...
- vue路由匹配实现包容性_包容性机器学习:解决模型公平问题
vue路由匹配实现包容性 Artificial Intelligence (AI) and Machine Learning (ML) systems are increasingly being u ...
- 【机器学习】解决机器学习中OneVsRestClassifier的网格调参Invalid parameter max_depth for estimator OneVsRestClassifier
简单模型网格调参 from xgboost import XGBClassifier from sklearn.multiclass import OneVsRestClassifier from s ...
- 人工智能基础-机器学习任务之常规解决的六大问题
https://www.toutiao.com/a6706978417851499011/ 机器学习并不是简单的玩数学游戏,它是能真刀真枪的解决很多实际问题的.简单归纳总结一下,机器学习主要解决六大类 ...
最新文章
- 【知识积累】随机数生成的几种方法
- 1.7 matlab矩阵元素的引用(可通过下标和序号引用)
- 学子随感——遇见长郡浏阳(3)
- databtables 设置(显示)行号
- Opencv实战(一) 视频人数统计(C++ Opencv)前后背景分离方法
- oracle中创建实体,生成实体-SqlSugar 4.x-文档园
- zen-coding for notepad++,前端最佳手写代码编辑器
- Schedulerx2.0分布式计算原理最佳实践
- 很多人认为,因为我们是平民,做生意试不了错,输不起,试错成本太高
- com.google.zxing 二维码生成与解析
- postgresql和mysql语句区别_postgresql和mysql语句区别
- 微信公众号推送模板消息(四):Java调用实现模板消息推送
- 一个高速公路交警的忠告
- drools中Fact的equality modes
- 天正对应cad版本_天正建筑t20适用哪个版本cad
- mysql top percent_SQL Server -- TOP子句/TOP Percent,IN 操作符
- Android系统时间
- 小程序中让后面的View覆盖到上一个view中
- Google Summer of Code谷歌编程之夏活动流程全解析(上)
- vue php聊天室,实例详解vue组件父子间通信之聊天室