误区

机器学习已经不再仅限于科幻电影——从Siri与Alexa语音识别到Facebook的照片自动标记,再到Amazon与Spotify商品推荐,机器学习技术开始越来越多地融入日常生活。目前,众多企业渴望着利用机器学习算法以改进自身网络效率。

与任何技术一样,机器学习如果未经正确实施,同样有可能对网络造成严重危害。因此在采取这项技术之前,企业应当了解机器学习可能引发的问题,同时尽量加以避免。在今天的文章中,瞻博网络公司安全智能软件得Roman Sinayev列举了以下六种机器学习领域的认识误区。

忽视意料外的变量行为

有些事物计算机认为很重要,而人类却会瞬间将其判断为毫无价值。正因为如此,部署机器学习算法之前,必须尽可能考虑更多相关变量与潜在结果。

以模型训练为例,我们假定需要帮助算法区图片中的两类载具——卡车与轿车。如果所有卡车图片皆拍摄于夜间,而全部轿车图片皆拍摄于白天,那么这套模型就会认为夜间出现的一定是卡车。

处理关键性变量及结果将有助于降低解决方案出现不必要及意外行为的可能性。

忽略数据作业

为了构建起一套训练有素的统计模型,我们必须了解被分析数据的来源与集合。这部分信息很可能给算法性能、变量以及潜在结果带来至关重要的影响。

另外,如果模型对数据进行了错误分类,很可能是因为其没有利用具备理想解的最佳代表性数据进行训练。

开发、测试,而后发布模型

模型的实用性来源于训练数据的结构与质量。在将机器学习方案在企业内发布之前,数据科学家会利用数据集进行算法模型测试,从而确保其性能及结果符合要求。这部分数据必须认真加以可视化处理,同时监控整个新数据训练流程。如果数据科学家急于完成测试,或者未能为模型提供充足的数据作为变量加权素材,那么这些数据集恐怕无法表达算法在现实世界中可能遇到的情况。

最重要的是提供充足的数据作为变量加权。在测试阶段当中,提供更多数据有助于大幅提升模型质量,并确保其在生产环境中能够真正发挥作用。

忽略潜在失误

项目的最终目标很可能会带来新的障碍,并引发潜在失误。某家大型企业就曾经推出一款社交媒体机器人,旨在利用其模仿青少年的语言模式,从而实现顺畅交互。然而,用户向机器人提出大量有争议性的话题,导致其因此调整自身学习方式——最终,该公司在不到24个小时内就撤回了这套聊天机器人。

并非每个机器学习项目都应进行公开或者允许用户访问并操纵其数据,意识到算法所处的环境将有效避免此类失误。

选择更多数据

当测试模型的性能与预期结果不符时,我们拥有两种选择——设计一套更出色的学习算法,或者收集更多数据。添加更多数据有助于工程师们了解当前模型的性能限制。如果收集更多数据的作法更易于实现,那么请继续将其馈送至算法当中,看看能否得出更具实际意义的结果。

不要忽略整体性的意义

最近在实际应用当中获得普遍成功的算法类型为集合学习——即通过多套模型组合以解决计算智能问题。集合学习的典型示例包括堆叠简单分类器,例如逻辑回归。这些集合学习方法相较于其中各类独立分类器能够显著改善预测性能。

本文作者:核子可乐

来源:51CTO

机器学习领域中的六大误区相关推荐

  1. 机器学习领域中各学派划分——符号主义、频率主义、贝叶斯主义、连接主义核心思想和理论

    机器学习领域中各学派划分--符号主义.频率主义.贝叶斯主义.连接主义 文章目录 机器学习领域中各学派划分--符号主义.频率主义.贝叶斯主义.连接主义 符号主义 频率主义 贝叶斯主义 连接主义 符号主义 ...

  2. 机器学习领域中各学派划分(符号主义、频率主义、贝叶斯主义、连接主义)

    前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 在机器学习领域中,算法数量可谓是数不胜数,若只关注每个算法本身,将各个算法 ...

  3. 机器学习领域中的一些概念

    前段时间在学习机器学习的时候,经常会看到一些数学符号和数学概念,在此记下. 1. 可行解和最优解 规划问题中的概念.满足约束条件的称为线性规划问题的可行解.所有可行解的集合称为可行域.而不仅满足约束条 ...

  4. [当人工智能遇上安全] 3.安全领域中的机器学习及机器学习恶意请求识别案例分享

    您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...

  5. 二十三.基于机器学习的恶意请求识别及安全领域中的机器学习

    这是作者的系列网络安全自学教程,主要是关于网安工具和实践操作的在线笔记,特分享出来与博友共勉,希望您们喜欢,一起进步.前文分享了Web渗透的第一步工作,涉及网站信息.域名信息.端口信息.敏感信息及指纹 ...

  6. 泰勒公式推导过程_论泰勒级数在机器学习家庭中的地位

    论泰勒级数的家庭地位 胖友们,很久没见了,最近工作确实太忙.离上一篇文章的时间已经有一个多月了.上回说到学习python占用了我很大部分的时间.但是在一次我面试别人与别人的交流中,我醒悟到了一些机器学 ...

  7. 机器学习算法中的过拟合与欠拟合(转载)

    在机器学习表现不佳的原因要么是过度拟合或欠拟合数据. 1.机器学习中的逼近目标函数过程 监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y). Y=f(X)Y ...

  8. 实时数据库领域中有关数据压缩的认识误区

    2007年10月28日晚上,我挖了一个坑,那篇"关于实时数据库接口标准的讨论",只写了第一部分,到现在还没有填上.工作忙是一个原因,我只能利用晚上22:00至23:00这一段时间写 ...

  9. 深度学习在遥感图像处理中的六大应用

    2006年,加拿大多伦多大学教授.机器学习领域的泰斗Geoffrey Hinton和他的学生在<科学>上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮. 深度学习摧枯拉朽般地实现了各 ...

最新文章

  1. 你听说过反摩尔定律吗?
  2. Redis配置主从数据,实现主从库之间数据同步
  3. CCCatmullRomBy和CCPointArray
  4. 实现技术3次作业 谢筱 1101220759
  5. tcpcopy使用方法
  6. java ui设计用什么_什么是UI设计?
  7. mybatis使用和分析
  8. 2018年湘潭大学程序设计竞赛 F maze
  9. 如何在H264数据中获取PTS?
  10. 【谷粒学院】项目总结
  11. 基于热传导方程的高温作业专用服装设计(一)
  12. 别觉得自己PS很牛,看完这位俄罗斯大神作品后,会觉得只是小牛牛
  13. ADADELTA: AN ADAPTIVE LEARNING RATE METHOD
  14. -bash: wget: 未找到命令
  15. 用python的turtle库画个笑脸(附代码)
  16. 悲观的人更容易获得好的感觉
  17. 来!学逆向都想的手游防护(下篇更新破解)
  18. JAVA实现对阿里云DNS的解析管理
  19. 组态王能直接读取仪表数据吗_关于组态王读取非标准协议设备数据的应用
  20. 在已安装win10环境中利用EasyBCD引导安装Ubuntu16.04

热门文章

  1. python调用所有函数_python打印所有函数调用以了解脚本
  2. oracle 作业 断开原因,解惑 | Oracle JOB 异常中断原因分析
  3. 二次优化问题dfp_优化设计-fmincon函数介绍-序列二次的规划(SQP)-subspacetrustregion-activesett.pdf...
  4. gcn语义分割_ICCV Oral 2019:152层GCN大幅加深图卷积网络的方法,点云分割任务效果显著...
  5. java取geosever数据,终于搞定了GeoServer的WFS查询
  6. Linux脚本实战之检测网卡流量
  7. linux python代码编辑器,Linux上的Python编辑器
  8. field list什么意思_从源码中学Vue(六)「解密」为什么操作数组的方法也会触发视图更新...
  9. Redis cluster日常管理【二】
  10. 洛谷P1939 【模板】矩阵加速(数列)