https://www.toutiao.com/a6636606784838566404/

AI先锋周刊 2018-12-19 15:43:49

摘要:编辑当人们对人工智能模型是有偏见的,他们通常意味着模型表现不好。但具有讽刺意味的是,糟糕的模型性能通常是由数据或算法中的各种实际偏差造成的。机器学习算法是完全按照之前教学要求进行的...

当人们对人工智能模型是有偏见的,他们通常意味着模型表现不好。但具有讽刺意味的是,糟糕的模型性能通常是由数据或算法中的各种实际偏差造成的。

机器学习算法是完全按照之前教学要求进行的,并且是和数学结构和训练的数据一样出色。 有成见的算法最终会做出反映这种成见的事情。

在人类构建算法并训练算法的程度上,来自人类情感的偏见将不可避免会带入人工智能模型。幸运的是,从这个词与机器学习相关的所有意义上来说,都是可以理解的。

人们需要注意和防范3种不同类型的机器学习偏差:

1、样本偏差

样本偏差是训练数据的一个问题。当用于训练模型的数据不能准确地表示模型将要运行的环境时,就会发生这种情况。实际上,在任何情况下,算法都不可能训练到它可以与之交互的整个数据领域。

但是,选择一个足够大且足够代表性以减轻样本偏差的宇宙子集是一门科学。 社会科学家是能很好的理解了这门科学,但并非所有数据科学家都接受过采样技术培训。

可以使用一个明显但说明该问题的例子,如自动驾驶汽车。如果数据科学家的目标是训练一种算法,使其能够在白天和晚上自动驾驶汽车,如果只在白天数据上训练,那么就已经在模型中引入了样本偏差。在白天和夜间数据上训练算法就可以消除样本偏差的来源。

2、测量偏差

当用于观察或测量的设备出现问题时,就会出现系统值失真。这种偏差倾向于在特定方向上扭曲数据。例如,使用带有彩色滤光片的相机拍摄训练数据图像会对每一幅图像的颜色造成相同的失真。该算法将对图像数据进行训练,这些数据系统就会无法表示它将在什么环境中工作。

仅仅通过收集更多的数据是无法避免这种偏差的。最好的方法是使用多种测量设备,以及让经过培训的人员来比较这些设备的输出。

3、算法偏差

最后一种偏差与数据无关。 在机器学习中,偏差是算法的数学属性。 在这种情况下偏向的对应物是差异。

高偏差模型可以很容易的适应训练数据,且复杂度高,但对噪声敏感。另一方面,高偏差的模型更加刚性,对数据和噪声的变化不敏感,并且容易忽略复杂性。重要的是,数据科学家经过训练,能够在这两种特性之间达到适当的平衡。

理解以上三种人工智能偏差的数据科学家将会产生出更好的模型和更好的训练数据。人工智能算法是由人类构建的,训练数据由人工组装、清理、标记和注释。数据科学家需要敏锐地意识到这些偏差,以及如何通过一致的、迭代的方法、持续测试模型,以及通过引入训练有素的人员来提供帮助,以此来避免这些偏差。

几种机器学习算法的偏差以及防范相关推荐

  1. 想要成为数据科学家?知道这11种机器学习算法吗?

    摘要: 想要成为数据科学家?知道这十几种机器学习算法吗?赶快来了解一下吧,文中附各种算法的资源地址! 机器学习从业者都有不同的个性,虽然其中一些人会说"我是X方面的专家,X可以训练任何类型的 ...

  2. 小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码)

    编译 | 林椿眄 出品 | AI科技大本营(公众号ID:rgznai100) [AI科技大本营导读]Python 被称为是最接近 AI 的语言.最近一位名叫Anna-Lena Popkes的小姐姐在G ...

  3. 10 种机器学习算法的要点(附 Python 和 R 代码)(转载)

    10 种机器学习算法的要点(附 Python 和 R 代码)(转载) from:https://zhuanlan.zhihu.com/p/25273698 前言 谷歌董事长施密特曾说过:虽然谷歌的无人 ...

  4. ML之回归预测:利用两种机器学习算法(LiR,XGBoost(调优+重要性可视化+特征选择模型))对无人驾驶汽车系统参数(2017年的data,18+2)进行回归预测值VS真实值

    ML之回归预测:利用两种机器学习算法(LiR,XGBoost(调优+重要性可视化+特征选择模型))对无人驾驶汽车系统参数(2017年的data,18+2)进行回归预测值VS真实值 目录 输出结果 1. ...

  5. ML之回归预测:利用十(xgboost,10-1)种机器学习算法对无人驾驶汽车系统参数(2017年的data,18+2)进行回归预测值VS真实值——bug调试记录

    ML之回归预测:利用十(xgboost,10-1)种机器学习算法对无人驾驶汽车系统参数(2017年的data,18+2)进行回归预测值VS真实值--bug调试记录 目录 输出结果 1.增加XGBR算法 ...

  6. ML之回归预测:利用八(9-1)种机器学习算法对无人驾驶汽车参数(2017年的data,18+2)进行回归预测值VS真实值

    ML之回归预测:利用八(9-1)种机器学习算法对无人驾驶汽车参数(2017年的data,18+2)进行回归预测值VS真实值 目录 模型评估 输出结果 模型评估 相关文章:ML之回归预测:利用八(9-1 ...

  7. ML之回归预测:利用13种机器学习算法对Boston(波士顿房价)数据集【13+1,506】进行回归预测(房价预测)+预测新数据得分

    ML之回归预测:利用13种机器学习算法对Boston(波士顿房价)数据集[13+1,506]进行回归预测(房价预测)+预测新数据得分 导读 本文章基于前边的一篇文章,对13种机器学习的回归模型性能比较 ...

  8. ML之回归预测:利用13种机器学习算法对Boston(波士顿房价)数据集【13+1,506】进行回归预测(房价预测)来比较各模型性能

    ML之回归预测:利用13种机器学习算法对Boston(波士顿房价)数据集[13+1,506]进行回归预测(房价预测)来比较各模型性能 导读 通过利用13种机器学习算法,分别是LiR.kNN.SVR.D ...

  9. ML之分类预测:基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测

    ML之分类预测:基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测 目录 输出结果 数据集展示 输出结果 1.k-NN 2.LoR 4.DT 5.RF ...

最新文章

  1. 素数问题是物质的几何学问题
  2. arcgis python 二次开发_我在部署ArcGIS API for Python时踩到的坑
  3. postgres使用dblink
  4. java学习(2):学生管理系统2
  5. jdbc mysql demo_JDBC_demo:java连接mysql过程
  6. [转]Java并发编程:线程池的使用
  7. kali linux操作系统
  8. 李宏毅机器学习——概率分类模型
  9. 小D课堂-SpringBoot 2.x微信支付在线教育网站项目实战_3-4.动态Sql语句Mybaties SqlProvider...
  10. java oracle spool,oracle之spool详细使用总结
  11. c++语言坦克大战源代码,C++代码之坦克大战(1)(示例代码)
  12. TCP调试助手,十六进制发送或者字符串形式发送的理解
  13. 什么是3d建模,3D建模师可以从事哪些职业?
  14. PostmanCn: Postman中文版
  15. flyway java使用_Flyway的Java原生版操作
  16. 云免停机卡免流服务器监控
  17. MSM搭建(Memcached_Session_Manager)--解决集群session共享
  18. centos7升级GLIBC版本
  19. Elasticsearch——Bboss
  20. Android -- 三种动画(帧动画、View动画、属性动画)

热门文章

  1. su oracle : 只切换用户,而不切换环境;就是说切到oracle用户后,使用的依旧是root的环境。 su - oracle :同时切换用户和环境
  2. 启发下一代AI研究,《认知神经智能科学》专刊发布[附资料下载]
  3. JVM是如何进行多线程并行编程的
  4. 如果没有杜撰,可还有历史?
  5. 神经网络的5种常见求导,附详细的公式过程
  6. 历时3年,清华大学iDLab实验室打造《强化学习和控制》课程及讲义!
  7. 数据蒋堂 | Hadoop - 一把杀鸡用的牛刀
  8. 剑指offer:把字符串转换成整数
  9. 旷视孙剑博士提出LGD,训练速度提升51%,适用于目标检测的知识蒸馏
  10. 2021中科院院士候选名单出炉:清华胡事民、南大周志华等人在列