在搜索引擎里输入“什么是机器学习”,就像打开了一个潘多拉盒子,论坛、学术研究,应有尽有,正是由于技术人员对概念和定义的简化,才使我们得以更好地理解什么是机器学习。

简单地说,机器学习是一种数据分析技术,它可以教计算机做那些人类和动物生来就会做的事情:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定的方程来建模。随着学习样本数量的增加,算法还能自动适应、提高性能。

随着大数据的发展,机器学习已经成为许多领域处理问题的关键技术,例如:

计算金融,信用评分和算法交易

图像处理和计算机视觉,用于人脸识别、运动检测和目标检测

计算生物学,用于肿瘤检测、药物发现和DNA测序

能源生产,价格和负荷预测

汽车、航空航天和制造业的预见性维护

自然语言处理,用于语音识别应用

更多数据、更多问题、更多答案

机器学习算法在数据中发现了一些自然规律,并在此基础上帮你做出更好的决策和预测。在医疗诊断、股票交易、能量负载等预测场景中,人们每天都需要借助机器学习算法进行决策。例如,媒体网站依靠机器学习从数百万种选择中筛选出几首歌或几个视频推送给你。零售商可以利用机器学习算法了解顾客的购买习惯。

为什么要使用机器学习?

假设你遇到了一个复杂的问题,它涉及海量数据和变量,而又没有现成的公式或函数可循,这时候最好的解决方案就是机器学习模型。

机器学习对于以下场景非常有效:

在面部识别和语音识别中,手写规则过于复杂时

在交易记录的反欺诈中,反欺诈规则在不断变化时

在能源需求预测、销售预测中,数据特征持续变化且需要程序主动适应时

机器学习如何工作?

机器学习包括两种技术,一种叫作“有监督机器学习”(Supervised Learning),它在已知输入和输出结果的数据基础上训练模型,并利用模型预测新数据的输出结果;一种叫作“无监督机器学习”(Unsupervised Learning),它通过寻找输入数据的隐藏规律和内部结构进行聚类和关联分析。

有监督机器学习建立了一个模型,该模型在不确定性存在的前提下,基于数据的结果进行预测。有监督机器学习算法采用已知的输入数据集合对应的输出数据集来训练模型,让模型具备预测新数据结果的能力。

有监督机器学习使用分类回归方法来开发预测模型。

分类(Classification)通过对离散型随机变量建模,用于邮件过滤、金融欺诈以及预测雇员异动等输出为类别的任务。典型的应用包括医学成像、语音识别、信用评分以及字符识别等。

常用的分类算法包括支持向量机(SVM)、决策树、最近邻、朴素贝叶斯、判别分析、逻辑回归和神经网络等。

回归(Regression)通过对数值型连续随机变量进行预测和建模,用于房价预测、股票走势、测试成绩等输出为数值的任务。典型的应用包括电力负荷预测和算法交易。

常见的回归算法包括线性模型、非线性模型、正则化、逐步回归、决策树、神经网络和自适应神经模糊学习等。

我们如何使用有监督机器学习方法?

假设临床医生想要预测一个人在一年内是否会突发心脏病。他们有多位病人的既往健康检测数据,包括年龄、身高、体重和血压等。同时,他们也知道这些病人在过去的一年内是否突发心脏病。那么,他们可以把现有数据输入机器学习模型,让机器在这些病人数据的基础上预测任意一个人在一年内突发心脏病的概率。

无监督机器学习通过寻找数据之间的隐藏规律和内部结构进行关联分析。无监督机器学习使用的输入数据集常常是没有任何标签的。

聚类(Clustering)是无监督机器学习中使用最为普遍的算法。它通过分析数据的内部结构寻找和观察样本中的自然族群——集群(clusters)。聚类分析的典型应用包括基因序列分析、市场调研、文章推荐、新闻聚类等。

例如,当一个手机运营商想要通过模型分析优化它的信号塔选址时,由于一个手机一次只能接收一个信号塔发出的信号,因此我们可以通过分析所有从这个信号塔接收信号的客户位置,利用聚类方法估计这个信号塔服务客户的族群数量,从而找到可以保证所有客户能够接收信号的最佳信号塔位置。

常用的聚类算法包括k-均值、层次聚类、高斯混合模型、隐马尔可夫模型、自组织映射、模糊C均值聚类和减法聚类等。

如何选择合适的机器学习算法?

机器学习共有几十种算法,每一种算法都需要通过不同的方法进行学习,因此选择一种适合的算法就变得至关重要。

首先需要明确的是,在机器学习领域,并没有最好的办法或者一刀切的方法。我们只能通过不断地尝试和总结找到最佳方法,甚至经验丰富的数据科学家在未经尝试之前也无法判断算法是否有效。

总的来说,算法的选择取决于你要处理的数据的体量大小和类型,以及你想通过数据获得的结论。

以下是对建模之前选择机器学习算法的一些建议:

如果你要训练一个模型来预测,那么选择有监督机器学习——例如,一个连续变量的未来值,例如温度或股票价格,或者一个分类,例如从摄像头视频片段中识别出汽车。

如果你需要探索你的数据,并且想要训练一个模型来找到一个好的内部结构展示,比如把数据分成集群,那么选择无监督机器学习。


相关文章:

什么是机器学习?(上)

人工智能(AI)经历了怎样的发展历程?

什么是机器学习?(下)相关推荐

  1. 回归 好坏 机器学习_机器学习下的多元回归

    多元回归是六西格玛管理中我们常用的一统计工具,它可以帮助考察多个x对y的影响,并建立可以用于预测的回归方程.这一块的内容我们在之前的文章中做了详细介绍,但是我们今天将基于Minitab 19向大家介绍 ...

  2. 【报告分享】2019移动互联网行业报告暨无监督机器学习下的2019行业价值人群聚类报告.pdf...

    今天给大家分享的报告是TalkingData于2020年3月31日发布的<2019移动互联网行业报告暨无监督机器学习下的2019行业价值人群聚类报告.pdf>,报告包含如下四大部分: 1. ...

  3. 机器学习下一个万亿级的增长从哪来?

    简介:果机器学习有望创造可观的价值,那么问题来了:这些价值将在哪里产生呢?在本文中,笔者将介绍三种类型的公司创造并获取价值的方式:应用机器学习的传统公司.构建无行业属性机器学习工具的公司以及构建垂直集 ...

  4. render_notebook()结果没有图_数与图(20)——机器学习.下

    在<数与图(19)>中,我们明确了机器学习的基本方法--训练,并就关键的技术问题给予了简要的解释,在此基础上,写出了部分程序,包括训练数据列表.求真假y列表过程.求方差过程以及求方差对系数 ...

  5. 机器学习下的大数据、训练

    回首向来萧瑟处,只能感慨一句,哎!个中滋味一言难尽. 第一次听到机器学习这个概念,是在数学建模的课程上,听一个老师在讲SPSS,讲着讲着,他开始说大数据的事情,然后就聊到了机器学习,当时我就在好奇,机 ...

  6. 人工智能和机器学习下的金融科技

    一.开篇 和每个领先行业一样,由于市场需求的变化和技术的进步,金融技术(FinTech)市场经历了长期的演变.因为许多依赖金融技术的公司转换了运营模式,参加这场技术变革的盛宴. 这一演变无疑形成了几个 ...

  7. 分类素材(part6)--大话Python机器学习(下)

    学习笔记,仅供参考,有错必纠 待更新- 支持向量机(P238)

  8. 认知智能,AI的下一个十年 | AI Procon 2020

    整理 | 屠敏 出品 | AI科技大本营(ID:rgznai100) 60 年间的「三起两落」 ,人工智能的沉浮变迁. 在 1956 年的夏天,人工智能在美国达特茅斯大学召开的学术会议之上蹒跚学步,吸 ...

  9. Bengio亲自授课,英国皇家院士参与,这份机器学习在线课别错过丨免费

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 33个诺贝尔奖.几百万欧元经费.只收博士--这个充满了神秘色彩学术氛围的研究所,便是德国马克斯·普朗克研究所,简称马普所. 而就在这几天,这 ...

  10. 收藏 | 一文打尽AI、机器学习网络资源!

    来源:大数据文摘 本文约3000字,建议阅读7分钟. 本文为大家从16个角度找到一些人工智能相关领域的学习资源. 昨天,谷歌刚刚上线的机器学习课程刷屏科技媒体头条.激动过后,多数AI学习者会陷入焦虑: ...

最新文章

  1. Linux常用命令大全(转载收藏)
  2. 银河麒麟安装远程桌面
  3. C#中的运算符、数组、枚举、结构体
  4. 安卓下载保存到本地(一)
  5. Servlet与线程安全
  6. Java类class forName()方法及示例
  7. spring框架(六)之拦截器
  8. python之paramiko模块
  9. 自适应响应式炫酷汽车配件类网站源码 html5高端大气汽车网站织梦模板
  10. 【英语学习】【English L06】U06 Banking L2 A savings account sounds better for me
  11. Leetcode每日一题:155.min-stack(最小栈)
  12. C语言数组100000,100000!阶乘,应该可以更大
  13. 如何安装vscode网页版_如何让用编辑器编写EverNote?
  14. PyTorch 入坑九:权重初始化
  15. jQuery-zTree插件使用
  16. 用Python实现双色球随机选号
  17. 【历史上的今天】3 月 31 日:世界备份日;皮克斯创始人出生;《黑客帝国》上映
  18. 数据库索引是什么 有什么优缺点
  19. 电子元件-电感、磁珠
  20. 清爽的VS开发字体 -- Consolas

热门文章

  1. cas单点登录学习:cas服务端与客户端的搭建
  2. 【版本更新】CAD组件Aspose.CAD 9月新版V17.9发布 | 支持IFC格式
  3. python(48):re.split 多分隔符
  4. 云存储之对象存储性价比小谈
  5. openstack ice版文档horizon整理(页面resize)
  6. boost库的lock_ops类的变化
  7. StarWind RAM 磁盘仿真程序
  8. centos7 ftp服务器搭建_CentOS7下搭建Jellyfin个人流媒体服务器
  9. Linux基础操作及命令管理
  10. 远程配置jupyter notebook