https://www.toutiao.com/a6662604884732281351/

本文将推荐几种机器学习算法,你应该考虑是否将它们投入应用。这五种算法覆盖最常用于聚类、分类、数值预测和朴素贝叶斯等四个门类。

1. 聚类算法:k-means

聚类算法的目标:观察输入数据集,并借助数据集中不同样本的特征差异来努力辨别不同的数据组。聚类算法最强大之处在于,它不需要本文中其他算法所需的训练过程,您只需简单地提供数据,告诉算法你想创造多少簇(样本的组别),算法会为每个簇来分配一个编号。这种规范聚类算法就是k-means。

举个例子,你的应用可用k-means来按照营销目的区分你的网络服务的用户。你只需要输入(从电子商务网站获取的)一组客户的购买历史,并确定四组客户以进行分类营销。此时,你为k-means提供了一个数据表,每行代表一名客户,每列则是各种对客户的购买行为特征(如成为客户的时间、每月评价花费、每月评价订单量、地理位置、对当天航运的使用比例等等)。算法会为表格增加一栏:编号1-4来表示不同的分组。

提示:使用kmeans函数或rxKmeans. 用以执行bt rx的函数是ScaleR的一部分,所以不能支持量很大的数据集。

2&3. 两类、多类分类算法

分类算法的目标:输入一行数据及一个类目名称表,通过对数据的校验估测其所属的类目。分类算法通常按照分类时的类目总数分为两类和多类分类算法。在你使用种算法预测新数据前,你需要预先使用一组类目可知的数据对算法加以训练。

不妨举个简单的例子来说明两类分类算法:想象一个你希望得到是/否(或真/伪)的两极化情形。此时,类别分别为“是”和“否”(或者“真”和“伪”)。两类分类的典型应用是:根据历史天气条件(如温度、风速、降水、气压)和航班信息(如航空公司、起飞时间、航班号)来预测未来航班会推迟15分钟离开还是照常起飞。输出分为“延迟”和“不延迟”两类。在大多数情况下,两类分类算法的核心是逻辑回归的使用,后者用于生成一个在0到1范围内的值。如果该值小于0.5,往往会解释为第一个类(如“不延迟”),否则会划为第二类(如“延迟”)。

另一个应用是:预测贷款的偿还情况,来作为拓展信用的一部分。你必须提供贷款人的相关数据,譬如信用分数、房产年限、工作时长、信用卡债务总额、数据采集年份以及有贷款违约记录。分类为“会违约”和“不会违约”。这个例子之所以非常有趣,是因为对于一些机器学习所处理的难题来说,仅仅有预测结果并不足够,还必须知晓结论是怎样得出的。这时多组分类算法形成的决策树就派上用场了,决策树中的多组分类算法可以分析从输入到最终生成预测的过程。回到贷款这一案例,不妨想象你是银行方,当你拒绝了消费者的贷款新的信用卡要求时,消费者的下一个问题可能是“为什么?”。通过决策树,你可以具体回答:“好吧,你的信用分数太低了,信用卡债台高筑,工作年头又太短了。”

充分理解两类分类算法后,进一步理解多类分类算法就顺理成章了。多类分类算法可应用于电影院,来告诉后者某部电影究竟是垫底的票房毒药(不仅口碑差,而且主流观众不感兴趣)、口碑导向(叫好不叫座)还是票房导向(口碑差,但是票房高)。三个分类分别是“毒药”、“口碑导向”、“票房导向”。你也可以使用决策树,来了解一部电影为何会得到这样的评价。

提示:使用glmrxLogit来进行两类或多类分类。进行多类分类时,你可以使用rpartrxDTree来建立可观察决策树。

4. 数值预测

数值预测算法的目标:根据一组输入,预测一个具体数值。仍然使用上文中航班延误的例子,我们现在要做的不再是预测航班是否会推迟15分钟,数值预测算法将让你知晓航班将具体被推迟多久。数值预测算法的核心是线性回归的使用(不要与分类算法使用的逻辑回归混淆),通过对历史数据的线性拟合,线性回归可以有效地进行数值预测。最好的例子是股票的预测,线性回归根据过往数据的分布,拟合出一条最合适的直线,延长这条线你就可以预测将来的股票价格。

提示:使用ImrxLinMod函数。

5. 朴素贝叶斯算法

最后,你的采纳清单上还缺一个机器学习中劳苦功高的算法——朴素贝叶斯算法。它的核心是因果关系。更具体地说,朴素贝叶斯算法是在给定已知的成因的情况下,预测这一成因将产生的效果以及效果的程度。现实生活中的典型例子是癌症检测。你可以通过对病人特定病状(效果)的观察,来预测病人患有癌症的概率(疾病是成因)。再举个和你相关的例子,朴素贝叶斯算法可以根据你已购买的商品为你推荐其他商品。例如,你网购了一些鸡蛋,算法会提醒你买些牛奶,因为你的购买历史显示:购买鸡蛋(成因)会导致购买牛奶(效果)。朴素贝叶斯有趣的一点在于,它可以用于分类和数值预测。。

提示:使用naiveBayesrxNaiveBayes函数。

结论

好了,你有了一个实用算法的清单。现在,重新审视你的应用,想一想哪些地方可以增添点机器学习带来的智能性。

结语

感谢您的观看,如有不足之处,欢迎批评指正。

目前最实用的机器学习算法,你认为是哪几种?相关推荐

  1. python算法的缺陷和不足_最全最实用的机器学习算法优缺点分析

    原标题:最全最实用的机器学习算法优缺点分析 最全最实用的机器学习算法优缺点分析 2017-06-10 数据派THU 来源:AI100 本文长度为4600字,建议阅读6分钟 本文结合使用场景及实际经验, ...

  2. 最实用的机器学习算法优缺点分析,没有比这篇说得更好了

    AI技术年度盛会即将开启!11月8-9日,来自Google.Amazon.微软.Facebook.LinkedIn.阿里巴巴.百度.腾讯.美团.京东.小米.字节跳动.滴滴.商汤.旷视.思必驰.第四范式 ...

  3. 盘点|最实用的机器学习算法优缺点分析,没有比这篇说得更好了

    对于机器学习算法的盘点,网上屡见不鲜.但目前,还没人能结合使用场景来把问题说明白,而这一点正是本文的目的所在. 文中作者将结合他的实际经验,细致剖析每种算法在实践中的优势和不足. 本文的目的,是务实. ...

  4. 最实用的机器学习算法Top5

    本文将推荐五种机器学习算法,你应该考虑是否将它们投入应用.这五种算法覆盖最常用于聚类.分类.数值预测和朴素贝叶斯等四个门类. 1. 聚类算法:k-means 聚类算法的目标:观察输入数据集,并借助数据 ...

  5. 深度学习算法和机器学习算法_啊哈! 4种流行的机器学习算法的片刻

    深度学习算法和机器学习算法 Most people are either in two camps: 大多数人都在两个营地中: I don't understand these machine lea ...

  6. 机器学习算法_明确解释:4种机器学习算法

    您是涉足机器学习的数据科学家吗? 如果是,那么您应该阅读此内容. 定义,目的,流行算法和用例-全部说明 > Photo by Andy Kelly on Unsplash 机器学习已经从科幻小说 ...

  7. 机器学习与数据挖掘,机器学习算法简介

    ​什么是数据挖掘 数据挖掘就是从大量的数据中去发现有用的信息,然后根据这些信息来辅助决策.听起来是不是跟传统的数据分析很像呢?实际上,数据挖掘就是智能化的数据分析,它们的目标都是一样的.但是,又有很大 ...

  8. 图解最常用的10个机器学习算法!

    ↑↑↑关注后"星标"Datawhale每日干货 & 每月组队学习,不错过Datawhale干货 作者:james_aka_yale,来源:AI有道 在机器学习领域,有种说法 ...

  9. 有必要将所有机器学习算法都实现一遍吗?

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 来源:知乎 整理:louwill 链接:https://www.zhihu.com/q ...

最新文章

  1. spark 读取mongodb失败,报executor time out 和GC overhead limit exceeded 异常
  2. 问题 I: 成对最小公倍数(数学)
  3. [MySQL基础]MySQL语法规范介绍
  4. 解决报错:java.lang.NoSuchMethodException: com.tangyuan.entity.RicherProduct.<init>()
  5. new Date()时间
  6. dataframe第二列 r语言_123.R简介和统计绘图
  7. 正则过滤符号_多角度理解正则项
  8. Direct HTTP Tunnel(直接HTTP客户端)
  9. http mjpeg 图像读取
  10. 论文阅读:Single Image Dehazing via Conditional Generative Adversarial Network
  11. linux下数据同步、回写机制分析
  12. JDKAndroid下载安装
  13. photoshop动作怎么安装?PS怎么导入动作?ps动作安装方法详细教程
  14. 感应加热电源-谐振移相-感性移相
  15. GNU Make 使用手册!
  16. 20210215 Cobalt Strike 重定器/转发器/红队反溯源手段
  17. 怎样在Word中存储高清图,并输出PDF
  18. 谷歌帮——中国最牛的创业帮派
  19. 如何利用百度经验引流?百度经验精准引流的方法
  20. 游戏平台搭建之安卓资源优化

热门文章

  1. cv2.inrange()用法
  2. OPENGFILER存储柜
  3. java获取当前路径
  4. String[] arrayIP= null;的典型错误
  5. 选择适合过一辈子的人
  6. 青源 LIVE 预告 | 复旦大学:NLP 的范式迁移
  7. spring InitializingBean接口分析
  8. 音频数据建模全流程代码示例:通过讲话人的声音进行年龄预测
  9. 剑指offer:二叉树的下一个节点
  10. 来看看几篇Nature上的GNN吧~