机器学习算法一般步骤
各位工程师累了吗? 推荐一篇可以让你技术能力达到出神入化的网站["宅男门诊"](https://zhainanmenzhen.com/)
1、使用机器学习来解决问题,我们用数学语言来描述它,然后建立一个模型,例如回归模型或者分类模型等来描述这个问题;
2、通过最小化误差、最大似然、最大后验概率等等建立模型的代价函数,转化为最优化问题。找到最优化问题的解,也就是能拟合我们的数据的最好的模型参数;
3、求解这个代价函数,找到最优解。
求最优解方法:
1、如果优化函数存在解析解。例如我们求最值一般是对优化函数求导,找到导数为0的点。如果代价函数能简单求导,并且求导后为0的式子存在解析解,那么我们就可以直接得到最优的参数。
2、如果式子很难求导,例如函数里面存在隐含的变量或者变量相互间存在耦合,互相依赖的情况。或者求导后式子得不到解释解,或者未知参数的个数大于方程组的个数等。这时候使用迭代算法来一步一步找到最优解。
特别的若优化函数是凸函数,那么就存在全局最优解,如果函数是非凸的,那么就会有很多局部最优的解,因此凸优化重要性不言而喻。人们总希望在万千事物中找到最优的那个他。
1.什么是机器学习
计算机自动从数据中发现规律,并应用于解决新问题
给定数据(X1,Y1), (X2,Y2), … ,(Xn,Yn),机器自动学习X和Y之间的关系,从而对新的Xi,能够预测Yi。如由身高预测性别,身高预测体重。
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
2.基于规则
3.基于模型- 机器学习
4.实例-房价预测
5.基本概念
我们先明确机器学习中一些概念和常用的符号:
房屋销售记录表 训练集(training set)或者训练数据(training data), 一般称为x
房屋销售价钱 输出数据,一般称为y
拟合的函数 (模型、假设),一般写做 y = h(x)
训练数据的条数(training set) 一条训练数据是由一对输入和输出数据组成的
输入数据的维度(特征的个数features) 房屋的售价,数据表中的列
6.机器学习过程
基本概念:
7.机器学习主要问题
分类:LR,SVM,NB,KNN,决策树
LR(logistic regression),SVM(),NB(naive bayes ),KNN(k-nearest neighbor),决策树
聚类:k均值(k-means),层次,GMM(高斯混合模型)
回归:线性回归,逻辑回归
关联规则:Apriori,FPgrowth
8.监督与非监督学习
监督学习:
给定数据(X1,Y1),(X2,Y2),…,(Xn,Yn)
对新的Xi,预测其Yi
分类,回归
非监督学习:
给定数据X1,X2,…,Xn
求Yi=f(Xi),P(Xi,Yi)
聚类,降维
9.机器学习三要素
模型---规律
策略---模型好不好
10.经验风险
11.结构风险
12.算法
13.正则化
正则化(regularization)在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题
14.交叉验证
1. 简单交叉验证
简单交叉验证的方法是这样的,随机从最初的样本中选择部分,形成验证数据,而剩下的当作训练数据。一般来说,少于三分之一的数据被选作验证数据。
2. K折交叉验证
10折交叉验证是把样本数据分成10份,轮流将其中9份做训练数据,将剩下的1份当测试数据,10次结果的均值作为对算法精度的估计,通常情况下为了提高精度,还需要做多次10折交叉验证。
更进一步,还有K折交叉验证,10折交叉验证是它的特殊情况。K折交叉验证就是把样本分为K份,其中K-1份用来做训练建立模型,留剩下的一份来验证,交叉验证重复K次,每个子样本验证一次。
3. 留一验证
留一验证只使用样本数据中的一项当作验证数据,而剩下的全作为训练数据,一直重复,直到所有的样本都作验证数据一次。可以看出留一验证实际上就是K折交叉验证,只不过这里的K有点特殊,K为样本数据个数。
15.泛化能力(预测能力)
泛化能力指由学习方法得到的模型对未知数据的预测能力。
概括地说,所谓泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的算法也能给出合适的输出,该能力称为泛化能力。
16.模型评估与模型选择
当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就自然成为学习方法评估的标准。
通常,测试误差越小的方法具有更好的预测能力,泛化能力强。
17.过拟合与模型选择
18.总结
转载于:https://www.cnblogs.com/chaoren399/p/4851658.html
机器学习算法一般步骤相关推荐
- 一般使用机器学习算法遵循的步骤
摘自<机器学习实战>,感觉思路比较清晰 一,收集数据.可以使用很多种方法收集样本数据,例如制作网络爬虫从网站上爬取数据,从RSS反馈或者API中得到信息,设备发送过来的实测数据(风速,血糖 ...
- 小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码)
编译 | 林椿眄 出品 | AI科技大本营(公众号ID:rgznai100) [AI科技大本营导读]Python 被称为是最接近 AI 的语言.最近一位名叫Anna-Lena Popkes的小姐姐在G ...
- 「数据科学家」必备的10种机器学习算法
来源 | 雷克世界(ID:raicworld) 编译 | 嗯~是阿童木呀.KABUDA.EVA 可以说,机器学习从业者都是个性迥异的.虽然其中一些人会说"我是X方面的专家,X可以在任何类型的 ...
- 为什么机器学习算法难以优化?一文详解算法优化内部机制
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 来源:数据派THU,编辑:黄继彦 本文约3500字,建议阅读9分钟本文介 ...
- 面试必备:6个你必须熟练掌握的机器学习算法
简要介绍一下机器学习中的经典代表方法.重点是这些方法内涵的思想. 01 回归算法 在大部分机器学习课程中,回归算法都是介绍的第一个算法.原因有两个:一回归算法比较简单,介绍它可以让人平滑地从统计学迁移 ...
- Google Brain 研究员梁辰:从零开始搜索机器学习算法(附视频、PPT)
导读:2020 年 5 月 16 日上午,在北京智源人工智能研究院主办的智源论坛第 31 期上,AutoML-Zero 团队核心成员梁辰做了题为<AutoML-Zero: Evolving Ma ...
- 常见面试之机器学习算法思想简单梳理
找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位 ...
- 机器学习算法清单!附Python和R代码
来源:数据与算法之美 本文约6000字,建议阅读8分钟. 通过本文为大家介绍了3种机器学习算法方式以及10种机器学习算法的清单,学起来吧~ 前言 谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人 ...
- 独家 | 数据分析@爱可可-爱生活是否在用机器学习算法运营微博
微博账号@爱可可-爱生活是数据科学圈的网红,因每天分享大量精选的数据科学领域的学习资料而出名,深受粉丝关注和喜爱.该账号每天从早晨4-5点开始发微博,日均发布大几十条原创,有人不禁质疑,它的运营者北邮 ...
最新文章
- 为什么苹果 M1 芯片如此之快?
- 城市是否可以坐车到达问题
- 微信小程序 列表的分页实现(最新的最简易的实现方式+思路,附代码)
- ASP.NET在IIS7中上下文中不可用
- 我理解的Hanlder--android消息传递机制
- 不允许使用java方式启动_细品 Java 中启动线程的正确和错误方式
- 硬件:电脑基础进阶必学知识,详解电脑主板跳线!
- DevOps组织如何有效地实施MSA
- 我的CSDN原创高质量免积分下载资源列表
- 天宫初级认证答案_百度初级认证考题_试题1题目+答案
- 华为手机怎么连接苹果电脑?
- Springboot之苹果内购支付
- 在html中dd 是什么列表,html中dt dd
- 开发工作流程_您应该了解的9个开发工作流程升级
- 【DSP】CCS3.3安装教程
- OWASP固件安全测试
- 2021/06/27 Uncaught SyntaxError: Cannot use import statement outside a module
- 小小的纳豆居然有这么多好处,难怪岛国人为它疯狂
- 超牛逼!这款开源性能监控系统真强大~
- 我做的 地税信息中心设备台账
热门文章
- vue 刷新当前页面、组件;provide、inject
- 芝麻当家运营级商城源码/H5/小程序/网页
- 在.Net中使用log4Net
- 做一个项目,平时都用到哪些工具提高效率(中) 【转】
- ASP.NET Forms验证 实现子域名(SubDomain)共享登陆下的缺陷 [转]
- 我所知道的几种display:table-cell的应用
- 使用 jQuery Mobile 与 HTML5 开发 Web App (十六) —— HTML5 Web Storage
- Swift中文教程(十六) 自动引用计数
- 百度google关键字优化的小技巧
- ROS小白——软件安装(1)