机器学习是什么?我对机器学习的理解
第一次听到机器学习这个名词的时候,很恍惚,不知道它到底是什么?
我对机器学习的理解
- 机器学习是什么?
- 机器学习的工作流程是什么?
- 在机器学习中对于数据集的理解
- 数据分割
- 什么是特征工程?
- 特征工程分类
- 机器学习算法分类
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
- 什么是独立同分布?
- 模型评估
- 拟合
机器学习是什么?
简单的说机器学习就是模仿人的思维处理数据。
例如一份历史数据,我们需要把它训练成为一个模型,当有新的数据时,我们把新的数据输入模型中,以此来预测新数据的属性。
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
机器学习的工作流程是什么?
获取数据(用户数据)——数据基本处理——特征工程——机器学习(模型训练)——模型评估(结果达到要求,上线服务;结果没达到要求,重新数据基开始本处理)——在线服务
在机器学习中对于数据集的理解
一行数据叫做——样本
一列数据叫做——特征
有的结果有特征值、目标值,有的结果没有目标值,只有特征值。
数据分割
在建立好模型之后,除了要进行模型训练,还要对数据进行测试,验证模型怎么样。
这个行为叫做数据的分割。
机器学习一般将数据集分为:训练集和测试集
测试数据:在模型检验时使用,用于评估模型是否有效
训练数据:用于训练,构建模型
测试数据和训练数据的划分比例:
什么是特征工程?
特征工程其实可以直接理解为对数据的进一步处理。
特征工程就是利用专业知识和技巧处理数据,使得特征能够在机器学习算法中发挥更好的作用。
它的意义就是:影响机器学习的效果。
行话:数据和特征决定了机器学习的上限,模型和算法只是逼近这个结果而已。
特征工程分类
特征提取、特征预处理、特征降维
- 特征提取:就是将任意数据例如文本或者图像转换为可用于机器学习的数字特征。
- 特征预处理:通过转换函数将特征数据转换成更适合算法模型的特征数据过程。
- 特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。
机器学习算法分类
监督学习
监督学习的输入数据由 特征值和目标值 组成
函数的输出可以是 连续的的值(称为回归),具体的某个值
也可以是有限个离散值(称为分类),具体什么类别
无监督学习
由特征值组成,没有目标值
输入数据没有被标记,也没有确定的结果,样本数据类别未知。
大概意思就是:对输入数据进行大概归类
监督学习和无监督学习 对比:
监督学习有特征值、目标值,无监督学习只有特征值,没有目标值
监督学习目标值分为连续和不连续,即回归和分类。
半监督学习
训练集同时包含有样本标记数据和无样本标记数据。
监督学习和半监督学习的 区别:
关于标记数据的多少和训练模型有没有用到没有标记过的数据。
强化学习
本质就是一个决策问题,并且可以做连续决策。
五个元素:agent、action、reward、environment、observation
监督学习和强化学习的区别:
监督学习:输出是之间的关系,告诉算法什么样的输入就会对应什么样的输出;期间做了比较坏的选择会立刻反馈给算法;输入是独立同分布的。
强化学习:输出是用来判断这个行为是好是坏的;结果反馈有延时,可能进行了好几步才知道前面哪一步的选择是好是坏;输入总是在变化,每当算法做出一个行为,就会影响到下一次决策的输出。
什么是独立同分布?
如果变量序列或者其他随机变量有相同的概率分布,并且相互独立,那么这些随机变量是独立同分布的。
我的理解:
独立:两个筛子,每一个掷出多少都互不相关,这叫独立。
如果我让两个筛子掷出来的和加起来是6,那么这两个筛子就不是独立的,是相关的。
同分布:两个都是6面的筛子,他们某一面被掷出来的概率都是六分之一,那么他们就是同分布的。
独立同分布:同时满足独立和同分布,即两个6面的筛子,每一面掷出来的概率都是六分之一,但每个筛子掷出来的多少互相没有关联,这叫独立同分布。
模型评估
分类模型评估和回归模型评估
分类模型评估
准确率:预测正确的数占样本总数的比例。
回归模型评估
均方根误差:RMSE,衡量回归模型误差率的常用公式,不过,仅能比较误差是相同单位的模型。
均方根误差(RMSE)
均方误差(MSE)
用 真实值-预测值 然后平方之后求和平均。
MAE(平均绝对误差)
拟合
模型评估用于评测训练好的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合
欠拟合:模型学习的太粗糙,连训练集中的样本数据特征关系都没有学出来。
过拟合:所建的机器学习模型或者深度学习模型在训练样本中表现过于优越,导致在测试集中表现不佳。
都是些基本概念,其中还有很多需要补充的内容,我后续再补充进来。
机器学习是什么?我对机器学习的理解相关推荐
- 机器学习中训练的模型,通俗理解
概率统计(建模.学习) 很多新手在初学机器学习/深度学习中,会产生这样的疑问?为什么要训练模型,模型是什么,如何训练- 本人刚开始接触时也产生过类似地疑问,现在为大家排解这些疑问. 1.机器学习中大概 ...
- 【机器学习】机器学习在爱奇艺视频分析理解中的实践
原标题:大规模机器学习在爱奇艺视频分析理解中的实践 AI 前线导读:视频包含了图像.声音.文字等多种信息,可以表达生动.丰富的内容.随着 AI 时代的带来,互联网视频应用高速发展,视频更成为一种人人可 ...
- 【视频分析】大规模机器学习在爱奇艺视频分析理解中的实践
原标题:大规模机器学习在爱奇艺视频分析理解中的实践 AI 前线导读:视频包含了图像.声音.文字等多种信息,可以表达生动.丰富的内容.随着 AI 时代的带来,互联网视频应用高速发展,视频更成为一种人人可 ...
- 机器学习(Part I)机器学习的种类
在开始学习各种不同类型的机器学习算法之前,首先了解一下背景材料是很有帮助的.它们包括各种算法的执行目标是什么,以及它们适用于人工智能领域的哪些方面.这篇文章将涵盖通常的人工智能研究中的各种学习类型,为 ...
- 新闻上的文本分类:机器学习大乱斗 王岳王院长 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处
新闻上的文本分类:机器学习大乱斗 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差 ...
- 【机器学习】一篇白话机器学习概念
前言: 应出版社约稿,计划出个机器学习及深度学习通俗序列文章,不足之处还请多提建议. 4.1 机器学习简介 机器学习看似高深的术语,其实就在生活中,古语有云:"一叶落而知天下秋", ...
- 机器学习初学者_绝对初学者的机器学习
机器学习初学者 In recent times, we hear these few things a lot: 最近,我们经常听到以下几件事: First is -The COVID-19 Pand ...
- 机器学习:sklearn数据集与机器学习组成
机器学习组成:模型.策略.优化 <统计机器学习>中指出:机器学习=模型+策略+算法.其实机器学习可以表示为:Learning= Representation+Evalution+Optim ...
- 机器学习诗词创作_通过机器学习创作音乐
机器学习诗词创作 In Sweden, there's something called the Allemansrätten, which literally translates to " ...
- 【机器学习课程】第一章机器学习概述 2.机器学习
走出狭隘的自我,生活才真正开始.-爱因斯坦 2.1什么是机器学习 机器学习的初步认识 机器学习这个术语是1959年IMB公司的亚瑟·赛缪尔提出的:教会计算机学习它需要了解的关于世界的一切,以及如何为自 ...
最新文章
- 宝塔如何备份网站_学习织梦网站必需会的一件事:织梦网站数据备份
- 如何防止google colab 掉线
- 网站最令人讨厌的几个用户体验
- c语言尚未实现的虚拟函数,编译原理之学习 lua 1.1 笔记 (二) 函数调用与局部变量...
- GYM 101669F - Binary Transformations
- 《深入理解 Spring Cloud 与微服务构建》第十八章 使用 Spring Security OAuth2 和 JWT 保护微服务系统
- lintcode-135-数字组合
- python 流写入文件_Python数据流写入文件
- 利用客户端cookie保存用户信息
- 全球及中国网络教育行业商业模式与运行前景分析报告2022版
- Gradle Builds Everthing —— 产物输出
- 程序员不要和陌生人说话——漫谈一些有趣的架构原则
- css网站变灰色代码
- 传统相声台词-太平歌词大实话
- html中并列式的应用,并列式结构梳理
- asp.net 微信jsapi支付
- Python的字符串比较
- AI中英文翻译软件,一键批量多语种翻译
- Android学习-五布局之绝对布局(AbsoluteLayout)
- 使用SQL4Automation让CodeSYS连接数据库
热门文章
- python小海龟turtle绘图作业代码
- Penetration experience summary | Network security
- 原子物理与量子计算机,量子光学与量子信息的实验研究
- 代码免杀过江民2011杀毒
- 全国潮汐表 v10.1.1
- Linux下制作ISO与刻录ISO
- python计算n的m次方_Python程序来计算n + nm + nmm ....... + n(m次)。
- 串行数字接口(SDI)
- 并发、并行、同步、异步、进程,线程、串行、并行?一文弄懂八大概念
- 【ROS2原理14】.msg / .srv / .action文件的做法