文章目录

机器学习基础
- 机器学习概念
- 机器学习算法的分类
- 监督学习
- - 监督学习重点
  - 监督学习的流程
  - 监督学习算法
  - - 分类问题（Classification）
    - 回归问题（Regression）
- 无监督学习
- - 概念
  - 无监督学习的流程
  - 无监督学习算法
  - - 聚类算法
- 推荐系统和深度学习
- - 推荐系统的意义
  - 深度学习由来
- python在机器学习中的优势

机器学习基础

机器学习概念

机器学习能够从无序的数据中提取出有用的信息,那么什么是机器学习呢?以垃圾邮件的检测为例,垃圾邮件的检测是指能够对邮件做出判断,判断其为垃圾邮件还是正常邮件.

机器学习是从数据中学习和提取有用的信息，不断提升机器的性能。那么，对于一个具体的机器学习的问题，很重要的一部分是对数据的收集，我们称这部分数据为训练数据。机器学习的基本工作是从这些数据中学习规则，利用学习到的规则来预测新的数据。

机器学习算法的分类

在机器学习中，根据任务的不同，可以分为监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）、半监督学习（Semi-Supervised Learning）和增强学习（Reinforcement Learning）。

监督学习（Supervised Learning）的训练数据包含了类别信息，如在垃圾邮件检测中，其训练样本包含了邮件的类别信息：垃圾邮件和非垃圾邮件。在监督学习中，典型的问题是分类（Classification）和回归（Regression），典型的算法有Logistic Regression、BP神经网络算法和线性回归算法。
无监督学习（Unsupervised Learning）训练数据中不包含任何类别信息。在无监督学习中，其典型的问题为聚类（Clustering）问题，代表算法有K-Means算法、DBSCAN算法等。
半监督学习（Semi-Supervised Learning）的训练数据中有一部分数据包含类别信息，同时有一部分数据不包含类别信息，是监督学习和无监督学习的融合。在半监督学习中，其算法一般是在监督学习的算法上进行扩展，使之可以对未标注数据建模。

监督学习和无监督学习是使用较多的两种学习方法，而半监督学习是监督学习和无监督学习的融合

监督学习

监督学习重点

在监督学习中，其训练样本中同时包含有特征和标签信息。在监督学习中，分类（Classification）算法和回归（Regression）算法是两类最重要的算法，两者之间最主要的区别是分类算法中的标签是离散的值，如广告点击问题中的标签为{+1，-1}，分别表示广告的点击和未点击，而回归算法中的标签值是连续的值，如通过人的身高、性别、体重等信息预测人的年龄，因为年龄是连续的正整数，因此标签为y∈N+ ，且y∈[1，80]。

监督学习的流程

1. 获取到带有属性值的样本
2. 对样本进行预处理，过滤数据中的杂质，保留其中有用的信息（特征提取或特征处理）
3. 通过监督学习算法习得样本特征到样本标签之间的假设函数
4. 通过假设函数对新的数据进行预测

监督学习算法

分类问题（Classification）

通过训练数据学习一个从观测样本到离散的标签的映射，分类问题是一个监督学习问题。典

型的问题有：①垃圾邮件的分类（Spam Classification）②点击

率预测（Click-through Rate Prediction）；③手写字

识别

回归问题（Regression）

通过训练数据学习一个从观测样本到连续的标签的映射，在回归问题中

的标签是一系列连续的值。典型的回归问题有：①股票价格的预测②房屋价格的预测

无监督学习

概念

无监督学习（Unsupervised Learning）是另一种机器学习算法，与监督学习不同的是，在无监督学习中，其样本中只含有特征，不包含标签信息。与监督学习（Supervised Learning）不同的是，由于无监督学习不包含标签信息，在学习时并不知道其分类结果是否正确。

无监督学习的流程

获取到带有特征值的样本
对样本进行处理，得到样本中有用的信息（特征处理，特征提取）
通过无监督学习算法处理这些样本，如利用聚类算法对这些样本进行聚类

无监督学习算法

聚类算法

聚类算法是无监督学习算法中最典型的一种学习算法。聚类算法利用样本的特征，将具有相似特征的样本划分到同一个类别中，而不关心这个类别具体是什么。

《机器学习》周志华学习笔记
<机器学习>周志华学习笔记第一章绪论 1.1 引言机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. 经验:"经验"通常以"数据& ...
《机器学习算法竞赛实践》学习笔记（3）竞赛概述问题建模
竞赛概述竞赛平台 Kaggle.天池.DataFountain.DataCasstle.Kesci(和鲸).JDATA.FlyAI.AI Challenger 公众号 Coggle数据科学.Kagg ...
龙珠训练营机器学习算法（一）学习笔记
本学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容,学习链接为:点我跳转感谢各位的阅读为什么突然学阿里学习知识点概要学习内容 1 逻辑回归的介绍和应用 1.1逻辑回归的介绍 1.2 逻辑回 ...
《机器学习》周志华学习笔记第六章支持向量机（课后习题）python 实现
一. 1.间隔与支持向量 2.对偶问题 3.核函数 xi与xj在特征空间的內积等于他们在原始yangben空间中通过函数k(.,.)计算的结果. 核矩阵K总是半正定的. 4.软间隔与正则化软间隔允许 ...
《机器学习》周志华学习笔记第十四章概率图模型（课后习题）python实现
一.基本内容 1.隐马尔可夫模型 1.1. 假定所有关心的变量集合为Y,可观测变量集合为O,其他变量集合为R, 生成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O),给定一组 ...
《机器学习》周志华学习笔记第八章集成学习（课后习题）python实现
1.个体与集成 1.1同质集成 1.2异质集成 2.boosting:代表AdaBoost算法 3.Bagging与随机森林 3.1Bagging 是并行式集成学习方法最著名的代表(基于自主采样法bo ...
《机器学习》周志华学习笔记第五章神经网络（课后习题） python实现
1.神经元模型 2.感知机与多层网络 3.误差逆传播算法 (A)BP算法:最小化训练集D上的累积误差标准BP算法:更新规则基于单个Ek推导而得两种策略防止过拟合:(1)早停(通过验证集来判断,训练 ...
《机器学习》周志华学习笔记第四章决策树（课后习题）python 实现
一.基本内容 1.基本流程决策树的生成过程是一个递归过程,有三种情形会导致递归返回 (1)当前节点包含的yangben全属于同一类别,无需划分: (2)当前属性集为空,或是所有yangben在所有属 ...
《机器学习》周志华学习笔记第七章贝叶斯分类器（课后习题）python 实现
课后习题答案 1.试用极大似然法估算西瓜集3.0中前3个属性的类条件概率. 好瓜有8个,坏瓜有9个属性色泽,根蒂,敲声,因为是离散属性,根据公式(7.17) P(色泽=青绿|好瓜=是) = 3/8 ...
《机器学习》周志华学习笔记第三章线性模型（课后习题）python 实现
线性模型一.内容 1.基本形式 2.线性回归:均方误差是回归任务中最常用的性能度量 3.对数几率回归:对数几率函数(logistic function)对率函数是任意阶可导的凸函数,这是非常重要的性 ...

python机器学习算法（赵志勇）学习笔记(基础部分)

文章目录

机器学习基础

机器学习概念

机器学习算法的分类

监督学习

监督学习重点

监督学习的流程

监督学习算法

分类问题（Classification）

回归问题（Regression）

无监督学习

概念

无监督学习的流程

无监督学习算法

聚类算法

推荐系统和深度学习

推荐系统的意义

深度学习由来

python在机器学习中的优势

python机器学习算法（赵志勇）学习笔记(基础部分)相关推荐

最新文章

热门文章