文章目录

  • 机器学习基础
    • 机器学习概念
    • 机器学习算法的分类
    • 监督学习
      • 监督学习重点
      • 监督学习的流程
      • 监督学习算法
        • 分类问题(Classification)
        • 回归问题(Regression)
    • 无监督学习
      • 概念
      • 无监督学习的流程
      • 无监督学习算法
        • 聚类算法
    • 推荐系统和深度学习
      • 推荐系统的意义
      • 深度学习由来
    • python在机器学习中的优势

机器学习基础

机器学习概念

​ 机器学习能够从无序的数据中提取出有用的信息,那么什么是机器学习呢?以垃圾邮件的检测为例,垃圾邮件的检测是指 能够对邮件做出判断,判断其为垃圾邮件还是正常邮件.

​ 机器学习是从数据中学习和提取有用的信息,不断提升机器的性能。那么,对于一个具体的机器学习的问题,很重要的一部分是对数据的收集,我们称这部分数据为训练数据。机器学习的基本工作是从这些数据中学习规则,利用学习到的规则来预 测新的数据。

机器学习算法的分类

在机器学习中,根据任务的不同,可以分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-Supervised Learning)和增强学习(Reinforcement Learning)。

  • 监督学习(Supervised Learning)的训练数据包含了类别信息,如在垃圾邮件检测中,其训练样本包含了邮件的类别信息:垃圾邮件和非垃圾邮件。在监督学习中,典型的问题是分类(Classification)和回归(Regression),典型的算法有Logistic Regression、BP神经网络算法和线性回归算法。
  • 无监督学习(Unsupervised Learning)训练数据中不包含任何类别信息。在无监督学习中,其典型 的问题为聚类(Clustering)问题,代表算法有K-Means算法、DBSCAN算法等。
  • 半监督学习(Semi-Supervised Learning)的训练数据中有一部分数据包含类别信息,同时有一部分数据不包含类别信息,是监督学习和无监督学习的融合。在半监督学习中,其算法一般是在监督学习的算法上进行扩展,使之可以对未标注数据建模。

监督学习和无监督学习是使用较多的两种学习方法,而半监督学习是监督学习和无监督学习的融合

监督学习

监督学习重点

在监督学习中,其训练样本中同时包含有特征和标签信息。在监督学习中,分类(Classification)算法和回归(Regression)算法是两类最重要的算法,两者之间最主要的区别是分类算法中的标签是离散的值,如广告点击问题中的标签为{+1,-1},分别表示广告的点击和未点击,而回归算法中的标签值是连续的值,如通过人的身高、性别、体重等信息预测人的年龄,因为年龄是连续的正整数,因此标签为y∈N+ ,且y∈[1,80]。

监督学习的流程

1. 获取到带有属性值的样本
2. 对样本进行预处理,过滤数据中的杂质,保留其中有用的信息(特征提取或特征处理)
3. 通过监督学习算法习得样本特征到样本标签之间的假设函数
4. 通过假设函数对新的数据进行预测

监督学习算法

分类问题(Classification)

通过训练数据学习一个从观测样本到离散的标签的映射,分类问题是一个监督学习问题。典

型的问题有:①垃圾邮件的分类(Spam Classification)②点击

率预测(Click-through Rate Prediction);③手写字

识别

回归问题(Regression)

通过训练数据学习一个从观测样本到连续的标签的映射,在回归问题中

的标签是一系列连续的值。典型的回归问题有:①股票价格的预测②房屋价格的预测

无监督学习

概念

无监督学习(Unsupervised Learning)是另一种机器学习算法,与监督学习不同的是,在无监督学习中,其样本中只含有特征,不包含标签信息。与监督学习(Supervised Learning)不同的是,由于无监督学习不包含标签信息,在学习时并不知道其分类结果是否正确。

无监督学习的流程

  1. 获取到带有特征值的样本
  2. 对样本进行处理,得到样本中有用的信息(特征处理,特征提取)
  3. 通过无监督学习算法处理这些样本,如利用聚类算法对这些样本进行聚类

无监督学习算法

聚类算法

聚类算法是无监督学习算法中最典型的一种学习算法。聚类算法利用样本的特征,将具有相似特征的样本划分到同一个类别中,而不关心这个类别具体是什么。

推荐系统和深度学习

在机器学习算法中,除了按照上述的分类将算法分成监督学习和无监督学习外,还有其他的一些分类方法,如按照算法的功能,将算法分成分类算法、回归算法、聚类算法和降维算法等。随着机器学习领域的不断发展,出现了很多新的研究方向,推荐算法和深度学习是近年来研究较多的方向。

推荐系统的意义

随着信息量的急剧扩大,信息过载的问题变得尤为突出,当用户无明确的信息需求时,用户无法从大量的信息中获取到感 兴趣的信息,同时,信息量的急剧上升也导致了大量的信息被埋没,无法触达一些潜在用户。推荐系统(Recommendation System,RS)的出现被称为连接用户与信息的桥梁,一方面帮助用户从海量数据中找到感兴趣的信息,另一方面将有价值的信 息传递给潜在用户。

在推荐系统中,推荐算法起着重要的作用,常用的推荐算法主要有:协同过滤算法、基于矩阵分解的推荐算法和基于图的推荐算法。

深度学习由来

传统的机器学习算法都是利用浅层的结构,这些结构一般包含最多一到两层的非线性特征变换,浅层结构在解决很多简单的问题上效果较为明显,但是在处理一些更加复杂的与自然信号的问题时,就会遇到很多问题。

随着计算机的不断发展,人们尝试使用深层的结构来处理这些更加复杂的问题,但是,同样也遇到了很多的困难,直到2006年,Hinton等人提出了逐层训练的概念,深度学习又一次进入了人们的视野,数据量的不断扩大以及计算机计算能力的增强,使得深度学习技术成为可能。在深度学习中,常用的几种模型包括:①自编码器模型②卷积神经网络模型③循环神经网络

python在机器学习中的优势

  • 在机器学习算法中,涉及大量的与线性代数相关的知识,Python中有Numpy函数库可以专门用于处理各种线性代数的问题
  • Python社区有庞大的库,几乎可以解决大部分问题;
  • Python被称为胶水语言,可以以混合编译的方式使用C/C++/Java等语言的库;
  • Python语法简单,同时易于操作。

python机器学习算法(赵志勇)学习笔记(基础部分)相关推荐

  1. 《机器学习》周志华 学习笔记

    <机器学习>周志华 学习笔记 第一章 绪论 1.1 引言 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. 经验:"经验"通常以"数据& ...

  2. 《机器学习算法竞赛实践》学习笔记(3)竞赛概述问题建模

    竞赛概述 竞赛平台 Kaggle.天池.DataFountain.DataCasstle.Kesci(和鲸).JDATA.FlyAI.AI Challenger 公众号 Coggle数据科学.Kagg ...

  3. 龙珠训练营机器学习算法(一)学习笔记

    本学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容,学习链接为:点我跳转 感谢各位的阅读 为什么突然学阿里 学习知识点概要 学习内容 1 逻辑回归的介绍和应用 1.1逻辑回归的介绍 1.2 逻辑回 ...

  4. 《机器学习》 周志华学习笔记第六章 支持向量机(课后习题)python 实现

    一. 1.间隔与支持向量 2.对偶问题 3.核函数 xi与xj在特征空间的內积等于他们在原始yangben空间中通过函数k(.,.)计算的结果. 核矩阵K总是半正定的. 4.软间隔与正则化 软间隔允许 ...

  5. 《机器学习》 周志华学习笔记第十四章 概率图模型(课后习题)python实现

    一.基本内容 1.隐马尔可夫模型 1.1. 假定所有关心的变量集合为Y,可观测变量集合为O,其他变量集合为R, 生成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O),给定一组 ...

  6. 《机器学习》 周志华学习笔记第八章 集成学习(课后习题)python实现

    1.个体与集成 1.1同质集成 1.2异质集成 2.boosting:代表AdaBoost算法 3.Bagging与随机森林 3.1Bagging 是并行式集成学习方法最著名的代表(基于自主采样法bo ...

  7. 《机器学习》 周志华学习笔记第五章 神经网络(课后习题) python实现

    1.神经元模型 2.感知机与多层网络 3.误差逆传播算法 (A)BP算法:最小化训练集D上的累积误差 标准BP算法:更新规则基于单个Ek推导而得 两种策略防止过拟合:(1)早停(通过验证集来判断,训练 ...

  8. 《机器学习》 周志华学习笔记第四章 决策树(课后习题)python 实现

    一.基本内容 1.基本流程 决策树的生成过程是一个递归过程,有三种情形会导致递归返回 (1)当前节点包含的yangben全属于同一类别,无需划分: (2)当前属性集为空,或是所有yangben在所有属 ...

  9. 《机器学习》 周志华学习笔记第七章 贝叶斯分类器(课后习题)python 实现

    课后习题答案 1.试用极大似然法估算西瓜集3.0中前3个属性的类条件概率. 好瓜有8个,坏瓜有9个 属性色泽,根蒂,敲声,因为是离散属性,根据公式(7.17) P(色泽=青绿|好瓜=是) = 3/8 ...

  10. 《机器学习》 周志华学习笔记第三章 线性模型(课后习题)python 实现

    线性模型 一.内容 1.基本形式 2.线性回归:均方误差是回归任务中最常用的性能度量 3.对数几率回归:对数几率函数(logistic function)对率函数是任意阶可导的凸函数,这是非常重要的性 ...

最新文章

  1. 30个实用的Python脚本(请收藏)
  2. 精读《Epitath 源码 - renderProps 新用法》
  3. EasyPR-Java开源中文车牌识别系统工程部署
  4. [蓝桥杯][2018年第九届真题]整理玩具(树状数组)
  5. mysql 4升级,MySQL_Sql_打怪升级_进阶篇_进阶4:常见函数
  6. 11.6 ConfigParser模块
  7. Django实战1-权限管理功能实现-10:用户管理
  8. Redis 那么快之底层 ziplist 的奥秘!
  9. Angular和Vue.js 深度对比
  10. PYTHON语言开发公司工资条通知短信
  11. 员工工号怎么编码_人事档案编码怎么编
  12. 计算理财产品收益的JS代码
  13. 互联网创业的五大定律
  14. 强化学习paper绘图技巧——改进smooth
  15. postman tests实例记录
  16. python数据挖掘(1.亲和性分析)
  17. 数据结构----栈和队列
  18. 初识:链路聚合的小知识
  19. perl环境配置以及Eclipse安装perl开发插件
  20. idea cannot download sources解决办法

热门文章

  1. 如何将wps中的表格转为图片,并设置较高的dpi
  2. web项目开发一般流程
  3. c语言polygon函数,C. Polygon for the Angle(几何)
  4. 2021年四川省大学生信息安全技术大赛部分WP (四川省赛WP)
  5. 习题4-5 换硬币 (20分) 将一笔零钱换成5分、2分和1分的硬币,要求每种硬币至少有一枚,有几种不同的换法?
  6. css -- 为什么:last-child 无效?
  7. Java例:查询自己的星座
  8. 经验转行产品经理|纯经验分享
  9. 免费开源CDN jsDelivr使用
  10. iOS—网络实用技术OC篇网络爬虫-使用java语言抓取网络数据