本系列博客基于温州大学黄海广博士的机器学习课程的笔记,小伙伴们想更详细学习黄博士课程请移步到黄博士的Github、或者机器学习初学者公众号,现在在中国慕课也是可以学习的,内容包括机器学习、深度学习及Python编程,matplotlib、numpy、pandas、sklearn等,资料很详细,要系统学习请移步哦!笔者的博客只是笔记,内容不会十分详细,甚至会有些少错误!



1.机器学习简介

# 机器学习、人工智能、深度学习关系:
# a.人工智能:努力将通常由人类完成的智力任务自动化;
# b.机器学习:计算机利用已有的数据,得出某种模型,利用此模型预测未来的一种方法;
# c.深度学习:实现机器学习的一种技术;# 机器学习界名人:
# a.杨立昆--Yann LeCun;
# b.杰弗里·欣顿--Geoffrey Hinton;
# c.本吉奥--Bengio;
# d.吴恩达--Andrew Ng;# e.李航:代表作--《统计学习方法》;
# f.周志华:代表作--《机器学习》(西瓜书);# g.陈天奇:设计了XGBoost算法;
# h.何凯明:设计了ResNets;# 机器学习的范围:
# a.模式识别;
# b.计算机视觉;
# c.数据挖掘;
# d.语音识别;
# e.统计学习;
# f.自然语言处理;

2.机器学习发展史


3.机器学习类型

# 1.监督学习实例:# a.分类(Classification)
# a.1:身高170cm,体重80kg的男人肥胖吗?
# a.2:根据肿瘤的体积、患者的年龄判断肿瘤是良性还是恶性;# b.回归(Regression、Prediction)
# b.1:如何预测上海浦东的房价?
# b.2:预测未来股票市场的走向;# 2.无监督学习实例:# a.聚类(Clustering)
# a.1:如何将教室里的学生按爱好、身高划分为5类;# b.降维(Dimensionality Reduction)
# b.1:如何将高维度空间中的数据点映射到低维度空间中;# 3.强化学习实例
# a.强化学习(Reinforcement Learning)
# a.1:用于描述和解决智能体在与环境的交互过程中通过学习策略以达到最大化或实现特定目标的问题;

4.机器学习概念

4.1 机器学习—模型

4.2 机器学习—损失函数

  1. 0-1损失函数(0-1 Loss Function)
    L(Y,f(x))={1,Y≠f(X)0,Y=f(X)L(Y,f(x))=\left\{ \begin {array}{lr}1,Y≠f(X)\\0,Y=f(X) \end{array} \right.L(Y,f(x))={1,Y​=f(X)0,Y=f(X)​
  2. 平方损失函数(Quadratic Loss Function)
    L(Y,f(x))=(Y−f(X))2L(Y,f(x))=(Y-f(X))^2L(Y,f(x))=(Y−f(X))2
  3. 绝对损失函数(Absolute Loss Function)
    L(Y,f(x))=∣Y−f(X)∣L(Y,f(x))=|Y-f(X)|L(Y,f(x))=∣Y−f(X)∣
  4. 对数损失函数(Logarithmic Loss Function)
    L(Y,P(Y∣X))=−log⁡P(Y∣X)L(Y,P(Y|X))=-\log{P(Y|X)}L(Y,P(Y∣X))=−logP(Y∣X)

根据损失函数模型,损失函数值越小,模型性能越好;给定一个数据集,训练数据集的平均损失称为经验风险;基于经验风险最小化原则,构建全局损失函数求解最优化问题:min⁡f1N∑n=1NL(yn,f(xn))\min_f\frac{1}{N}\sum_{n=1}^NL(y_n,f(x_n))fmin​N1​n=1∑N​L(yn​,f(xn​))

当样本数量足够大时,根据大数定理,经验风险会近似于模型期望风险;此时,经验风险最小化能确保有好的学习性能;当样本数量不足时,只利用经验风险最小化可能导致"过拟合"问题;

在原有的基础上加上用于控制模型复杂度的正则项(Regularizer),得到结构最小化准则;定义如下:min⁡f1N∑n=1NL(yn,f(xn))+λJ(f)\min_f\frac{1}{N}\sum_{n=1}^NL(y_n,f(x_n))+\lambda{J(f)}fmin​N1​n=1∑N​L(yn​,f(xn​))+λJ(f)
其中:J(f):代表对模型复杂度的惩罚;模型越复杂,J(f)越大;模型越简单,J(f)越小;λ:一个正的常数,称为正则化系数,用于平衡经验风险和模型复杂度;Tips:结构风险小的模型需要经验风险和模型复杂度同时小,对训练数据和测试数据都能有较好的拟合;其中:\\J(f):代表对模型复杂度的惩罚;模型越复杂,J(f)越大;模型越简单,J(f)越小;\\\lambda:一个正的常数,称为正则化系数,用于平衡经验风险和模型复杂度;\\Tips:结构风险小的模型需要经验风险和模型复杂度同时小,对训练数据和测试数据都能有较好的拟合;其中:J(f):代表对模型复杂度的惩罚;模型越复杂,J(f)越大;模型越简单,J(f)越小;λ:一个正的常数,称为正则化系数,用于平衡经验风险和模型复杂度;Tips:结构风险小的模型需要经验风险和模型复杂度同时小,对训练数据和测试数据都能有较好的拟合;

4.3 机器学习—优化算法

# 1.算法:模型学习中的具体计算方法;
# 2.现有的优化方法:梯度下降法、牛顿法、拟牛顿法、ADAM等;

4.4 机器学习—模型评估

  1. 当损失函数给定时,将基于模型训练数据的误差(Training Error)和测试数据的误差(Testing Error)作为模型评估的标准;
  2. 测试误差的定义如下:Etest=1N′∑n=1N′L(yn,f^(xn))E_{test}=\frac{1}{N'}\sum_{n=1}^{N'}L(y_n,\hat{f}(x_n))Etest​=N′1​n=1∑N′​L(yn​,f^​(xn​))
    其中:N′:测试数据数量;L(yn,f^(xn)):损失函数;yn:真实标签;f^(xn):预测标签;Tips:模型学习效果好,则训练误差和测试误差接近一致;其中:\\N':测试数据数量;L(y_n,\hat{f}(x_n)):损失函数;\\y_n:真实标签;\hat{f}(x_n):预测标签;\\Tips:模型学习效果好,则训练误差和测试误差接近一致;其中:N′:测试数据数量;L(yn​,f^​(xn​)):损失函数;yn​:真实标签;f^​(xn​):预测标签;Tips:模型学习效果好,则训练误差和测试误差接近一致;

5.Python模块简介

# 1.Numpy模块:用Python实现的科学计算扩展程序库;
# a.强大的N维数组对象Array;
# b.比较成熟的函数库;
# c.用于整合C/C++和Fortran代码的工具包;
# d.使用的线性代数、傅里叶变换和随机数生成函数;# 2.Pandas模块:为了解决数据分析任务而创建的一种工具;
# a.纳入了大量库和一些标准数据模型,提供了高效地操作大型数据集的工具;
# b.提供了大量能快速便捷处理数据的函数和方法;# Pandas模块的文件读写:
# 从文件中读取数据(DataFrame)
# ① pd.read_csv():从csv文件读取;
# ② pd.read_table():从制表符分隔文件读取;
# ③ pd.read_excel():从Excel文件读取;
# ④ pd.read_sql():从SQL表或数据库读取;
# ⑤ pd.read_json():从JSON格式的URL或文件读取;
# ⑥ pd.read_clipboard():从剪切板读取;# 将DataFrame写入文件:
# ① df.to_csv():写入csv文件;
# ② df.to_excel():写入Excel文件;
# ③ df.to_sql():写入SQL表或数据库;
# ④ df.to_json():写入JSON格式的文件;
# ⑤ df.to_clipboard():写入剪切板;# 3.SciPy模块:一款方便、易于使用、专为科学和工程设计的Python工具包;
# SciPy模块包括:统计、优化、整合及线性代数模块、傅里叶变换、信号和图像图例,常微分方程的求解等;# 4.Matplotlib模块:一个Python的2D绘图库;

6.机器学习开发流程

# 机器学习一般步骤:
# a.数据搜集;
# b.数据清洗;
# c.特征工程;
# d.数据建模;

7.最后送上

机器学习入门1--初识机器学习相关推荐

  1. TensorFlow学习笔记(二):快速理解Tutorial第一个例子-MNIST机器学习入门 标签: 机器学习SoftmaxTensorFlow教程 2016-08-02 22:12 3729人阅

    TensorFlow学习笔记(二):快速理解Tutorial第一个例子-MNIST机器学习入门 标签: 机器学习SoftmaxTensorFlow教程 2016-08-02 22:12 3729人阅读 ...

  2. python泰坦尼克号数据预测_机器学习入门之Python机器学习:泰坦尼克号获救预测一...

    本文主要向大家介绍了机器学习入门之Python机器学习:泰坦尼克号获救预测一,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助. 一.项目概要 1.应用 模式识别.数据挖掘(核心).统计学 ...

  3. [机器学习入门] 李弘毅机器学习笔记-7 (Brief Introduction of Deep Learning;深度学习简介)

    [机器学习入门] 李弘毅机器学习笔记-7 (Brief Introduction of Deep Learning:深度学习简介) PDF VIDEO Ups and downs of Deep Le ...

  4. 机器学习入门系列(1)--机器学习概览(上)

    最近打算系统学习和整理机器学习方面的知识,会将之前看的 Andrew Ng 在 course 课程笔记以及最近看的书籍<hands-on-ml-with-sklearn-and-tf>结合 ...

  5. 机器学习入门 笔记(二) 机器学习基础概念

    第二章 机器学习基础概念 1.机器的数据 2.机器学习的主要任务 3.监督学习和非监督学习 4.批量.在线学习.参数.非参数学习 5.哲学思考 6.环境的搭建 1.机器的数据 我们以鸢尾花的数据为例. ...

  6. 机器学习入门系列(2)--机器学习概览(下)

    这是本系列的第二篇,也是机器学习概览的下半部分,主要内容如下所示: 文章目录 1. 机器学习的主要挑战 1.1 训练数据量不足 1.2 没有代表性的训练数据 1.3 低质量的数据 1.4 不相关的特征 ...

  7. 机器学习入门1-译文-机器学习是什么以及它的重要性(machine learning--what it is and why it matters)

    本文目录索引 1.前言 1.0侵删 1.0.1 20200920首发 1.0.2 良心翻译 1.1 此系列说明 1.2 聊点机器学习 1.2.1 机器学习的定义 1.2.2 知识发现.机器学习.人工智 ...

  8. 机器学习入门 - Google的机器学习速成课程

    1 - MLCC 通过机器学习,可以有效地解读数据的潜在含义,甚至可以改变思考问题的方式,使用统计信息而非逻辑推理来处理问题. Google的机器学习速成课程(MLCC,machine-learnin ...

  9. 每日一课 | 机器学习入门—如何学习机器学习

    Python大本营每日一课 大家好,我是营长,上期营长分享了"面向对象练习":,不清楚的小伙伴可戳这????每日一课 | 面向对象练习(硬核) 本期营长将为大家分享新的内容知识,& ...

最新文章

  1. 流程控制关键字——跳转结构
  2. Wireshark的https代理抓包(whistle中间人代理)
  3. 【Homework】银行存取款业务
  4. JNI的一个简单实例
  5. C++中的野指针问题
  6. 二分查找基础概念与经典题目(Leetcode题解-Python语言)二分索引型
  7. java跳_用Java实现跳表
  8. Sharding-JDBC水平分表(最终测试)_Sharding-Sphere,Sharding-JDBC分布式_分库分表工作笔记009
  9. Asp.Net中的正则表达式问题可以在此提问,今后大家一起研究!贴出基本语法参考...
  10. 服务器实体机与虚拟机,八种虚拟机与实机之间数据交互的方法|虚拟机与实体机之间的互连与数据交换方法...
  11. 各省份的车牌简称 备案地区的简称
  12. 利用Java寻找完美数
  13. vbs教程《变量类型》
  14. 2022年全球及中国MICC电缆行业运行战略规划与未来投资策略分析报告
  15. 使用Clonezilla进行P2V,备份还原完整过程
  16. FPGA分频电路实现(奇数,偶数,小数半分频,任意分频)
  17. 我们这里最近很流行用彩色的丝带编成手环
  18. 松下gh6参数 松下gh6评测
  19. 号外!号外!豪车出租啦!
  20. Karabiner配置

热门文章

  1. 概率数据分布的形状、中心和传播 Shape, Center, and Spread of a Distribution
  2. http://www.dewen.net.cn/q/16007/mysql查询如何先排序再分组呢
  3. android 8 zuk,ZUK Z2正式升级安卓8.0,老用户感动
  4. 用代理IP帮助网络推广
  5. 数学建模论文(国赛)写作建议
  6. 产品经理要了解的运营知识
  7. 计算机科技英语期末课程a,《信息科技英语翻译期末考试 A卷参考答案.doc
  8. vim 寄存器 操作_vim操作技巧
  9. PATA1138_偷鸡大法
  10. python利用微信的方法_用Python玩转微信