惭愧啊,读研的时候学得正是模式识别;当看着书本上都是公式推导、博士师兄们也都在公式推导研究新算法的时候,排斥心理到了顶点,从此弃疗。

工作三年,重新捡起,因为更关注实际操作,所以选择了《python 深度学习》这本书,辅助Andrew Ng视频+博客,希望能够从应用的角度去使用机器学习这门工具,不重蹈覆辙

不想老生常谈,别人讲得很好的,就直接引用了;之前已经了解的概念,也不赘述了; 只关注自己不懂的、以及记录学习过程,所以这会是一个很“草率”的系列...

一、 线性回归

          

二、logistic 回归与softmax 分类器:

logistic 回归是一个二分类器,softmax 分类器是一个多分类器,它们的激活函数描绘了事件的分布,也就是某事发生的概率(很重要!很重要!很重要!)

对于logistic回归,采用的sigmoid function;可以看到$g(z)$的取值在(0, 1),且大多数情况下趋于1或0,这不正好表示一个二分类问题嘛:某事发生的概率接近于1,或接近于0

softmax 分类器采用了softmax激活函数,假设输出层有$n$个节点,第$i$个节点的softmax 值为

$ S_i = \frac{e^{x_i} } {\sum_{j=1}^n e^{x_j} }$

每个值在[0,1]之间,且所有和为1,是不是多类别事件的概率呢?

损失函数:

损失函数的作用是什么? 描绘一组样本的真实值$y$与预测值$h$之间的差距

对于离散问题,怎么去描绘这个差距呢?这里用的是交叉熵(可参考)

1. 信息量

假设事件i发生的概率为$p(x_i)$, 则它包含的信息量为 $-ln(p(x_i))$

如下图所示,$p(x_i)$ 取值为[0, 1],当一件很小概率的事情发生了,给人直觉的冲击越大,它所包含的信息量越大

2. 熵

熵表示对一个问题信息量的期望

假设一个问题有n种可能性,每种可能发生的概率为$p(x_i)$, 则其熵为:

$H(x) = -\sum_{i=1}^n p(x_i)ln(p(x_i))$

3. KL离散度与交叉熵

KL离散度又称为相对熵,它用来衡量两个概率分布之间的差异,KL离散度越小,分布越接近。

假如样本真实属于P分布,机器学习预测为Q分布,那么它们之间的KL离散度为:

可以看到上式第一项 $-H(p(x))$ 是固定值,第二项就是交叉熵。当交叉熵越小,KL离散度越小,预测分布就越接近于真实分布

所以在logistic回归和softmax分类器中,均使用交叉熵来作为损失函数。对于二分类问题,n=2, 交叉熵又叫作二元交叉熵,其等价为:

$-(p(x_i)ln(q(x_i)) + (1-p(x_i))ln((1-q(x_i))))$

因此,logistic回归损失函数:

softmax分类器损失函数:

三、梯度下降算法

1.  梯度下降的直观理解

想象你在山上的某一点,要以最快的速度下山。 学习率相当于步长,偏导数相当于方向,偏导数越接近于0,越接近一个局部最小点。

初始位置选择不一样,到达的局部最优值也不同

梯度下降算法中权重的初始值可以采用统一初始值,但扩展到反向传播算法却需要随机初始化权重

2. 学习率对梯度下降收敛的影响

3. Normalization Input 有利于梯度下降算法的收敛

其实吧,在Andrew Ng的视频中,归一化、标准化的英文翻译都是Normalization...有时标准化也翻译成standardization,用于以Normalization区分

归一化:

1.Max-min归一化

$x_i = \frac{x_i-x_{min}}{x_{max}-x_{min}}$

2.Mean归一化

$x_i = \frac{x_i-x_\mu}{x_{max}-x_{min}}$

标准化:

1. Z-Score 标准化

$x_i = \frac{x_i-x_\mu}{\sigma}$

其中 $\mu$是样本数据的均值(mean),$\sigma$是样本数据的标准差(std)

什么时候用归一化,什么时候用标准化? sorry,网上的博客没看懂...

四、反向传播算法

可以参考这篇推导过程,关键是用到了链式法则;平常都是用封装好的API,也就略过这部分了

 反向传播算法中参数需要随机初始化

1. 一般取值在[-ε, +ε],ε 是一个任意给定的很小的数

什么给很小的数呢?这样$z=\theta^Tx$ 也会是一个在0附近很小的数;对于sigmoid, tanh 等激活函数,z在0附近曲线不那么平缓,收敛速度更快

2. 如果初始化采用统一初始值,隐藏层的输出是相等的,梯度下降更新后,连接相同出发点的权重值是一样的

继续梯度下降更新,连接相同出发点的权重值永远是一样的,隐藏层的表示也相等,从而网络变得冗余,拟合效果也不好

转载于:https://www.cnblogs.com/NicoleLiu/p/10610100.html

深度学习系列--1.入坑模型: 线性回归,logistic 回归,softmax分类器相关推荐

  1. 深度学习与计算机视觉(二)线性SVM与Softmax分类器

    2.线性SVM与Softmax分类器 2.1 得分函数(score function) 2.1.1 线性分类器 2.1.2 理解线性分类器 2.2 损失函数 2.2.1 多类别支持向量机损失(Mult ...

  2. 深度学习系列37:CLIP模型

    1 模型说明 含义:CLIP(Contrastive Language-Image Pre-training) git地址:https://github.com/openai/CLIP paper:h ...

  3. 深度学习系列笔记——贰 (基于Tensorflow Keras搭建的猫狗大战模型 一)

    猫狗大战是著名的竞赛网站kaggle几年前的一个比赛,参赛者得到猫狗各12500张图片,作为训练集,另外还会得到12500张猫和狗的图片,作为验证.最后提交结果至kaggle平台,获得评测分数. 本篇 ...

  4. 深度学习系列笔记——贰 (基于Tensorflow2 Keras搭建的猫狗大战模型 三)

    深度学习系列笔记--贰 (基于Tensorflow Keras搭建的猫狗大战模型 一) 深度学习系列笔记--贰 (基于Tensorflow Keras搭建的猫狗大战模型 二) 前面两篇博文已经介绍了如 ...

  5. 吴恩达.深度学习系列-C4卷积神经网络-W2深度卷积模型案例

    吴恩达.深度学习系列-C4卷积神经网络-W2深度卷积模型案例 (本笔记部分内容直接引用redstone的笔记http://redstonewill.com/1240/.原文整理的非常好,引入并添加我自 ...

  6. python系列文章(基础,应用,后端,运维,自动化测试,爬虫,数据分析,可视化,机器学习,深度学习系列内容)

    python基础教程 python基础系列教程--Python的安装与测试:python解释器.PyDev编辑器.pycharm编译器 python基础系列教程--Python库的安装与卸载 pyth ...

  7. 机器学习与深度学习系列连载(NTU-Machine Learning, cs229, cs231n, cs224n, cs294):欢迎进入机器学习的世界

    欢迎进入机器学习的世界 本教程是根据台湾大学李弘毅老师的课程机器学习课程,斯坦福大学CS229.CS231N.CS224N.CS20i.伦敦大学学院 ([UCL-Course])(http://www ...

  8. 深度学习系列:深度学习在腾讯的平台化和应用实践

    深度学习系列:深度学习在腾讯的平台化和应用实践(一) 莫扎特 2015-01-04 6:05:13 大数据技术 评论(0) 深度学习是近年机器学习领域的重大突破,有着广泛的应用前景.随着Google公 ...

  9. 【深度学习系列】——神经网络的可视化解释

    这是深度学习系列的第三篇文章,欢迎关注原创公众号 [计算机视觉联盟],第一时间阅读我的原创!回复 [西瓜书手推笔记] 还可获取我的机器学习纯手推笔记! 深度学习系列 [深度学习系列]--深度学习简介 ...

最新文章

  1. python22期_python学习第22期
  2. 自然语言处理中句子相似度计算的几种方法
  3. 三台主机分别部署LAMP
  4. 常见开源分布式存储系统
  5. [Unity脚本运行时更新]C#5新特性
  6. apache 配置 wss websocket打开握手超时_「Web应用架构」WebSocket介绍和WebSocket API
  7. Java Greedy Snake, need to be updated
  8. svg转换pdf用php实现,如何使用javascript在JSPDF中将SVG文件转换为PDF
  9. 处理机调度之时间片轮转调度算法实现
  10. SpringBoot-SSMP超详细整合案例
  11. Win10将用户名修改为英文
  12. ubuntu批量压缩文件夹
  13. Unity3d与iOS交互开发—接入平台SDK必备技能
  14. mysql返回empty_mysql在文件刪除時返回空集
  15. java基于ssm+vue的乒乓球室收费系统
  16. 关闭/删除“设备和驱动器”里的图标(如迅雷下载、WPS网盘)
  17. java web开发实训心得,【JavaWeb实训心得体会材料】
  18. CP-ABE,KP-ABE
  19. EVA新世纪福音战士剧场版:终 阿里云盘、百度网盘资源
  20. 南昌大学 计算机面试题,南昌大学计算机应用技术专业调剂生复试经验

热门文章

  1. mfc 学习的第二天
  2. 三维点云学习(4)4-Hough Transform
  3. 虚拟服务器配置推荐,如何选择虚拟主机配置
  4. 论文笔记--基于 FCM 聚类的跨模态人物图像标注方法-2015
  5. java lambda 变量_java – 从lambda表达式引用的局部变量必须...
  6. 2022-03-13 转载 Dockerfile 高阶使用指南及镜像优化
  7. GDAL创建图像提示Driver xxx does not support XXX creation option的原因
  8. 挂载本地目录到Virtualbox并解决[mounting failed with the error: Protocol error]错误
  9. Lua注册C++类及函数
  10. 网游Server端开发基础