MOOC《深度学习基础》笔记(一)
chapter1
1.1类别标签的ground truth与gold standard
ground truth:可翻译为地面实况等。在机器学习领域一般用于表示真实值、标准答案等,表示通过直接观察收集到的真实结果。
gold standard:可翻译为金标准。医学上一般指诊断疾病公认的最可靠的方法。
在机器学习领域,更倾向于使用“ground truth” 。而如果用gold standard这个词,则表示其可以很好地代表ground truth。
1.2 验证集
验证集与测试集类似,也是用于评估模型的性能。区别是验证集主要用于模型选择和调整超参数,因而一般不用于报告最终结果。
超参数:在训练之前根据经验设置的参数,如层数、每层神经元个数、epoch大小、batch大小、学习率等。超参数设置的不同,训练好的参数也不同。
《人工智能实践:Tensorflow笔记2》中没有划分验证集,而是使用动态衰减的学习率
2.1 P-R曲线
二分类中,可分为正 负两类,比较关注的那一类为正
目标为正,预测为负,事件个数为FN
目标为正,预测为正,事件个数为TP
目标为负,预测为正,事件个数为FP
目标为负,预测为负,事件个数为TN
预测为正,事件个数为P=TP+FN
预测为负,事件个数为N=FP+TN
第一个字母为True or False表示是否预测正确
第二个字母为Negative or Positive表示预测的类别
精确率=TP/(TP+FP)
召回率=TP/P=TP/(TP+FN)
训练过程中会多次用测试集进行测试,每次测试可得一个点(R,P)
训练完成后,将所有点(R1,P1) (R2,P2) ... (Rn,Pn) 绘制出曲线,即P-R曲线
是一条下降的曲线
多分类也可以绘制P-R曲线
几分类就画几条,画第i类的P-R曲线,就把剩余的类都归为负(第i类为正)
比如5分类,第j次测试可得5个点,
最后可以画出5条曲线
area是指曲线与坐标轴围成的面积
2.2 F值
F值是精确率与召回率的调和平均
F值可以画图表示
2.3 ROC曲线
横轴FP/N 纵轴TP/P
2.4 分类报告
P-R曲线的AUC(与坐标轴围成的面积 area under curve)越大,则说明正类分类准确
ROC曲线的AUC越大,则说明整体分类准确
P-R曲线、ROC曲线、F值都可写在分类报告中
百度查到support指测试集中各类别的样本数量
3.1 一致性
对于5部电影,两个rater给出评分
rater1=[0.5,1.6,2.5,2.5,2.4]
rater2=[1.5,2.6,3.5,3.5,3.4]
μ1 = 1.9
Var1 = 0.604
μ2 = 2.9
Var2 = 0.604
person相关系数
ρX,Y = ((-1.4)*(-0.4)+(-0.3)*(-0.3)+0.6*0.6*2+0.5*0.5)/5/0.604 = 0.53 两种评价呈正相关,即rater1觉得好看的电影,rater2也觉得好看,rater1觉得不好看,rater2也觉得不好看。
Cohen's Kappa相关系数
Fleiss' Kappa相关系数
chapter2
1.1 词法分析与句法分析
自动分词:将自然语言以词为单位输出
词根提取:自动分词,每个词以词根表示
词形还原:自动分词,每个词以原形表示
词性标注:自动分词,且每个词标注词性
句法分析:对句子中的语法进行分析
其实不光自然语言需要如此分析,计算机语言也需要进行词法分析与语法分析。
2.1 文档向量化表示
BOW词袋模型 https://blog.csdn.net/qq_37083038/article/details/107571505
VSM向量空间模型
文集/语料:一批文档的集合
文本1 "我喜欢读书,但是你不喜欢读书"
文本2 "我和你都不喜欢短视频"
文集{文本1 文本2}
这是我认为的表示形式
2.2 停用词
停用词:文本中要过滤掉的一些词
制作词云图时,也可设置停用词
2.3 N-gram模型
N-gram模型:一段文本或语音的连续N个序列
N-gram模型可用于文档向量化
2.4 文档间的距离
上文VSM表示的两个文本,d=(1-1)**2 + (2-1)**2 + (2-0)**2 + ... + (0-1)**2
2.5 文档间的余弦相似度
用来评估文档间的相似性
上文VSM表示的两个文本,cosθ = 5/sqrt(12)*sqrt(7) = 0.55 表明两文本还是比较相似的
2.6 Tf-idf词条权重计算
词条权重用于抑制 区分文集中的文本时作用不大的词条
3.1 特征值的缩放
特征值的缩放也称无量纲处理
标准化法
区间缩放法
max与min为希望取值区间的端点
3.2 特征值的归一化
L1归一化
L2归一化
3.3 缺失特征值的弥补
常用同一特征的均值弥补
3.4 特征的二值化
设定阈值,超出则特征为1,负责为0
3.5 多项式特征
由于线性特征(x1,x2)训练的模型不够理想,通过多项式扩充特征(1,x1,x2,x1**2,x2**2,x1*x2),用多项式特征来训练模型
3.6 特征选择与特征降维
特征选择:去掉了一些特征,实现了特征向量的降维
特征降维方法:线性判别分析法LDA,主成分分析PCA
特征选择与特征降维:虽然最后都实现了降维但还是不同的。
举例:
3个向量v1 v2 v3,对其进行特征选择与特征降维
通过特征选择方法分析,我觉得第一个特征没用,就去掉第一个特征
通过特征降维方法分析,我得到一个变换矩阵,将原特征变换为一个二维特征
可以看出虽然最后都是将原三维特征向量变成了新二维特征向量,但区别在于处理后的特征向量是在原空间内,还是转化到了新空间。通俗点说就是,一般情况下,特征降维的结果把原来特征向量的值都改变了。
当然也可能存在值与原来相同的情况
chapter3
1.1 回归与分类
回归与分类差不多,区别在于输出是连续还是离散的
我就举一维特征的例子
已知数据点(x1,y1) (x2,y2) (x3,y3) (x4,y4) (x5,y5),对其进行线性回归分析
依据已知数据点 计算出y=kx+b的参数k与b
如果想要预测x6的输出为多少,即y6=k*x6+b
也有非线性回归分析,依据已知数据点 计算出y=a*sin(x)+b的参数a与b
已知数据点x1 x2 x3 x4 x5可分为三类,即(x1,1) (x2,0) (x3,1) (x4,2) (x5,1),对其进行线性回归分析,再将输出离散化
y = f(kx+b) 为分段函数
kx+b<val1时 y=0
val1<kx+b<val2时 y=1
kx+b>val2时 y=2
依据已知数据点 计算出y=f(kx+b) 的参数k与b
如果想要预测x6的类别为多少,即f(k*x6+b)
也有非线性回归分析,依据已知数据点 计算出y=f(a*sin(x)+b)的参数a与b
1.2 线性回归的参数求解
以二维特征举例
已知数据点(x11,x12,y1),(x21,x22,y2),(x31,x32,y3)
xij 第一个下标表示第几个数据点,第二个下标表示第几个特征
线性模型为 y = w1*x1 + w2*x2 + b
参数向量W 特征矩阵X 输出向量Y
能按上述方式计算,前提是X是方阵,以及X可逆
如果X不可逆,就消除不同特征间的相关性,然后再使用该方法
如果X不是方阵,
就使经验风险函数R(Y-X*W)取最小值,
这里损失函数L取为平方损失函数(取其它函数也可以)
结果就可写作向量2范数的形式
R(W)取最小值,即
当X为方阵的情形也可以归到该情形中
能按上述方式计算,前提是可逆
如果不可逆,就消除不同特征间的相关性,然后再使用该方法
以上的方法称为最小二乘法或矩阵解法
梯度下降法
直到,此时R(W)取到了极值
两种方法对比?
由于最小二乘法中用到了求逆 (求逆的方式也有很多),虽然写的简单,就一步,但也不是一下能算出来的。
梯度下降法就是一种迭代方法,最优的W是慢慢迭代出来的。
不一定哪个计算快。
1.3 R方
用于评估回归模型对数据的拟合程度
R方越大拟合程度越高
1.4 线性回归、多项式回归、逻辑回归
以一维特征为例
线性回归 y = w*x + b
多项式回归 y = w1*x + w2*x**2 + b
逻辑回归 P = 1/(1+exp(-wx-b)) 或 P = 1/(1+exp(-w1*x - w2*x**2 - b)) 等
逻辑函数σ, P = σ(回归模型),回归模型不止线性回归、多项式回归两种。
前两个用于回归分析,逻辑回归用于分类。
P = f(回归模型),f也不止逻辑函数一种。
1.5 回归正则化
损失函数中加入正则化项
岭回归就是线性回归的损失函数中多加了一项L2正则项
所以有一些回归其实就是先前回归的改进
λ就是超参数,在训练之前就需要确定
chapter4
1.1 信息熵
https://blog.csdn.net/qq_37083038/article/details/107868509
2.1 感知机
Y = g(W*X + b) 满足该模型的就称为感知机
最开始的感知机g为阶跃函数 W*X + b>=0时 Y=1 W*X + b<0时 Y=0
MOOC《深度学习基础》笔记(一)相关推荐
- 深度学习基础笔记——前向传播与反向传播
相关申明及相关参考: 体系学习地址 主要学习笔记地址 由于是文章阅读整合,依据个人情况标注排版, 不确定算不算转载,主要学习围绕AI浩的五万字总结,深度学习基础 如有侵权,请联系删除. 1前向传播与反 ...
- 深度学习基础笔记——激活函数
相关申明及相关参考: 体系学习地址 主要学习笔记地址 激活函数,你真的懂了吗? - 知乎 (zhihu.com) 聊一聊深度学习的activation function - 知乎 (zhihu.com ...
- 深度学习基础笔记(MLP+CNN+RNN+Transformer等等)
提示:本人还在学习当中,所作笔记仅供大家参考,若有问题欢迎大家指出! 目录 专业词汇 基础神经网络 感知机 多层感知机MLP 卷积神经网络CNN 激活函数 正则化 最优化方法 生成模型GAN 自然语言 ...
- matlab中的pred,Matlab深度学习基础笔记-2
笔记来源于matlab官网,不足之处还请提出.. 1.4检查预测 Prediction scores 使用classify可以获得所有类别的预测值,存储在数组scrs中: [pred scrs] = ...
- 深度学习word2vec笔记之基础篇
深度学习word2vec笔记之基础篇 声明: 1)该博文是多位博主以及多位文档资料的主人所无私奉献的论文资料整理的.具体引用的资料请看参考文献.具体的版本声明也参考原文献 2)本文仅供学术交流,非商用 ...
- 深度学习入门笔记(二):神经网络基础
欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...
- 深度学习入门笔记(五):神经网络的编程基础
欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...
- 深度学习入门笔记(一):机器学习基础
专栏--深度学习入门笔记 推荐文章 深度学习入门笔记(一):机器学习基础 深度学习入门笔记(二):神经网络基础 深度学习入门笔记(三):感知机 深度学习入门笔记(四):神经网络 深度学习入门笔记(五) ...
- 2.7mnist手写数字识别之训练调试与优化精讲(百度架构师手把手带你零基础实践深度学习原版笔记系列)
2.7mnist手写数字识别之训练调试与优化精讲(百度架构师手把手带你零基础实践深度学习原版笔记系列) 目录 2.7mnist手写数字识别之训练调试与优化精讲(百度架构师手把手带你零基础实践深度学习原 ...
- 3.1 计算机视觉的发展和卷积神经网络概要(百度架构师手把手带你零基础实践深度学习原版笔记系列)
3.1 计算机视觉的发展和卷积神经网络(百度架构师手把手带你零基础实践深度学习原版笔记系列) 概要 计算机视觉作为一门让机器学会如何去"看"的科学学科,具体的说,就是让机器去识别摄 ...
最新文章
- iOS正则表达式验证
- 静态反调试技术(2)
- PMCAFF | 别学东学西了,先建立自己的知识体系吧
- svchost.exe介绍
- 计算机控制课程设计体会,计算机控制技术课程设计报告
- 闲鱼直播三周内实现点击率翻倍,我们是这么做到的...
- Django View和URL
- php修改音频文件_php获取mp3文件信息时长修改
- Mybatis 原始Dao层开发
- Visual Studio 2019 RC入门——第2部分
- JACK——PaintRobot Exercise6
- java sasl例子_Java Subject.doAs方法代碼示例
- 有没有开以修改服务器游戏数据,剑网3指尖江湖第二批服务器数据互通啦 来看看有没有你所在的大区...
- 异步通信之IOCP详解
- Excel - 斜线表头制作
- 正则表达式 学习笔记
- 控制chrome中PDF预览工具栏
- [源码和文档分享]基于C++的餐厅管理程序的设计与实现
- 小米智能家居接入智能家居平台homeassistant的方法
- SQLServer的链接服务器