MOOC《深度学习基础》笔记(一)

chapter1

1.1类别标签的ground truth与gold standard

ground truth：可翻译为地面实况等。在机器学习领域一般用于表示真实值、标准答案等，表示通过直接观察收集到的真实结果。
gold standard：可翻译为金标准。医学上一般指诊断疾病公认的最可靠的方法。
在机器学习领域，更倾向于使用“ground truth” 。而如果用gold standard这个词，则表示其可以很好地代表ground truth。

1.2 验证集

验证集与测试集类似，也是用于评估模型的性能。区别是验证集主要用于模型选择和调整超参数，因而一般不用于报告最终结果。

超参数：在训练之前根据经验设置的参数，如层数、每层神经元个数、epoch大小、batch大小、学习率等。超参数设置的不同，训练好的参数也不同。

《人工智能实践：Tensorflow笔记2》中没有划分验证集，而是使用动态衰减的学习率

2.1 P-R曲线

二分类中，可分为正负两类，比较关注的那一类为正
目标为正，预测为负，事件个数为FN
目标为正，预测为正，事件个数为TP
目标为负，预测为正，事件个数为FP
目标为负，预测为负，事件个数为TN
预测为正，事件个数为P=TP+FN
预测为负，事件个数为N=FP+TN
第一个字母为True or False表示是否预测正确
第二个字母为Negative or Positive表示预测的类别

精确率=TP/(TP+FP)
召回率=TP/P=TP/(TP+FN)
训练过程中会多次用测试集进行测试，每次测试可得一个点(R,P)
训练完成后，将所有点(R1,P1) (R2,P2) ... (Rn,Pn) 绘制出曲线，即P-R曲线
是一条下降的曲线

多分类也可以绘制P-R曲线
几分类就画几条，画第i类的P-R曲线，就把剩余的类都归为负(第i类为正)
比如5分类，第j次测试可得5个点，
最后可以画出5条曲线

area是指曲线与坐标轴围成的面积

2.2 F值

F值是精确率与召回率的调和平均
F值可以画图表示

2.3 ROC曲线

横轴FP/N 纵轴TP/P

2.4 分类报告

P-R曲线的AUC(与坐标轴围成的面积 area under curve)越大，则说明正类分类准确
ROC曲线的AUC越大，则说明整体分类准确

P-R曲线、ROC曲线、F值都可写在分类报告中

百度查到support指测试集中各类别的样本数量

3.1 一致性

对于5部电影，两个rater给出评分
rater1=[0.5,1.6,2.5,2.5,2.4]
rater2=[1.5,2.6,3.5,3.5,3.4]
μ1 = 1.9
Var1 = 0.604
μ2 = 2.9
Var2 = 0.604

person相关系数
ρX,Y = ((-1.4)*(-0.4)+(-0.3)*(-0.3)+0.6*0.6*2+0.5*0.5)/5/0.604 = 0.53 两种评价呈正相关，即rater1觉得好看的电影，rater2也觉得好看，rater1觉得不好看，rater2也觉得不好看。

Cohen's Kappa相关系数
Fleiss' Kappa相关系数

chapter2

1.1 词法分析与句法分析

自动分词：将自然语言以词为单位输出
词根提取：自动分词，每个词以词根表示
词形还原：自动分词，每个词以原形表示
词性标注：自动分词，且每个词标注词性
句法分析：对句子中的语法进行分析

其实不光自然语言需要如此分析，计算机语言也需要进行词法分析与语法分析。

2.1 文档向量化表示

BOW词袋模型 https://blog.csdn.net/qq_37083038/article/details/107571505
VSM向量空间模型
文集/语料：一批文档的集合

文本1 "我喜欢读书，但是你不喜欢读书"
文本2 "我和你都不喜欢短视频"
文集{文本1 文本2}

这是我认为的表示形式

2.2 停用词

停用词：文本中要过滤掉的一些词

制作词云图时，也可设置停用词

2.3 N-gram模型

N-gram模型：一段文本或语音的连续N个序列
N-gram模型可用于文档向量化

2.4 文档间的距离

上文VSM表示的两个文本，d=(1-1)**2 + (2-1)**2 + (2-0)**2 + ... + (0-1)**2

2.5 文档间的余弦相似度

用来评估文档间的相似性

上文VSM表示的两个文本，cosθ = 5/sqrt(12)*sqrt(7) = 0.55 表明两文本还是比较相似的

2.6 Tf-idf词条权重计算

词条权重用于抑制区分文集中的文本时作用不大的词条

3.1 特征值的缩放

特征值的缩放也称无量纲处理
标准化法

区间缩放法
max与min为希望取值区间的端点

3.2 特征值的归一化

L1归一化

L2归一化

3.3 缺失特征值的弥补

常用同一特征的均值弥补

3.4 特征的二值化

设定阈值，超出则特征为1，负责为0

3.5 多项式特征

由于线性特征(x1,x2)训练的模型不够理想，通过多项式扩充特征(1,x1,x2,x1**2,x2**2,x1*x2)，用多项式特征来训练模型

3.6 特征选择与特征降维

特征选择：去掉了一些特征，实现了特征向量的降维

特征降维方法：线性判别分析法LDA，主成分分析PCA

特征选择与特征降维：虽然最后都实现了降维但还是不同的。

举例：
3个向量v1 v2 v3，对其进行特征选择与特征降维

通过特征选择方法分析，我觉得第一个特征没用，就去掉第一个特征
通过特征降维方法分析，我得到一个变换矩阵，将原特征变换为一个二维特征
可以看出虽然最后都是将原三维特征向量变成了新二维特征向量，但区别在于处理后的特征向量是在原空间内，还是转化到了新空间。通俗点说就是，一般情况下，特征降维的结果把原来特征向量的值都改变了。
当然也可能存在值与原来相同的情况

chapter3

1.1 回归与分类

回归与分类差不多，区别在于输出是连续还是离散的
我就举一维特征的例子

已知数据点(x1,y1) (x2,y2) (x3,y3) (x4,y4) (x5,y5),对其进行线性回归分析
依据已知数据点计算出y=kx+b的参数k与b
如果想要预测x6的输出为多少，即y6=k*x6+b
也有非线性回归分析，依据已知数据点计算出y=a*sin(x)+b的参数a与b

已知数据点x1 x2 x3 x4 x5可分为三类，即(x1,1) (x2,0) (x3,1) (x4,2) (x5,1)，对其进行线性回归分析，再将输出离散化
y = f(kx+b) 为分段函数
kx+b<val1时 y=0
val1<kx+b<val2时 y=1
kx+b>val2时 y=2
依据已知数据点计算出y=f(kx+b) 的参数k与b
如果想要预测x6的类别为多少，即f(k*x6+b)
也有非线性回归分析，依据已知数据点计算出y=f(a*sin(x)+b)的参数a与b

1.2 线性回归的参数求解

以二维特征举例

已知数据点(x11,x12,y1)，(x21,x22,y2)，(x31,x32,y3)
xij 第一个下标表示第几个数据点，第二个下标表示第几个特征
线性模型为 y = w1*x1 + w2*x2 + b
参数向量W 特征矩阵X 输出向量Y

能按上述方式计算，前提是X是方阵，以及X可逆
如果X不可逆，就消除不同特征间的相关性，然后再使用该方法

如果X不是方阵，
就使经验风险函数R(Y-X*W)取最小值，
这里损失函数L取为平方损失函数(取其它函数也可以)
结果就可写作向量2范数的形式
R(W)取最小值，即

当X为方阵的情形也可以归到该情形中
能按上述方式计算，前提是可逆

如果不可逆，就消除不同特征间的相关性，然后再使用该方法

以上的方法称为最小二乘法或矩阵解法

梯度下降法

直到，此时R(W)取到了极值

两种方法对比？
由于最小二乘法中用到了求逆 (求逆的方式也有很多)，虽然写的简单，就一步，但也不是一下能算出来的。
梯度下降法就是一种迭代方法，最优的W是慢慢迭代出来的。
不一定哪个计算快。

1.3 R方

用于评估回归模型对数据的拟合程度

R方越大拟合程度越高

1.4 线性回归、多项式回归、逻辑回归

以一维特征为例

线性回归 y = w*x + b
多项式回归 y = w1*x + w2*x**2 + b
逻辑回归 P = 1/(1+exp(-wx-b)) 或 P = 1/(1+exp(-w1*x - w2*x**2 - b)) 等
逻辑函数σ， P = σ(回归模型)，回归模型不止线性回归、多项式回归两种。
前两个用于回归分析，逻辑回归用于分类。
P = f(回归模型)，f也不止逻辑函数一种。

1.5 回归正则化

损失函数中加入正则化项
岭回归就是线性回归的损失函数中多加了一项L2正则项
所以有一些回归其实就是先前回归的改进

λ就是超参数，在训练之前就需要确定

chapter4

1.1 信息熵

https://blog.csdn.net/qq_37083038/article/details/107868509

2.1 感知机

Y = g(W*X + b) 满足该模型的就称为感知机
最开始的感知机g为阶跃函数 W*X + b>=0时 Y=1 W*X + b<0时 Y=0