转载原自：

7【子豪兄】机器学习基础_哔哩哔哩_bilibili

机器学习任务：

鸢尾花数据集：

评估分类模型：

分类模型（监督学习）

训练集/测试集

二分类问题（Binary classification）

结论：

谷歌可视化降维：

机器学习任务：

classification（分类）（有监督）：KNN，SVM，决策树，朴素贝叶斯，逻辑回归，深度神经网络

regression（回归）（有监督）：SGD，Lasso，SVR

clustering（聚类）（无监督）：KMeans，MiniBatch

dimensionality reduction（降维）（无监督）

Reinforcement（强化学习）：给予机器奖惩制度

鸢尾花数据集：

1.使用决策树进行分类，决策树也就是在每一步都做出决策，往左走还是往右走。

2.聚类：将同一类型的数据放到一起

评估分类模型：

分类模型（监督学习）

标签是离散值为分类问题（如猫狗图像分类/手写数字识别）
标签是连续值是回归问题（如股价/房价/用电量预测）

训练集/测试集

将特征和标签输入到分类模型，模型根据每个数据的特征，猜测每个数据的标签，模型自我更新，使猜测的标签和真实标签的差别最小化
常用的分类模型：决策树，朴素贝叶斯，支持向量机，KNN，神经网络，逻辑回归，线性判别分析，随机森林，隐马尔可夫，贝叶斯网络

二分类问题（Binary classification）

标签只有两类：是或者不是

二分类混淆矩阵
真实/预测	预测为肺炎	预测为健康
肺炎	True Positive √	False Negative X
健康	False Positive X	True Negaive √

假如TP = 45,FN = 5, FP = 15, TN = 35

TP + FN :真实肺炎数据个数总和

FP + TN:真实健康数据个数总和

TP + TN：所有分类正确数据个数总和

那么Precision（查准率） = 45/（45+15） = 0.75 （TP / (TP + FP)）就是被判定生病的有多少是真的生病

Recall（召回率）= 45 / （45 + 5）= 0.9 （TP / (TP + FN)）就是生病的有多少被预测出来

查准率和召回率是相爱相杀的，所以需要一个函数来调和两者，因此F1-Score出来了

F1-Score = 2 * 1/（1/Pression + 1/Recall）

FI-Score (调和平均)= 2 x 0.75 x 0.9 / (0.75 + 0.9) =0.82

Accurary (准确率)= (45 + 35) / 100 = 0.8 （正确分类的个数/总数）

Specificity（特异性） = 35 / (15 + 35) = 0.7

有了这些可以绘制ROC（受试者工作特性曲线）曲线

ROC曲线是由TPR和FPR构成的，完美曲线是左上三角曲线，曲线越接近左上角，分的越好，数据分开的越开，分类效果越好。

结论：

对数损失不适用于样本不均衡时的分类评估指标
ROC-AUC可作为样本正负不均衡时的分类评估指标
如果我们想让少数情况被正确猜测，就用ROC-AUC作为评估指标
F1-Score和PR曲线在正样本极少时适用于作为分类评估指标
F1-Score和PR曲线在FP比FN更重要时，适用于作为分类评估指标

谷歌可视化降维：

Embedding projector - visualization of high-dimensional data (tensorflow.org)

这个网站谷歌将经典数据集可视化到网站上，可以降维调节参数看到数据的聚簇。

子豪兄还玩转MNIST数据集，其中有降维实现可视化聚类方法。链接：

Pytorch多层感知机分类MNIST数据集_哔哩哔哩_bilibili

机器学习基础-引用同济子豪兄版相关推荐

沐神点赞！同济子豪兄精读AI经典论文，包括图像分类、目标检测、生成对抗网络、轻量化卷积神经网络等领域...
读研/读博的你,是不是符合: 毕设/研一/博一科研小白刚进课题组,不知道如何写开题报告和综述? 前沿顶会.期刊论文.综述文献浩如烟海,不知道学习路径,无从下手? 导师放养,既不懂也不管,师兄各忙各的, ...
同济子豪兄github_【B站UP主-同济子豪兄】华为云ModelArts零代码开发病虫害识别应用...
大家好,我是B站UP主同济子豪兄,我希望让人工智能和大数据赋能每一个行业,每一个人. 今天给大家带来的是使用ModelArts快速开发农作物病虫害识别微信小程序,用人工智能的力量赋能农业,助力乡村振兴 ...
【Python学习笔记】b站@同济子豪兄用pytorch搭建全连接神经网络，对Fashion-MNIST数据集中的时尚物品进行分类
[Python学习笔记]原作b站@同济子豪兄用pytorch搭建全连接神经网络,对Fashion-MNIST数据集中的时尚物品进行分类跟着b站@同济子豪兄的视频自学写的代码,内容是用pytorch ...
来自同济子豪兄的无私分享-关于YOLOv1模型的学习（一）
https://www.bilibili.com/video/BV15w411Z7LG?p=4https://www.bilibili.com/video/BV15w411Z7LG?p=4https ...
感谢同济子豪兄的分享-关于RCNN论文的学习（二）
https://www.bilibili.com/video/BV1d64y1W74E?p=4https://www.bilibili.com/video/BV1d64y1W74E?p=4https: ...
同济子豪兄-机器学习基础
监督学习(有标签) 分类问题回归问题无监督学习(无标签) 聚类问题降维问题(把高维的数据降维到二维三维使人便于理解) 学习中断,暂时不是很需要这些知识.以后用到再去学习.
【目标检测·yolo系列】YOLOV3目标检测论文笔记（参考同济子豪兄的解读）
目录骨干网络 Darknet53 后面的论文算法架构都是在yolov3基础上更新来的骨干网络 Darknet53 由于主要网络中是全卷积层,所以是可以输入任意大小的图片(得是×32)
知识蒸馏论文学习（同济子豪兄）
一. 部署工具: MMDeploy 二. 模型压缩方法: 知识蒸馏,权值量化,剪枝(权重剪枝,通道剪枝),注意力迁移三. 硬件部署: rensorRT,rensorflow-slim,tensorf ...
【目标检测·yolo系列】YOLOV1目标检测论文（参考同济子豪兄的解读）笔记
YOLO V1 目标检测 object detection YOLOV1 预测阶段前向推断用图展示过程预测阶段后处理 NMS Non-Maximum Suppression 非极大值抑制训练 ...

机器学习基础-引用同济子豪兄版

机器学习任务：

鸢尾花数据集：

评估分类模型：

分类模型（监督学习）

训练集/测试集

二分类问题（Binary classification）

结论：

谷歌可视化降维：

Embedding projector - visualization of high-dimensional data (tensorflow.org)

机器学习基础-引用同济子豪兄版相关推荐

最新文章

热门文章