目录

6-1 分类

6-2 假设陈述

6-3 决策界限

6-4 代价函数

6-5 简化代价函数与梯度下降

6-6 高级优化

6-7 多元分类


6-1 分类

主要考虑离散系统,如分类问题:

例1:垃圾邮件分类

例2:欺诈网站判断

例3:肿瘤良/恶性分类

设y∈{0,1} (其中0表示正面分类,1表示负面分类)

例:肿瘤分类问题,1表示恶性,0表示良性

用直线h_Θ(x)=Θ^T*x对数据进行拟合

设置阈值为0.5,若h_Θ(x)≥0.5,预测y=1;若h_Θ(x)≤0.5,预测y=0。

但若延长横轴,并在训练集内增加一个位于横轴较右端的元素,此时阈值仍设0.5,得到的拟合曲线如图

此时得到的结果并不理想,因为拟合直线左边的恶性肿瘤被认为是良性的。因此,线性回归并不适用于分类问题,因此使用logistic回归。

6-2 假设陈述

我们需要0≤h_Θ(x)≤1,即使用logistic回归模型

logistic回归:h_Θ(x)=g(Θ^T*x)

z=Θ^T*x

g(Z)=1/(1+e^-z)  (logistic函数)

logistic函数图像

可以使用概率论描述可能得到的结果:

hθ(x)=P(y=1|x;θ)=1−P(y=0|x;θ)

P(y=0|x;θ)+P(y=1|x;θ)=1

6-3 决策界限

若:

hθ(x)≥0.5→y=1

hθ(x)<0.5→y=0

由图像及函数可得:当z≥0时,g(z)≥0.5。因此只需满足Θ^T*x≥0,就求得hθ(x)≥0.5

1.线性决策边界

设Θ=[-3;1;1],当-3+x1+x2≥0时,y=1。

-3+x1+x2≥0曲线将左图上分为两部分,该曲线称为决策边界

2.非线性决策边界

θ=[-1;0;0;1;1],当-1+(x_1)^2+(x_2)^2≥0时,y=1

决策边界如上图所示

6-4 代价函数

下面讨论监督学习中的分类问题:

如何选择Θ?

代价函数:

但如果应用这个代价函数,生成的目标函数图像为非凸曲线,该曲线上有很多局部最优点,因此无法使梯度下降法很好的工作。

非凸曲线

因此使用logistic回归代价函数:

 Cost(hθ(x),y)=−log(hθ(x)))       if y = 1

Cost(hθ(x),y)=−log(1−hθ(x))     if y = 0

得到图如下:

性质:

Cost(hθ(x),y)=0      if hθ(x)=y

Cost(hθ(x),y)→∞    if y=0andhθ(x)→1

Cost(hθ(x),y)→∞    if y=1andhθ(x)→0

6-5 简化代价函数与梯度下降

将上一节的logistic代价函数简化

Cost(hθ​(x),y)=−ylog(hθ​(x))−(1−y)log(1−hθ​(x))

代价函数如下:

使用梯度下降法,最小化代价函数J(θ)

6-6 高级优化

在计算代价函数及其偏导数后可以选用梯度下降法计算θ,但梯度下降法并非唯一的算法,一些高级优化算法包括:共轭梯度法、BFGS(拟牛顿法 )、L-BFGS。这些高级优化算法不需要手动寻找学习率且通常快于梯度下降法。

举例:

利用高级优化算法

function [jVal,gradient]=costFunction(theta) %jVal代价函数,gradient梯度变量
jVal=(theta(1)-5)^2+(theta(2)-5)^2;
gradient=zeros(2,1);
gradient(1)=2*(theta(1)-5);
gradient(2)=2*(theta(2)-5);
>> options=optimset('GradObj','on','MaxIter',100);  % 设置梯度目标打开,设置迭代次数
>> initialTheta=zeros(2,1)                    % θ猜测值
>> [optTheta,functionVal,exitFlag]=fminunc(@costFunction,initialTheta,options)optTheta =55
functionVal =0
exitFlag =            %收敛标志1

在使用时,initialTheta值必须是d维的(d≥2)

将其应用于logistic回归中:

6-7 多元分类

当我们需要将一组数据按照不特征进行分类,即多元分类。例如下图所示的数据集;

我们可以将这一问题转化为二元分类问题,即首先将“三角形”作为独立的一类,剩下所有数据作为一类,进行分类。如图所示:

 

可以得到三个拟合曲线,最后我们输入一个新的x,选择分类器最大的那个输出即是y 

机器学习Class 6:分类及描述相关推荐

  1. 基于统计概率和机器学习的文本分类技术

    基于统计概率和机器学习的文本分类技术 -- 社区产品机器审核机制 一.现状 目前,所在公司社区类产品(论坛.博客.百科)每天都会接收到大量的垃圾.灌水信息,高峰期16小时内(晚6点以后到第二天9点前) ...

  2. Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读

    Paper:<Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类>翻译与解读 目录 <Multimoda ...

  3. 基于Keras机器学习库的分类预测

    在前面的博文中,我们分享了<基于scikit-learn机器学习库的分类预测>,本文将分享Keras机器学习库的分类预测. 一旦你在Keras中选择好机器学习模型,就可以用它来预测新的数据 ...

  4. 基于统计概率和机器学习的文本分类技术 —— 社区产品机器审核机制预研报告...

    [align=center][size=x-large]基于统计概率和机器学习的文本分类技术[/size][/align] [size=large][align=center]-- 社区产品机器审核机 ...

  5. 自然语言处理入门实战1:基于机器学习的文本分类

    基于机器学习的文本分类 配置文件 数据集 数据预处理 model 模型 主函数 预测 结果 参考代码 本文参考复旦大学自然语言处理入门练习,主要是实现用tensorflow实现基于logistic/s ...

  6. 14种机器学习常见算法分类汇总

    14种机器学习常见算法分类汇总 2015-09-25 待字闺中 待字闺中 待字闺中 微信号 daiziguizhongren 功能介绍 深度分析大数据.深度学习.人工智能等技术,切中实际应用场景,为大 ...

  7. 基于机器学习的文本分类!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:李露,西北工业大学,Datawhale优秀学习者 据不完全统计,网 ...

  8. Task03——零基础入门NLP - 基于机器学习的文本分类

    学习目标 学会TF-IDF使用原理 使用sklearn的机器学习模型完成文本分类 文本表示方法 one-hot bag of words N-grams TF-IDF 基于机器学习的文本分类代码

  9. 机器学习:多分类的logistic回归

    机器学习:多分类的logistic回归 Multi-Class Logistic(多分类的Logistic问题) 它适用于那些类别数大于2的分类问题,并且在分类结果中,样本x不是一定只属于某一个类可以 ...

  10. ML之分类预测:机器学习中多分类预测数据集可视化(不同类别赋予不同颜色)设计思路及代码实现

    ML之分类预测:机器学习中多分类预测数据集可视化(不同类别赋予不同颜色)设计思路及代码实现 目录 机器学习中多分类预测数据集可视化(不同类别赋予不同颜色)设计思路及代码实现 代码实现

最新文章

  1. java struts2值栈ognl_Struts2 (三) — OGNL与值栈
  2. centos7中输入ifconfig出现ens33,没有eth0
  3. sqlserver中的数据类型[转]
  4. 【论文学习】ICLR2021,鲁棒早期学习法:抑制记忆噪声标签ROBUST EARLY-LEARNING: HINDERING THE MEMORIZATION OF NOISY LABELS
  5. c语言链表萌新,萌新一枚,关于链表问题求大佬解答
  6. vue.js中的v-model指令的深刻理解
  7. Android开发之RecyclerView之刷新数据notifyDataSetChanged失败的问题
  8. Kali渗透(二)之被动信息收集
  9. 【mmall】IDEA自动Make
  10. Android使用软引用和弱引用
  11. 电信网络拓扑图自动布局
  12. Atitit websocket 使用大概总结 使用场景 websocket 实时信息的Web应用却带来了很大的不便,如带有即时通信、实时数据、订阅推送等功能的应 用 实时数据可以用来更新缓存
  13. [gic]-gicv2的bypass功能
  14. 解决华硕FX80G* Fn+F5或其他功能键切换不显示问题
  15. 黑苹果以太网网卡已安装 无法上网
  16. 升级这十点认知,你就是大佬!
  17. 前端CSS学习(第3、4天)
  18. html实现动态花瓣凋落
  19. Mac下chromedriver下载及安装详解
  20. 2021五一建模疫苗生产消防救援数据驱动的异常检测与预警分析

热门文章

  1. 假如现在你有30分钟,你会做什么?
  2. IOS 音乐播放器 (附源码)
  3. 蓝桥杯练习题 <座次问题> 排列型枚举 next_permutation
  4. C#获取电脑MAC地址(物理地址)的几种方法
  5. 无线连接网络找不到计算机组,无线网络连接不见了的4个解决方法!电脑无线网络连接找不到如何解决?...
  6. office中导入mathtype出现MathPage.wll未找到错误
  7. Phaser2.0 tween动画
  8. N多计算机精品免费视频下载,不要别后悔啊
  9. 关于grpc 的keepalive 的一些知识
  10. Heidisql中如何解决MySqlServer go away问题