基于支持向量机的文本分类算法研究(三)—— 核函数文本分类性能评价指标(stitp项目)
3 核函数评价指标
核函数评价指标,即准确率(P)、召回率®和 F1 值,通过这几个数值,可以直观的反映核函数的性能,也使得支持向量机核函数评价科学化、准确化。本次实验函数从特征值 1000循环五十次得出运行文件,得到每个核函数准确率(P)、召回率®和 F1 值后在取得均值。
3.1 R值:查全率(Recall rate)
查全率(Recall rate),又称召回率,是指从数据库中检测到的相关信息数量与总量的比率。召回率的绝对值难以计算,只能根据数据库的内容和数量进行估计。召回率是评价某个搜索系统从文献搜集中找出关联文档成功率的指标,即关联文献与全部文献的比值。一般表示成:查全率=(搜索获得的关联数据量/系统当中的关联数据总量)*100%。表达式(3-1)是查全率计算式:
3.2 P值:查准率(Precision)
查准率(Precision)(精确度)是评价某个搜索系统的信噪比的一类指标,即检索获得的关联文档和检索获得的所有文档的比值。一般表示成:查准率=(搜索获得的关联信息量/搜索获得的信息总量)*100%。
查准率和查全率二者是相互作用的,理想状况下是二者数值都比较高。但是,它们两者之间是相互的,单纯提高其中一个性能可能导致另一个性能的下降。如果是搜索问题,则需要在保证查全率的条件下,提高查准率;如果是过滤问题,则需要在确保查准率的条件下,提高查全率。
3.3 F1:权衡指数
为权衡查全率和查准率,很多时候,文本分类中有趣类别的实例很少。信息检索问题中负面类别的过多表现可能导致使用准确性来评估分类器性能的问题。由于精度不是偏斜数据集的良好度量,因此在这种情况下算法的分类性能通过精度和召回来衡量。此外,精确和恢复的结合是为了更好地了解分类器的性能。
这是通过将它们组合在以下公式中来完成的:为权衡查全率和查准率,Lewis 指出Fβ是用于评估文档类型划分的性能。Fβ 度量能够采取下面计算式:
其中和分别表示预设和召回。是一个正参数,代表评估任务的目标。如果认为预约更重要,那么的值会收敛为零。另一方面,如果召回比预定更重要,那么会收敛到无穷大。通常将设置为1,因为这样对每个预设和召回都给予同等重要。
有多种方法可以确定有效性;但是,最常使用的是精确度,召回率和准确度。 要确定这些,首先必须首先了解文件的分类是(被判定为正样本,事实上也是正样本),(被判定为正样本,但事实上是负样本),(被判定为负样本,事实上也是负样本)还是(被判定为负样本,但事实上是正样本)。可以用表格清晰地表示为:
分类情况表1
分类情况表2
除了上述常用的评价标准外,准确率在文本分类评价中还没有得到广泛的应用但也可以用来评价文本分类器的分类性能。准确度通常用作分类技术的度量。
然而,准确度值对于正确决策数量的变化不如精确度和召回率那么勉强,正确的速率计算方法是
基于支持向量机的文本分类算法研究(三)—— 核函数文本分类性能评价指标(stitp项目)相关推荐
- 阅读笔记3:基于深度学习的运动想象脑电信号分类算法研究
1.论文信息 题目:基于深度学习的运动想象脑电信号分类算法研究 作者佟歌 单位:哈尔滨工程大学控制科学与工程 发表时间:201803 2.笔记 2.1 脑电信号采集及预处理 2.1.1脑电信号分析方法 ...
- 基于语音的疲劳度检测算法研究
基于语音的疲劳度检测算法研究 摘 要 疲劳是一种自然现象,是人体的一种自我调节和保护功能.检测疲劳状态对于当今社会从事各行各业都有积极意义.本课题提出了一种基于语音特征参数和概率神经网络的语音疲劳度识 ...
- 奇异值分解 水印 matlab,基于奇异值分解的数字图像水印算法研究毕业论文
内容介绍 原文档由会员 何倩倩 发布 基于奇异值分解的数字图像水印算法研究毕业论文 本文共计54页,25261字: 摘 要 数字水印是将身份确认信息或保密信息镶嵌于图像中的一种技术,可靠的水印可为信息 ...
- 基于DCT域的数字水印算法研究与应用
基于DCT域的数字水印算法研究与应用 目录 摘要 1 一.数字水印技术的概述 2 1.1数字水印的概述 2 二.可实现数字水印技术的实用工具--Matlab 3 2.1概述 3 2.2算法中常用的Ma ...
- java数字图像处理开题报告,基于MATLAB的数字图像处理算法研究与仿真开题报告...
基于MATLAB的数字图像处理算法研究与仿真开题报告 毕 业 设 计 (2013 届) 题 目基于 MATLAB 的数字图像 处理算法研究与仿真 学 院 物理电气信息学院 专 业 通信工程 年 级 0 ...
- 基于深度残差网络图像分类算法研究综述
文章从残差网络的设计出发,分析了不同残差单元的构造方式,介绍了深度残差网络不同的变体.从不同角度比较了不同网络之间的差异以及这些网络架构常用图像分类数据集上的性能表现.最后对各种网络进行l总结,并讨论 ...
- matlab的车牌照识别,基于MatLab车牌号码识别算法研究与
<基于MatLab车牌号码识别算法研究与>由会员分享,可在线阅读,更多相关<基于MatLab车牌号码识别算法研究与(15页珍藏版)>请在人人文库网上搜索. 1.基于,MatLa ...
- 分类算法matlab实例,数据挖掘之分类算法---knn算法(有matlab例子)
knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法.注意,不是聚类算法.所以这种分类算法 必然包括了训练过程. 然而和一般性的分类算法不同,knn算法是一种懒 ...
- 基于支持向量机的文本分类算法研究(二) —— 支持向量核函数介绍(stitp项目)
2 支持向量机核函数 支持向量机的理论基础(凸二次规划)决定了它最终求得的为全局最优值而不是局部最优值,也保证了它对未知样本的良好泛化能力.支持向量机是建立在统计学习理论基础之上的新一代机器学习算法, ...
最新文章
- 【带你重拾Redis】Redis数据结构及使用场景
- python pip 安装报错 error in setup command: use_2to3 is invalid. 解决方法
- react- native 入门
- springboot tomcat启动
- qweb加html文件,将本地html文件加载到Pyside QwebVi中
- LOJ #6051. 「雅礼集训 2017 Day11」PATH
- 为什么建议每个开发人员都需要学Python?
- python记账app开发_Python之区块链简单记账本实现
- MIUI目前为止最简单安装谷歌服务框架教程
- Kerberos认证模型(c语言实现)
- 纤亿通之光纤传输知识必备大全
- Blender几个简单建模
- pandas中category类型的数据处理
- Exp3 免杀原理与实践 20164302 王一帆
- Ubuntu下安装Python的Tkinter和Pmw库
- Typora常用快捷键(MarkDown)
- ubuntu下命令行禁用笔记本触摸板
- 按键精灵使用乐玩插件
- 数据中心硬件架构拆解分析
- SR技术概述与基本概念(SR-BESR-TE)
热门文章
- 直观解读【时间反向传播bptt】
- java8的stream中的toMap
- 广州尚观科技:C++基础知识: this指针
- 中国清洁供热行业市场调查及投资战略研究报告2022-2028年
- 组播学习笔记(六)SPT+RP自动选举
- Android Camera 打开预览流程分析(一)--打开camera的SDK流程
- 不做XR业务,腾讯如何做元宇宙?
- memoQ中如何显示html预览,Trados、MemoQ和Wordfast 5文件实时预览查看及大批量查找和替换...
- 在Mac中PDF转图片自动化操作步骤
- 去外企和考研 就稳了?