使用KNN算法的文本分类.PDF

第31 卷 第8 期 计 算 机 工 程 2005 年4 月

Vol.31 8 Computer Engineering April 2005

人工智能及识别技术 文章编号 1000 3428(2005)08 0171 02 文献标识码 A 中图分类号 TP18

使用KNN算法的文本分类

1 2 2

张 宁 贾自艳 史忠植

1. 中国科技大学研究生院计算机学部, 北京 100039 2 . 中科院计算技术研究所智能信息处理重点实验室, 北京100080

摘 要 介绍了数据挖掘的一个分枝 文本自动分类的相关技术 在对数据进行预处理的基础上 实现了K 最近邻居分类算法 并结合

实验结果对数据预处理在文本分类中的重要性进行了讨论

关键词 数据挖掘 文本分类 KNN 算法 向量空间模型

Text Categorization with KNN Algorithm

1 2 2

ZHANG Ning , JIA Ziyan , SHI Zhongzhi

1. Computer Branch, Graduate School, University of Science and Technology of China, Beijing 100039;

2. Key Lab of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080

Abstract This paper introduces a branch of data mining technology text categorization, and discusses some related key technologies of text

categorization. Based on data preprocess, it implements one algorithm, K nearest neighbor algorithm. In the end, it utilizes the experiment results t o

prove the importance of data preprocess for clarifying capability.

Key words Data mining; Text categorization; KNN algorithm; VSM

20 世纪90 年代以来 Internet 以惊人的速度发展起来 则 以便于实现 Internet 数据挖掘的智能化 离开了文本知

它容纳了海量的各种类型的原始信息 如何在浩若烟海而又 识挖掘 智能化是不能实现的 最常用的文本知识挖掘方法

纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一 是基于文档特征向量空间模型 Characteristic Vector Space

大目标 基于人工智能技术的文本分类系统能够依据文本的 Model CVSM 的 一般过程如图1 所示

语义将大量的文本自动分门别类 从而更好地帮助人们把握

文本信息

禁用词集 概念集 已分类文档库

1 文本分类简介

文本自动分类最初是应信息检索 IR 训练 理 处 预 概念 一般特征提取 集 减 征

java knn文本分类算法_使用KNN算法的文本分类.PDF相关推荐

  1. 【Matlab】智能优化算法_蜻蜓优化算法DA

    [Matlab]智能优化算法_蜻蜓优化算法DA 1.背景介绍 2.灵感 3.公式推导 3.1 勘探和开发操作 4.算法流程图 5.文件结构 6.伪代码 7.详细代码及注释 7.1 DA.m 7.2 d ...

  2. 【Matlab】智能优化算法_蚁狮优化算法ALO

    [Matlab]智能优化算法_蚁狮优化算法ALO 1.背景介绍 2.基本思想 3.公式推导 3.1 ALO算法的运算符 3.2 蚂蚁的随机游动 3.3 困在蚂蚁坑里 3.4 修建陷阱 3.5 蚂蚁划向 ...

  3. 【Matlab】智能优化算法_灰狼优化算法GWO

    [Matlab]智能优化算法_灰狼优化算法GWO 1.背景介绍 2.基本思想 2.1 等级制度 2.2 狩猎方式 3.公式推导 3.1 社会等级制度 3.2 包围猎物 3.3 包围猎物 3.4 攻击猎 ...

  4. python实现tomasulo算法_手写算法-python代码实现KNN

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理 原理解析 KNN-全称K-Nearest Neighbor,最近邻算法,可以做分类任务,也可以做回归 ...

  5. java 最少使用(lru)置换算法_缓存置换算法 - LRU算法

    LRU算法 1 原理 对于在内存中并且不被使用的数据块就是LRU,这类数据需要从内存中删除,以腾出空间来存储常用的数据. LRU算法(Least Recently Used,最近最少使用),是内存管理 ...

  6. python nlp文本摘要实现_用TextRank算法实现自动文本摘要

    [51CTO.com快译]1. 引言 文本摘要是自然语言处理(NLP)领域中的应用之一,它必将对我们的生活产生巨大影响.随着数字媒体和出 版业的不断发展,谁还有时间浏览整篇文章/文档/书籍来决定它们是 ...

  7. 文本处理算法_第四天:文本处理流程——分词

    分词工具的使用 我们在前一篇文章中介绍过文本处理流程,主要包括分词.文本预处理(无用标签.特殊符号.停用词.大写转小写).标准化.特征提取.建模.系统评估.今天我们介绍在自然语言处理(NLP)中的文本 ...

  8. java 投票算法_摩尔投票算法 - woshixin的个人空间 - OSCHINA - 中文开源技术交流社区...

    摩尔投票算法(Moore majority vote algorithm) 这个在wiki的介绍在https://en.wikipedia.org/wiki/Boyer%E2%80%93Moore_m ...

  9. java 排名算法_排行榜的算法

    好久不来博客园了,前几天更新个人状态时,也把"技术博客"四个字改成了"荒废已久的博客". 好久不总结自己的工作和学习了,怎么说也过不去,就来这写一篇浅显的文章, ...

最新文章

  1. 第十天2017/04/21(1、函数指针、❤动态库回调❤)
  2. OpenSSL 再爆严重安全漏洞 —— CCS 注入
  3. Core Dump流程分析
  4. JQuery 动画卷页 -- 返回顶部 动画特效(兼容Chrome)
  5. MySQL学习笔记(6)之设计范式
  6. .NET 云原生架构师训练营(设计原则设计模式)--学习笔记
  7. powermockito教程_Mockito与PowerMock的使用基础教程
  8. Halcon算子学习:create_surface_model
  9. eureka server配置_springcloud+eureka整合分布式事务中间件seata
  10. java 成员函数相互调用_java 深入理解内部类以及之间的调用关系
  11. html与css基础教程:CSS构造块
  12. Redis基本命令及相关用法
  13. matlab绘制数字滤波器的幅频响应曲线
  14. 量子计算(六):量子计算软件介绍
  15. part-1 输入偏置电流和输入失调电流
  16. Linux下用imageMagick对图片进行一些操作,非常建议方便的一个图片处理工具。
  17. 设置电脑的背景颜色为保护色
  18. 怎么通过django模板输出双花括号{{}}
  19. 如何绘制好看的大脑皮层图?wb_view +fun.gii格式操作
  20. Double 判断小数位数

热门文章

  1. 运行orbslam2出现 段错误 (核心已转储)_JDK 14已发布快速预览16个新特性
  2. python简单代码需要写多久_python基本语法?初学Python要多久才能入门?
  3. python怎样缩进语法边界-Python的基础语法
  4. img pdf 展示_pdf.js实现图片在线预览
  5. linux 关闭防火墙 centos7,centos7关闭防火墙和selinux
  6. 实验吧之【Forms、天网管理系统】
  7. (22)进程和线程区别
  8. QRCode二维码生成方案及其在带LOGO型二维码中的应用(2)
  9. 从进程组、会话、终端的概念深入理解守护进程
  10. xml-treeview转换