1 新闻的特征向量

对于一篇新闻中的所有实词,计算出它们的TF-IDF值。把这些值按照对应的实词在词汇表的位置依次排序,就得到一个向量。每一篇新闻都可以对应这样一个特征向量,向量中每一个维度的大小代表每个词对这篇新闻主题的贡献。

2 向量矩阵的度量

同一类新闻一定是某些主题词用得较多,另外一些词则用的较少。反映在每一篇新闻的特征上,如果两篇文章属于同一类,它们的特征向量在某几个维度的值都比较大,而在其他维度的值都比较小。反过来看,如果两篇新闻不属于同一类,由于用词的不同,在它们的特征向量中,值比较大的维度应该没有什么交集。

当两条新闻向量的余弦等于1时,夹角为0,两条新闻完全相同;当夹角的余弦接近于1时,两条新闻相似,从而可以归成一类;夹角的余弦越小,夹角越大,两条新闻越不相关。

3 计算余弦向量的技巧

3.1 大数据量时的余弦向量

首先,分母部分不需要重复计算。

其次,在计算分子即两个向量的内积时,只考虑向量中的非零元素。

最后,可以删除虚词,包括搜索中的非必留词以及一些连词、副词和介词

3.2 位置的加权

和计算搜索相关性一样,出现在文本不同位置的词在分类时的重要性也不同。要对标题和重要位置的词进行额外的加权,以提高文本分类的准确性。

《数学之美》第14章 余弦定理和新闻的分类相关推荐

  1. 《数学之美》第十四章——余弦定理和新闻的分类

    1 新闻的特征向量 我们在新闻页面中浏览新闻的时候,通常会有很多模块,在这些模块里面的新闻都是具有一定相关性的.如果单纯依靠人工对大量的新闻进行分类显然是不可能的,因此需要让计算机能够"算& ...

  2. 《数学之美》选章精读

    曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...

  3. 数学之美 系列 12 - 余弦定理和新闻的分类

    数学之美 系列 12 - 余弦定理和新闻的分类 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系.具体说,新闻的分类很大程度上依靠余弦定理. Google 的新闻是自动分类和整理 ...

  4. 数学之美 第3章 统计语言模型

    数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...

  5. 余弦定理和新闻的分类(TF-IDF+余弦相似度)

    文章目录 怎么把新闻向量化从而可计算呢? TF-IDF 怎么计算相似度呢? 余弦相似度 大数据量时的余弦计算 来源 世界上有些事情常常超乎人们的想象.余弦定理和新闻的分类似乎是两件八杆子打不着的事,但 ...

  6. 余弦定理和新闻的分类

    世界上有些事情常常超乎人们的想象.余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系.具体地说,新闻的分类很大程度上依靠的是余弦定理. 早在2002年夏天,Google就推出了自己 ...

  7. 《数学之美》——第九章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章    图 ...

  8. 《数学之美》——第一章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章    文 ...

  9. 数学之美系列14(转帖)

    数学之美 十四 谈谈数学模型的重要性2006年8月9日 上午 09:12:00 发表者:吴军,Google 研究员 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学 ...

最新文章

  1. python数据读取失败无法启动应用_tensorflow初学者教程-读取数据集失败
  2. docker自动部署
  3. [论文阅读] (03) 清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
  4. 【物联网开发实战】- 设备上云方案详解?
  5. php mysqli报错,php安装扩展mysqli的实现步骤及报错解决办法
  6. 二叉树的递归与非递归
  7. 20145239 《信息安全系统设计基础》第13周学习总结
  8. python机器人仿真软件_【RoboDK官方版下载】RoboDK(机器人仿真软件) v4.2.3 官方版-开心电玩...
  9. Linux 下ALSA音频工具amixer,aplay,arecord使用
  10. 【高数】高数第七章节——微分方程概念一阶微分方程高阶微分方程
  11. pytorch 机器翻译 seq2seq 模型和注意力机制
  12. 手机格式化的计算机原理,格式化不了怎么办 手机电脑方法大不同【图解】
  13. iOS图形编辑之Core Graphics
  14. Linux中硬盘smart故障,硬盘驱动器 – 此SMART自检是否表示驱动器出现故障?
  15. 计算机硬盘没显示,移动硬盘不显示在我的电脑
  16. Unix 开机时如何自启动oracle
  17. 混沌麻雀搜索优化算法-附代码
  18. php 关键词生成,DEDECMS实现文章tag关键词自动生成列表页的方法
  19. 关于c++ STL库的一些总结
  20. 大数据之Flume:Flume概述

热门文章

  1. 6位图灵奖得主,10多位院士,19个分论坛:北京智源大会邀你共同探索AI下一个十年...
  2. 技术雷达峰会2020:从技术趋势看行业挑战
  3. 比尔盖茨是这样审查项目的 2
  4. CMU开源:价值百万美元的多目标人体关键点实时检测
  5. tensorflow笔记:多层CNN代码分析
  6. TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%
  7. 使用RNN神经网络自动生成名字 (不使用深度学习框架,源码)
  8. 独家 | 一文带你熟悉贝叶斯统计
  9. ​2012年至今,细数深度学习领域这些年取得的经典成果
  10. 《人工智能与工业融合发展研究报告》: AI入局推动工业产业6大趋势变化(附PPT)...