《数学之美》第14章 余弦定理和新闻的分类
1 新闻的特征向量
对于一篇新闻中的所有实词,计算出它们的TF-IDF值。把这些值按照对应的实词在词汇表的位置依次排序,就得到一个向量。每一篇新闻都可以对应这样一个特征向量,向量中每一个维度的大小代表每个词对这篇新闻主题的贡献。
2 向量矩阵的度量
同一类新闻一定是某些主题词用得较多,另外一些词则用的较少。反映在每一篇新闻的特征上,如果两篇文章属于同一类,它们的特征向量在某几个维度的值都比较大,而在其他维度的值都比较小。反过来看,如果两篇新闻不属于同一类,由于用词的不同,在它们的特征向量中,值比较大的维度应该没有什么交集。
当两条新闻向量的余弦等于1时,夹角为0,两条新闻完全相同;当夹角的余弦接近于1时,两条新闻相似,从而可以归成一类;夹角的余弦越小,夹角越大,两条新闻越不相关。
3 计算余弦向量的技巧
3.1 大数据量时的余弦向量
首先,分母部分不需要重复计算。
其次,在计算分子即两个向量的内积时,只考虑向量中的非零元素。
最后,可以删除虚词,包括搜索中的非必留词以及一些连词、副词和介词
3.2 位置的加权
和计算搜索相关性一样,出现在文本不同位置的词在分类时的重要性也不同。要对标题和重要位置的词进行额外的加权,以提高文本分类的准确性。
《数学之美》第14章 余弦定理和新闻的分类相关推荐
- 《数学之美》第十四章——余弦定理和新闻的分类
1 新闻的特征向量 我们在新闻页面中浏览新闻的时候,通常会有很多模块,在这些模块里面的新闻都是具有一定相关性的.如果单纯依靠人工对大量的新闻进行分类显然是不可能的,因此需要让计算机能够"算& ...
- 《数学之美》选章精读
曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...
- 数学之美 系列 12 - 余弦定理和新闻的分类
数学之美 系列 12 - 余弦定理和新闻的分类 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系.具体说,新闻的分类很大程度上依靠余弦定理. Google 的新闻是自动分类和整理 ...
- 数学之美 第3章 统计语言模型
数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...
- 余弦定理和新闻的分类(TF-IDF+余弦相似度)
文章目录 怎么把新闻向量化从而可计算呢? TF-IDF 怎么计算相似度呢? 余弦相似度 大数据量时的余弦计算 来源 世界上有些事情常常超乎人们的想象.余弦定理和新闻的分类似乎是两件八杆子打不着的事,但 ...
- 余弦定理和新闻的分类
世界上有些事情常常超乎人们的想象.余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系.具体地说,新闻的分类很大程度上依靠的是余弦定理. 早在2002年夏天,Google就推出了自己 ...
- 《数学之美》——第九章 个人笔记
数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章 图 ...
- 《数学之美》——第一章 个人笔记
数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章 文 ...
- 数学之美系列14(转帖)
数学之美 十四 谈谈数学模型的重要性2006年8月9日 上午 09:12:00 发表者:吴军,Google 研究员 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学 ...
最新文章
- python数据读取失败无法启动应用_tensorflow初学者教程-读取数据集失败
- docker自动部署
- [论文阅读] (03) 清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
- 【物联网开发实战】- 设备上云方案详解?
- php mysqli报错,php安装扩展mysqli的实现步骤及报错解决办法
- 二叉树的递归与非递归
- 20145239 《信息安全系统设计基础》第13周学习总结
- python机器人仿真软件_【RoboDK官方版下载】RoboDK(机器人仿真软件) v4.2.3 官方版-开心电玩...
- Linux 下ALSA音频工具amixer,aplay,arecord使用
- 【高数】高数第七章节——微分方程概念一阶微分方程高阶微分方程
- pytorch 机器翻译 seq2seq 模型和注意力机制
- 手机格式化的计算机原理,格式化不了怎么办 手机电脑方法大不同【图解】
- iOS图形编辑之Core Graphics
- Linux中硬盘smart故障,硬盘驱动器 – 此SMART自检是否表示驱动器出现故障?
- 计算机硬盘没显示,移动硬盘不显示在我的电脑
- Unix 开机时如何自启动oracle
- 混沌麻雀搜索优化算法-附代码
- php 关键词生成,DEDECMS实现文章tag关键词自动生成列表页的方法
- 关于c++ STL库的一些总结
- 大数据之Flume:Flume概述
热门文章
- 6位图灵奖得主,10多位院士,19个分论坛:北京智源大会邀你共同探索AI下一个十年...
- 技术雷达峰会2020:从技术趋势看行业挑战
- 比尔盖茨是这样审查项目的 2
- CMU开源:价值百万美元的多目标人体关键点实时检测
- tensorflow笔记:多层CNN代码分析
- TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%
- 使用RNN神经网络自动生成名字 (不使用深度学习框架,源码)
- 独家 | 一文带你熟悉贝叶斯统计
- ​2012年至今,细数深度学习领域这些年取得的经典成果
- 《人工智能与工业融合发展研究报告》: AI入局推动工业产业6大趋势变化(附PPT)...