数学之美 系列 12 - 余弦定理和新闻的分类

余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理

Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。

“如何度量网页相关性”TF/IDF /TF/IDF)TF/IDF TF/IDF

------------------
1 阿
2 啊
3 阿斗
4 阿姨
...
789 服装
....
64000 做作

64,000 TF/IDF

TF/IDF
==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075

64,000 64,000如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归在一类,反之亦然

学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了
a, b c A, B C A --

b c

b c X Y
x1,x2,...,x64000 和
y1,y2,...,y64000,
那么它们夹角的余弦等于,

当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关


我们在中学学习余弦定理时,恐怕很难想象它可以用来对新闻进行分类。在这里,我们再一次看到数学工具的用途。

转自:http://googlechinablog.com/2006/07/12.html

数学之美 系列 12 - 余弦定理和新闻的分类相关推荐

  1. 数学之美系列12(转帖)

    数学之美 系列 12 - 余弦定理和新闻的分类2006年7月20日 上午 10:12:00 发表者:吴军,Google 研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系. ...

  2. 数学之美系列14(转帖)

    数学之美 十四 谈谈数学模型的重要性2006年8月9日 上午 09:12:00 发表者:吴军,Google 研究员 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学 ...

  3. 数学之美 系列七 -- 信息论在信息处理中的应用

    数学之美 系列七 -- 信息论在信息处理中的应用 http://googlechinablog.com/2006/05/blog-post_25.html 我们已经介绍了信息熵,它是信息论的基础,我们 ...

  4. 数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

    数学之美系列六 -- 图论和网络爬虫 (Web Crawlers) [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础.它包括数理逻辑.集合论.图论和近世代数四个分支.数理逻辑基于布尔运算, ...

  5. 数学之美 系列一 -- 统计语言模型

    数学之美 系列一 -- 统计语言模型 Posted on 2009-09-11 14:54 小y 阅读(576) 评论(0) 编辑 收藏  发表者: 吴军, Google 研究员 前言 也许大家不相信 ...

  6. 数学之美系列16(转帖)

    数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型2006年10月8日 上午 07:27:00 发表者:Google 研究员,吴军 [我们在投资时常常讲不要把所有的鸡蛋放在 ...

  7. 数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型

    数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型 我们上次谈到用最大熵模型可以将各种信息综合在一起.我们留下一个问题没有回答,就是如何构造最大熵模型.我们已经所有的最大熵模型都 ...

  8. 数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

    数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险.在信息处理中,这个原理同样适用.在数学上,这个原理 ...

  9. 数学之美 系列十五 繁与简 自然语言处理的几位精英

    数学之美 系列十五 繁与简 自然语言处理的几位精英 我在数学之美系列中一直强调的一个好方法就是简单.但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完 ...

最新文章

  1. anaconda spyder使用协程报错解决:RuntimeError: This event loop is already running
  2. python装饰器实例-Python装饰器原理与简单用法实例分析
  3. Android 的简介和体系结构中每个层的功能。
  4. C ++定义QML类型
  5. 关于SAP云平台的Identity Authentication tenant
  6. mysql数据库mysqldump还原_mysqldump数据库备份与恢复
  7. hibernate.cfg.xml的一些事
  8. 让你的Python程序在用户面前以小概率崩溃
  9. OneDrive网盘资源下载教程
  10. 聚类分析与SPSS实现——《社会统计分析方法》
  11. AKULAKU笔试题(还有1题未答)
  12. u检验中的查u界值表_u检验
  13. 163个人邮箱注册申请流程,公司邮箱怎么注册?
  14. Excel如何批量生成条形码
  15. js加密php解密---jsencrypt
  16. Cookie被禁用,如何传递session id?
  17. 软件功能测试报告都包含哪些内容,测试报告如何获取呢
  18. 云服务器(阿里云)安装kafka及相关报错处理(WARN Connection request from old client /58.247.201.56:31365; will be dropp)
  19. 欧元一个神创造的货币
  20. Typora基础用法:pandoc安装,导入导出word文档,pdf文件。设置图片目录

热门文章

  1. [云炬创业基础笔记]第六章商业模式测试12
  2. [:zh]<机械课程设计>第三张表自动计算部分 Android安装包[:]2017-12-20
  3. 成功解决C4996: ‘fopen‘: This function or variable may be unsafe. Consider using fopen_s instead
  4. 机器学习大牛是如何选择回归损失函数的?
  5. 威联通服务器显示磁盘为挂载,如何在 QNAP NAS 上使用虚拟磁盘?
  6. Encoder-Decoder (based on RNNS / LSTM)用于序列学习方案
  7. Qt小传——从诞生到发展、繁荣
  8. c#下简单的文件读写
  9. sql中常用的几种连接
  10. 反病毒引擎设计全解(四)