数学之美 系列 12 - 余弦定理和新闻的分类
数学之美 系列 12 - 余弦定理和新闻的分类
余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。
Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。
“如何度量网页相关性”TF/IDF /TF/IDF)TF/IDF TF/IDF
------------------
1 阿
2 啊
3 阿斗
4 阿姨
...
789 服装
....
64000 做作
64,000 TF/IDF
TF/IDF
==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075
64,000 64,000如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归在一类,反之亦然。
学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。
a, b c A, B C A --
b c
b c X Y
x1,x2,...,x64000 和
y1,y2,...,y64000,
那么它们夹角的余弦等于,
当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。
我们在中学学习余弦定理时,恐怕很难想象它可以用来对新闻进行分类。在这里,我们再一次看到数学工具的用途。
转自:http://googlechinablog.com/2006/07/12.html
数学之美 系列 12 - 余弦定理和新闻的分类相关推荐
- 数学之美系列12(转帖)
数学之美 系列 12 - 余弦定理和新闻的分类2006年7月20日 上午 10:12:00 发表者:吴军,Google 研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系. ...
- 数学之美系列14(转帖)
数学之美 十四 谈谈数学模型的重要性2006年8月9日 上午 09:12:00 发表者:吴军,Google 研究员 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学 ...
- 数学之美 系列七 -- 信息论在信息处理中的应用
数学之美 系列七 -- 信息论在信息处理中的应用 http://googlechinablog.com/2006/05/blog-post_25.html 我们已经介绍了信息熵,它是信息论的基础,我们 ...
- 数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers) [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础.它包括数理逻辑.集合论.图论和近世代数四个分支.数理逻辑基于布尔运算, ...
- 数学之美 系列一 -- 统计语言模型
数学之美 系列一 -- 统计语言模型 Posted on 2009-09-11 14:54 小y 阅读(576) 评论(0) 编辑 收藏 发表者: 吴军, Google 研究员 前言 也许大家不相信 ...
- 数学之美系列16(转帖)
数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型2006年10月8日 上午 07:27:00 发表者:Google 研究员,吴军 [我们在投资时常常讲不要把所有的鸡蛋放在 ...
- 数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型
数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型 我们上次谈到用最大熵模型可以将各种信息综合在一起.我们留下一个问题没有回答,就是如何构造最大熵模型.我们已经所有的最大熵模型都 ...
- 数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型
数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险.在信息处理中,这个原理同样适用.在数学上,这个原理 ...
- 数学之美 系列十五 繁与简 自然语言处理的几位精英
数学之美 系列十五 繁与简 自然语言处理的几位精英 我在数学之美系列中一直强调的一个好方法就是简单.但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完 ...
最新文章
- anaconda spyder使用协程报错解决:RuntimeError: This event loop is already running
- python装饰器实例-Python装饰器原理与简单用法实例分析
- Android 的简介和体系结构中每个层的功能。
- C ++定义QML类型
- 关于SAP云平台的Identity Authentication tenant
- mysql数据库mysqldump还原_mysqldump数据库备份与恢复
- hibernate.cfg.xml的一些事
- 让你的Python程序在用户面前以小概率崩溃
- OneDrive网盘资源下载教程
- 聚类分析与SPSS实现——《社会统计分析方法》
- AKULAKU笔试题(还有1题未答)
- u检验中的查u界值表_u检验
- 163个人邮箱注册申请流程,公司邮箱怎么注册?
- Excel如何批量生成条形码
- js加密php解密---jsencrypt
- Cookie被禁用,如何传递session id?
- 软件功能测试报告都包含哪些内容,测试报告如何获取呢
- 云服务器(阿里云)安装kafka及相关报错处理(WARN Connection request from old client /58.247.201.56:31365; will be dropp)
- 欧元一个神创造的货币
- Typora基础用法:pandoc安装,导入导出word文档,pdf文件。设置图片目录
热门文章
- [云炬创业基础笔记]第六章商业模式测试12
- [:zh]<机械课程设计>第三张表自动计算部分 Android安装包[:]2017-12-20
- 成功解决C4996: ‘fopen‘: This function or variable may be unsafe. Consider using fopen_s instead
- 机器学习大牛是如何选择回归损失函数的?
- 威联通服务器显示磁盘为挂载,如何在 QNAP NAS 上使用虚拟磁盘?
- Encoder-Decoder (based on RNNS / LSTM)用于序列学习方案
- Qt小传——从诞生到发展、繁荣
- c#下简单的文件读写
- sql中常用的几种连接
- 反病毒引擎设计全解(四)