文章目录

  • 概述
  • 余弦定理
  • 新闻分类
    • 数字化
    • 计算相似性
  • 案例

概述

三角函数的美在生活中可以说是无处不在,下面就给大家介绍一下计算机用余弦定理对新闻进行自动分类的基本方法。感兴趣的小伙伴可以了解一下,你只用掌握初高中的知识就够了!
  

余弦定理

什么是余弦定理?余弦定理是描述三角形中三边长度与一个角的余弦值关系的数学定理。余弦定理能让我们在已知三个边的情况下计算任意一个角的余弦值。

现在有如下一个三角形:

用余弦定理求这个三角形的角A的余弦值为:

如果将三角形的两条边b和c看成是两个以A为起点的向量,那么上诉公式等价于如下图,其中分母表示两个向量的长度,分子是两个向量的内积。

  

新闻分类

新闻分类是什么?新闻分类,或者更广义地将任何文本的分类,无非就是把相似的新闻归入同一类中。

如果人来完成这个任务,那么他首先会读懂新闻,然后找出其特征,最后和所有主题的特征比较,归入最相似的那个主题。比如一篇新闻的特征是多次出现了“NBA”、“绝杀”、“篮球之神”这些字眼,那么这篇新闻的主题大概率就是体育。

但是计算机不同,计算机不可能读懂新闻,对于它来说一篇新闻就是一串0,1序列。计算机如果想完成自动新闻分类,首先得用一组可计算的数字来表示一篇新闻的特征,然后在找到一个方法来计算这组数字的相似性,最后在用以上提到的人的分类方法进行分类。
  

数字化

同一类新闻的用词都是相似的,不同类的新闻用词各不相同。所以可以用新闻中出现词的重要性来体现一篇新闻的特征,而每个词的重要性可以用它的TF-IDE值表示(TF-IDE值的计算方法这里就不讲了,感兴趣的小伙伴可以自己去研究)。

有了上诉的思路,将一篇新闻数字化的大概流程如下:

  • 确定一个词汇表。
  • 计算出现的每一个词的TF-IDF值。如果词汇表里的某个词在新闻中没有出现,对应的TF-IDF值为零。
  • 把这些TF-IDF值按照对应的实词在词汇表的位置依次排列,就得到一个向量,这个向量被称为特征向量。

      

计算相似性

不同的文本,因为文本长度不同,它们的特征向量的每个维度的数值也不同,一篇1000字的文本,各个维度都比一篇500字的文章来得大。所以比较各个维度的大小没有意义,但是向量的方向却很有意义。如果两个向量的方向一致,说明相应的新闻用词的比例基本一致。

而余弦定理可以用来判断两个向量的方向是否一致。如果新闻X和Y对应的向量分别是:

那它们的夹角等于:

余弦函数在区间[0,π][0, \pi][0,π]的图像如下图,分析可得当余弦值越接近1的时候,两个特征向量的夹角越等于零,其方向越相同,两条新闻的主题越相似。

以上就是用计算机自动进行新闻分类的基本原理。当然要真正解决这个问题还有很多东西需要考虑,比如如何提高算法的运行效率、同一个词出现在新闻的不同位置的重要性不同。

案例

  • 2002年夏天,Google推出了自己的新闻“服务”。这些新闻不是记者写的,是计算机整理、分类和聚合各个新闻网站的内容,一切都是自动生成的,而这里面的关键技术就是我们上面讲的新闻的自动分类。
  • 在审核论文的时候,可以用这个方法首先对论文进行分类,然后再交给对应研究方向最权威的专家审核。

数学之美 | 余弦定理和新闻分类相关推荐

  1. 数学之美:GOOGLE新闻归类算法与余弦定理

    原文:http://www.kuqin.com/math/20071204/2786.html 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系.具体说,新闻的分类很大程度上依靠 ...

  2. 余弦定理和新闻的分类

    世界上有些事情常常超乎人们的想象.余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系.具体地说,新闻的分类很大程度上依靠的是余弦定理. 早在2002年夏天,Google就推出了自己 ...

  3. 《数学之美》-吴军 读书笔记

    从吴军的<数学之美>找到了伽莫夫的<从一到无穷大>,前段时间先整理了<从一到无穷大>的笔记.现在整理下<数学之美>以巩固下. 近段时间AlfaGo 与人 ...

  4. 《数学之美》——吴军#读书笔记

    <数学之美> 吴军 第一章:文字和语言vs数字和信息 主要内容概述:"语言和数学的产生都是为了同一个目的--记录和传播信息".科技是伴随着人类的不断进化而发展进步的.信 ...

  5. 【读书笔记】数学之美

    数学之美 00 计算复杂度 算法之父:高德纳 算法好坏的的度量不再和问题大小有关 算法复杂度 多项式复杂度函数:P问题(Polynomial) 非多项式函数:NP问题(Non-polynomial) ...

  6. 《数学之美》中的模型及启示总结

    目录 初衷 文章编排 章节总结 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规律到统计 第3章 统计语言模型 第4章 谈谈中文分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作 ...

  7. 读书笔记——数学之美

    读完数学之美,收获很多,在这里我对我的收获进行简要的总结,这些总结中不包括对具体算法和模型的详解,详解请参考其他资料,这里只进行简要的总结. 1 文字和语言 vs 数字和信息 文字.数字.语言和数学是 ...

  8. 余弦定理实现新闻自动分类算法

    前言 余弦定理,这个在初中课本中就出现过的公式,恐怕没有人不知道的吧.但是另外一个概念,可能不是很多的人会听说过,他叫空间向量,一般用e表示,高中课本中有专门讲过这个东西,有了余弦定理和向量空间,我们 ...

  9. [转]《数学之美》 阅读笔记

    文字和语言 vs 数字和信息 不同的文字系统(包括数学)在记录信息上的能力是等价的. 印度人发明了阿拉伯数字,不是阿拉伯人. 如果把中文的笔画作为字母,它其实也是一种拼音文字,不过它是二维的而已. 所 ...

最新文章

  1. 使用IPSec加强系统安全性
  2. 【Linux】shell命令学习之find
  3. 开源飞控爱好者_开源爱好者的10种节日礼物创意
  4. mybatis中获取当前时间_Mybatis获取当前数据库时间
  5. momentum、Adagrad、RMSProp、Adam梯度下降总结
  6. resin设置权限_Resin学习笔记
  7. 文件创建失败 无法继续下载_iOS更新失败了怎么办?教你如何排除故障解决问题...
  8. 程序员壁纸推荐,高清无码无水印地址已奉上!
  9. 关于Android开发者的简历
  10. Tik Tok跨境:不会英语可以做TikTok吗?
  11. 用户行为分析,就该这么做!
  12. Oracle分区表详解,分区表创建,分区表按日期划分
  13. TCP协议的三次握手大体流程
  14. android 音频切换分析,Android音频可视化操作
  15. 【PyCharm】修改编辑器背景
  16. 信号与系统——初识到理解(第二章——信号与系统)
  17. 困扰热力学的三个妖精
  18. find()函数用法
  19. PHPMyWind编辑器支持Word导入
  20. jq轮播图——无缝轮播

热门文章

  1. 哪款蓝牙耳机颜值比较高?高颜值蓝牙耳机盘点
  2. 从iReport到Jaspersoft Studio
  3. c#模拟网页实现12306登陆、自动刷票、自动抢票完全篇
  4. android 视网膜黄斑检查 amsler,一张图检测黄斑病变,快来测试一下!
  5. 解决SQL Server2017的sa用户被禁用
  6. 【腾讯云】COS和CFS的区别
  7. 光猫指示灯--路由器
  8. JS split()分割字符串,返回值数组
  9. maxthon 2 ua
  10. addition过程 sgnb_NSA辅载波SN添加成功率优化指导书(中兴设备)