原文: http://www.google.com.hk/ggblog/googlechinablog/2006/07/12_4010.html

Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。

对于一篇新闻中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词,分别为

单词编号 汉字词
------------------
1 阿
2 啊
3 阿斗
4 阿姨
...
789 服装
....
64000 做作

在一篇新闻中,这 64,000 个词的 TF/IDF 值分别为

单词编号 TF/IDF 值
==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075

如果单词表中的某个次在新闻中没有出现,对应的值为零,那么这 64,000 个数,组成一个64,000维的向量。我们就用这个向量来代表这篇新闻,并成为新闻的特征向量。如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归在一类,反之亦然。

学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。

google的新闻(文章)分类算法相关推荐

  1. 机器学习实战之分类算法(K-近邻/朴素贝叶斯/决策树/随机森林)

    机器学习分类算法 1. 机器学习算法简介 1.1 按照学习方式分类 1.2 区别 1.3 关于监督学习中的分类与回归区别 1.4 机器学习开发流程 2. 数据集介绍与划分 2.1 sklearn数据集 ...

  2. 朴素贝叶斯算法新闻文本分类

    新闻数据有20个主题,有10万多篇文章,每篇文章对应不同的主题,要求是任意输入一篇新的文章,模型输出这篇文章属于哪个主题. 一. 算法原理 1. 朴素贝叶斯方法 朴素贝叶斯方法涉及一些概率论知识,我们 ...

  3. 余弦定理和新闻的分类

    世界上有些事情常常超乎人们的想象.余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系.具体地说,新闻的分类很大程度上依靠的是余弦定理. 早在2002年夏天,Google就推出了自己 ...

  4. 余弦定理和新闻的分类(TF-IDF+余弦相似度)

    文章目录 怎么把新闻向量化从而可计算呢? TF-IDF 怎么计算相似度呢? 余弦相似度 大数据量时的余弦计算 来源 世界上有些事情常常超乎人们的想象.余弦定理和新闻的分类似乎是两件八杆子打不着的事,但 ...

  5. 大数据 机器学习 分类算法_13种用于数据科学的机器学习分类算法及其代码

    大数据 机器学习 分类算法 The roundup of most common classification algorithms along with their python and r cod ...

  6. 【NLP从零入门】预训练时代下,深度学习模型的文本分类算法(超多干货,小白友好,内附实践代码和文本分类常见中文数据集)

    如今NLP可以说是预训练模型的时代,希望借此抛砖引玉,能多多交流探讨当前预训练模型在文本分类上的应用. 1. 任务介绍与实际应用 文本分类任务是自然语言处理(NLP)中最常见.最基础的任务之一,顾名思 ...

  7. Newspaper 一个能下载 38 种语言新闻文章的 Python 模块

    这是「进击的Coder」的第 485 篇技术分享 作者:Ckend 来源:Python 实用宝典 " 阅读本文大概需要 7 分钟. " Newspaper 是一个很棒的 pytho ...

  8. NLP入门竞赛,搜狗新闻文本分类!拿几十万奖金!

    该数据集来自若干新闻站点2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据. 根据新闻正文内容分析新闻的类别数据集官网链接: http://www.sogou.com/labs ...

  9. 菜鸟进阶: C++实现KNN文本分类算法

    作者:finallyliuyu(转载请注明原作者和出处) (代码暂不发布源码下载版,以后会发布) KNN文本分类算法又称为(k nearest neighhor).它是一种基于事例的学习方法,也称懒惰 ...

最新文章

  1. 计算机自动连续工作的基础是存储程序原理,计算机的存储程序工作原理是什么...
  2. 数据结构 互换二叉树中所有结点的左右子树 C
  3. ajax 微信code获取_获取链接的参数,判断是否是微信打开,ajax获取数据
  4. easyexcel 设置标题_使用easyexcel完成复杂表头及标题的导出功能(自定义样式)
  5. VMware快照的工作原理
  6. HDF5快速上手全攻略
  7. iOS迅雷V6.01更新,变化重大丨附下载地址
  8. EMD、EEMD模态混叠、端点效应及改进研究(转)
  9. 计算机图像处理之空域滤波增强(彩色增强)
  10. B站最专业的DC漫威UP主,深度挖掘漫威故事内容。
  11. linux startx无效_LINUX startx命令-用来启动X Window
  12. PYNQ开发板使用-使用DMA进行数据搬移(Simple DMA transfer 模式)
  13. 6_1 系统安全分析与设计
  14. 【视频处理】模拟视频信号及其传输
  15. ajax感受,有什么缺点,浅谈ajax的优点与缺点
  16. 痞子衡嵌入式:其实i.MXRT1050,1020,1015系列ROM也提供了FlexSPI driver API
  17. vue mysql 电商_mei-shopone: nuxt(vue)+node(egg.js)+mysql晒点风格极简商城,电商系统。适合入门全栈开发,槑先森工作室。...
  18. Metabase定制化开发
  19. Java线程安全的实现方法
  20. [OS] ESXi安装和配置

热门文章

  1. 使用百度地图API创建第一个电子地图
  2. 常见的块元素 行内元素 行内块元素
  3. sqlserver ssis
  4. 英语四六级写作救命万能表达
  5. 对于line-height的一些理解
  6. SQL应用:使用SQL分析索尼公司销售数据
  7. 江苏华西村海洋工程服务有限公司-船讯网
  8. 认识频谱分析仪(1)- 原理及结构
  9. shell lsof
  10. vue 路由跳转返回上一级