google的新闻(文章)分类算法
原文: http://www.google.com.hk/ggblog/googlechinablog/2006/07/12_4010.html
Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。
对于一篇新闻中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词,分别为
单词编号 汉字词
------------------
1 阿
2 啊
3 阿斗
4 阿姨
...
789 服装
....
64000 做作
在一篇新闻中,这 64,000 个词的 TF/IDF 值分别为
单词编号 TF/IDF 值
==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075
如果单词表中的某个次在新闻中没有出现,对应的值为零,那么这 64,000 个数,组成一个64,000维的向量。我们就用这个向量来代表这篇新闻,并成为新闻的特征向量。如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归在一类,反之亦然。
学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。
google的新闻(文章)分类算法相关推荐
- 机器学习实战之分类算法(K-近邻/朴素贝叶斯/决策树/随机森林)
机器学习分类算法 1. 机器学习算法简介 1.1 按照学习方式分类 1.2 区别 1.3 关于监督学习中的分类与回归区别 1.4 机器学习开发流程 2. 数据集介绍与划分 2.1 sklearn数据集 ...
- 朴素贝叶斯算法新闻文本分类
新闻数据有20个主题,有10万多篇文章,每篇文章对应不同的主题,要求是任意输入一篇新的文章,模型输出这篇文章属于哪个主题. 一. 算法原理 1. 朴素贝叶斯方法 朴素贝叶斯方法涉及一些概率论知识,我们 ...
- 余弦定理和新闻的分类
世界上有些事情常常超乎人们的想象.余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系.具体地说,新闻的分类很大程度上依靠的是余弦定理. 早在2002年夏天,Google就推出了自己 ...
- 余弦定理和新闻的分类(TF-IDF+余弦相似度)
文章目录 怎么把新闻向量化从而可计算呢? TF-IDF 怎么计算相似度呢? 余弦相似度 大数据量时的余弦计算 来源 世界上有些事情常常超乎人们的想象.余弦定理和新闻的分类似乎是两件八杆子打不着的事,但 ...
- 大数据 机器学习 分类算法_13种用于数据科学的机器学习分类算法及其代码
大数据 机器学习 分类算法 The roundup of most common classification algorithms along with their python and r cod ...
- 【NLP从零入门】预训练时代下,深度学习模型的文本分类算法(超多干货,小白友好,内附实践代码和文本分类常见中文数据集)
如今NLP可以说是预训练模型的时代,希望借此抛砖引玉,能多多交流探讨当前预训练模型在文本分类上的应用. 1. 任务介绍与实际应用 文本分类任务是自然语言处理(NLP)中最常见.最基础的任务之一,顾名思 ...
- Newspaper 一个能下载 38 种语言新闻文章的 Python 模块
这是「进击的Coder」的第 485 篇技术分享 作者:Ckend 来源:Python 实用宝典 " 阅读本文大概需要 7 分钟. " Newspaper 是一个很棒的 pytho ...
- NLP入门竞赛,搜狗新闻文本分类!拿几十万奖金!
该数据集来自若干新闻站点2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据. 根据新闻正文内容分析新闻的类别数据集官网链接: http://www.sogou.com/labs ...
- 菜鸟进阶: C++实现KNN文本分类算法
作者:finallyliuyu(转载请注明原作者和出处) (代码暂不发布源码下载版,以后会发布) KNN文本分类算法又称为(k nearest neighhor).它是一种基于事例的学习方法,也称懒惰 ...
最新文章
- 计算机自动连续工作的基础是存储程序原理,计算机的存储程序工作原理是什么...
- 数据结构 互换二叉树中所有结点的左右子树 C
- ajax 微信code获取_获取链接的参数,判断是否是微信打开,ajax获取数据
- easyexcel 设置标题_使用easyexcel完成复杂表头及标题的导出功能(自定义样式)
- VMware快照的工作原理
- HDF5快速上手全攻略
- iOS迅雷V6.01更新,变化重大丨附下载地址
- EMD、EEMD模态混叠、端点效应及改进研究(转)
- 计算机图像处理之空域滤波增强(彩色增强)
- B站最专业的DC漫威UP主,深度挖掘漫威故事内容。
- linux startx无效_LINUX startx命令-用来启动X Window
- PYNQ开发板使用-使用DMA进行数据搬移(Simple DMA transfer 模式)
- 6_1 系统安全分析与设计
- 【视频处理】模拟视频信号及其传输
- ajax感受,有什么缺点,浅谈ajax的优点与缺点
- 痞子衡嵌入式:其实i.MXRT1050,1020,1015系列ROM也提供了FlexSPI driver API
- vue mysql 电商_mei-shopone: nuxt(vue)+node(egg.js)+mysql晒点风格极简商城,电商系统。适合入门全栈开发,槑先森工作室。...
- Metabase定制化开发
- Java线程安全的实现方法
- [OS] ESXi安装和配置