什么是词频?

词频,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度。词频统计为学术研究提供了新的方法和视野。

在输入法中,有词频调整一说,词频调整功能指将用户使用频率较高的重码词语调整到靠前的位置上甚至是第一位,这样下次输入这个词语的时候就不必翻页了。

基本解释:在一定范围的语言材料中一个词的使用频率

词频统计:

字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。文字软件恐怕还没有你想的那么智能,可以自主分析关键词。它只可以提取出现频率较高的词语。

精准词和词频是什么意思?

关键词的分类之一每个备选的词分级A:精准词B:相对精准词C:宽泛词精准词,对一件物品比较详细的描述,比如男衬衫女牛仔裤这类的

词频统计原理:

在一份给定的文件里,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语ti来说,它的重要性可表示为:

以上式子中ni,j是该词在文件dj中的出现次数,而分母则是在文件dj中所有字词的出现次数之和。

逆向文件频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到

    经典案例:

有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频(TF)是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是0.03(3/100)。一个计算文件频率(DF)的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是9.21=(ln(10,000,000/1,000))。最后的TF-IDF的分数为0.28=(0.03*9.21)。

理论依据?

TFIDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。

因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。

但是在本质上IDF是一种试图抑制噪声的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。

此外,在TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。

关键字词频与密度的关系

尽管关键字密度与关键字词频都是表达页面中某个关键字的多寡,但是两者的含义却存在很大差别。关键字词频表达的是关键字出现的次数,而关键字密度表达的是该关键字的词频与页面总词汇量的比例。

两者的关系如下:

关键字密度是衡量页面中关键字词频是否合理的重要指标;

当两个页面词汇量相等时,关键字密度越大,词频就越大;反之亦然。

但是,不管是关键字密度还是词频,都不是越大越好,而是有一个阈值。当大于或者小于这个阈值时,页面相关性就会减少。

首先我们要明白什么是关键词词频和密度。关键词词频和密度是针对正文中的关键词而言的,关键词词频是正文中关键词出现的次数,关键词密度是关键词出现的次数除以页面中可见文字的总次数,通常用百分数来表示。

我们在用其它工具查询的时候可以看到关键词的密度为2%,3%等等,就是这样计算得来的。

什么是词频?词频的原理是什么?相关推荐

  1. hanlp 词频统计_10.HanLP实现k均值--文本聚类

    AI 人工智能 10.HanLP实现k均值--文本聚类 10. 文本聚类 正所谓物以类聚,人以群分.人们在获取数据时需要整理,将相似的数据归档到一起,自动发现大量样本之间的相似性,这种根据相似性归档的 ...

  2. 基于词频的文本相似度

    基于词频的文本相似度 文本 分词 统计词频 词频向量 相似度计算 应用 项目源码: https://github.com/zhang2172268/mygit/tree/master/textSimi ...

  3. 统计csv词频_分词词频统计

    网上随便找段文字,就以Power BI官网上这段文字为例好了: 想要统计其中的词频,实现如下图的效果: 解法1:使用输入法词库 其中的难点无疑在分词了,中文不像英文可以按空格拆开分词,仅仅单靠Powe ...

  4. python——读取docx文档wordcloud生成词云并进行词频统计

    文章目录 环境准备 导入库 读取docx并进行分词 词频 词云 设置背景图片(可选) 生成词云 保存词云并显示 环境准备 # 不是docx,是python-docx!!!!!!! pip instal ...

  5. 【编译原理】Python实现对一个英文文本的词频统计

    利用Python实现对一个英文文本的词频统计.文本链接:https://www.philippinetimes.com/news/257886068/australia-blocks-chinese- ...

  6. 一文揭秘阿里实时计算Blink核心技术:如何做到唯快不破?

    阿里妹导读:本文主要讲解阿里巴巴实时大数据和相关的机器学习技术,以及这些技术如何实现大数据升级,最终取得卓越的双11战果. 分享嘉宾 大沙,阿里巴巴高级技术专家,负责实时计算Flink SQL,之前在 ...

  7. 文本数据处理的终极指南-[NLP入门]

    上海站 | 高性能计算之GPU CUDA培训 4月13-15日 三天密集式学习  快速带你晋级 阅读全文 > 正文共10202个字,13张图,预计阅读时间26分钟. 简介 实现任何程度或者级别的 ...

  8. 详解CNN实现中文文本分类过程

    摘要:本文主要讲解CNN实现中文文本分类的过程,并与贝叶斯.决策树.逻辑回归.随机森林.KNN.SVM等分类算法进行对比. 本文分享自华为云社区<[Python人工智能] 二十一.Word2Ve ...

  9. 【Elasticsearch】Elasticsearch中的相似度评分介绍

    1.概述 转载:Elasticsearch中的相似度评分介绍 本文要点 相关性得分是一个搜索引擎的核心,了解它的工作原理对创建一个好的搜索引擎至关重要. Elasticsearch 使用了两种相似度评 ...

  10. 自然语言处理TF-IDF关键词提取算法

    1.关键词提取简介 关键词是指能反映文本主题或者主要内容的词语.关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来,是NLP领域的一个重要的子任务.在信息检索中,准确的关键词提取可以大幅提 ...

最新文章

  1. UVA1327 King‘s Quest(强连通分量、给王子们匹配公主系列 - 1 )
  2. css样式IE8强制兼容IE7
  3. hdu-5900 QSC and Master(区间dp)
  4. .NET Core开发实战(第22课:异常处理中间件:区分真异常与逻辑异常)--学习笔记(下)...
  5. python转换函数使用_Python Socket模块中的IP转换函数
  6. 企业到底需要什么样的飞鸽传书
  7. sicktim571操作手册_TIM中文操作手册.PDF
  8. Iperf性能测试的问题小结
  9. iOS已发布应用中对异常信息捕获和处理(转)
  10. android nfc读写cpu卡,react-native调用nfc读写cpu卡、m1卡-android篇
  11. 踩坑内核参数tcp_tw_recycle
  12. 快速文本分类(FastText)
  13. 河北工业大学城市学院2019级 Java企业级系统管理期末复习资料
  14. react 中 ref 管理列表
  15. Lattice Mico8在LMS创建一个工程和创建LED程序
  16. MySQL OCP报考流程
  17. 密探独家 | 访谈李开复:这三个行业会最先被 AI 颠覆
  18. Linux程序设计 读笔2 Shell脚本
  19. 大学自习室简易抢座小程序
  20. SCAU 计算智能 18290 校赛排名2

热门文章

  1. 第二章 Dubbo框架
  2. 【no-descending-specificity】问题
  3. Home Barbering Grows In Recession, With Hairy Results
  4. echarts中中国地图飞机路线使用
  5. 软件企业出口退税计算机题,出口退税计算题解析
  6. 获取classpath(src/main/resources)的绝对路径
  7. laravel8的 Migration、Factory、Seeder
  8. 电脑上找不到蓝牙图标,怎么打开蓝牙,三种方法教你打开蓝牙。
  9. linux curl证书错误,curl – SSL证书错误
  10. PAT备考经验相关信息