本发明涉及一种综合词位置因素和词频因素的文本关键词权重计算方法,具体是涉及采用调和级数综合词位置因素和词频因素对词的权重进行计算,提高标题及首尾两段的词的权重,并且使得每个词随着词频增加,该词出现位置处的权重减小。

背景技术:

目前应用最广的关键词提取算法是向量空间模型。向量空间模型将文本表示成一个权值向量,向量中的每一项均由一个词组成,而每个词的权重由TFIDF方法确定。其中TFIDF方法用词权重公式计算一个词对于文集中的单篇文本的重要程度。TFIDF方法的词权重就是词频TF(Term Frequency)与逆文档频率IDF(Inverse Document Frequency)的乘积。TFIDF具体公式如下:TFIDFi=TFi×IDFi=TFi×log(N/ni),其中,TFi为词i的词频,即词i在文本中出现的次数;IDFi为词i的逆文档频率,它由log(N/ni)计算;N为文本集的文本总数;ni为文本集中包含词i的文本数。但是使用向量空间模型结合TFIDF方法对文本进行表示时,存在以下不足:

(1)向量空间模型把文本看成词的集合,把词与词之间的关系看成是独立的,这样就损失了文本段落结构体现出的信息。

(2)TFIDF方法在计算词频时,没有考虑它们所处位置因素对其权重的影响,而单独考虑出现次数或共现次数,并不足以表达其实际权重。

(3)TFIDF方法在计算词的逆文档频率时,需要依赖领域文本集,无法针对单篇的文本,而领域文集的质量和规模对于词权重计算及关键词抽取产生巨大影响。

技术实现要素:

本发明的目的在于针对现有的向量空间模型、TFIDF方法及TEXTRANK的不足,提供一种文本的关键词权重计算方法。该方法利用调和级数综合词位置因素和词频因素对词的权重进行综合计算,并且只针对单篇文本,无需文本的领域知识或领域文本集作为辅助,也无需迭代收敛过程。

为了达到上述的目的,本发明的构思如下:文本中每个词的权重是每次该词出现处的位置权重累加和。处于文本不同位置的同一个词的在每个位置处的权重不同,由该词出现的位置和该词已出现的次数共同决定。比如在标题中出现的词的权重最高,并且在文本中首尾两段总结概括性的句子中出现的词的权重应高于中间段落出现的词。因此本发明采用调和级数综合词位置因素和词频因素对词的权重进行计算,提高标题及首尾两段的词的权重,并且使得每个词随着词频增加,该词出现位置处的权重减小。

根据上述的发明思想,本发明采用下述技术方案:

一种综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于该方法的具体步骤如下:

a.将带计算的文本的段落进行重新组合形成新文本;

b.对步骤a所得新文本进行预处理,即进行分词和去除停用词,余下词作为候选关键词构建候选关键词矩阵;

c.利用调和级数综合词位置因素和词频因素计算步骤b所得的每个候选关键词的权重;

d.输出每个候选关键词对应的权重。

上述步骤a的具体步骤为:原文本的题目作为新文本的第一段;原文本首尾两段分别作为新文本的第二段和第三段;原文本的其他按照原顺序合并成一段,因此新文本共有4段。

上述步骤b的具体步骤为:将构建候选关键词矩阵记为A[i][j],记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段;j∈[1,n],j表示每个候选关键词,n为候选关键词的总数。

上述步骤c的具体步骤为:利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重,其计算公式如下:

其中,表示候选关键词j在前三段的权重,表示候选关键词j在第4段的权重。

本发明的文本关键词权重计算方法与现有的技术相比较,具有如下突出优点:在没有领域文本集,无法确定关键词在文本集中的区分能力的情况下,能够通过扫描单篇文本,用关键词的出现次数与出现位置来确定关键词的权重;使用出现次数和位置对关键词权重进行计算,简单且效果好;由于调和级数法中的对数是可扩展的数量级,因此能够兼具TFIDF的功能,而且比TFIDF更加简便。

附图说明

图1是本发明的一种文本的关键词权重计算方法的流程图。

具体实施方式

以下结合附图对本发明的实施例作进一步的说明。

本实施例以IEEE Transactions on Parallel and Distributed Systems期刊的文章《HRing:A Structured P2P Overlay Based on Harmonic Series》为例。如图1所示,一种文本的表示模型,其步骤如下:

S1.打开单篇文本,将其段落进行重新组合形成新文本。原文本的题目作为新文本的第一段;原文本的首尾两段分别作为新文本的第二段和第三段;原文本的其他按照原顺序合并成一段。因此新文本共有4段。

S2.对新文本进行预处理,包括分词和去除停用词,余下词作为候选关键词,构建候选关键词矩阵A[i][j]记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段。j∈[1,n]表示第j个候选关键词,n为候选关键词的总数。

S3.利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重为

其中,表示候选关键词j在前三段的权重,

表示候选关键词j在第4段的权重。

S4.输出每个候选关键词对应的权重B[j],j∈[1,n]表示第j个候选关键词,n为候选关键词的总数。

spss可以关键词词频分析吗_综合词位置因素和词频因素的文本关键词权重计算方法与流程...相关推荐

  1. spss可以关键词词频分析吗_怎么处理中文文本关键词提取和词频分布问题?

    对文章中的有效关键词进行分析,是内容推荐算法的核心.这种推荐主要是针对在文本中出现频率较高的词.但是在每篇文章中,往往出现次数最多是"的""是""在& ...

  2. 关键词热度分析工具_亚马逊卖家: 产品关键词挖掘分析必备工具!

    做亚马逊的应该都知道,亚马逊的大部分流量都是来自于产品关键词的搜索,一个好的关键词可以大大的提高你的产品曝光,促进成交,还可以节省时间和成本,是增加流量最好的一个方法. 无论你是发布产品,还是优化Li ...

  3. 关键词热度分析工具_干货分享丨关键词热度分析工具

    不论我们是做竞价还是做自然优化,都需要对关键词的热度进行一番细致的分析.选择了不合适的关键词,可能就会浪费大量的时间和金钱,关键词的重要性不言而喻. 好啦,大家肯定会悄悄吐槽:谁不知道选择合适的关键词 ...

  4. 关键词热度分析工具_谷歌SEO推广排名的关键要素(一)利用谷歌关键词分析工具分析关键词...

    大家好,我是谷歌鸿飞,到今年算起,从业谷歌SEO,已经十一个年头了.服务过的外贸企业也有几百家,接触和操作过外贸产品也有上千种.这么多的企业,这么多的产品,思绪万千,不知如何下笔. 回想一下整个的谷歌 ...

  5. spss可以关键词词频分析吗_一种有效的多关键词词频统计方法

    一种有效的多关键词词频统计方法 马志柔 ; 叶屹 [摘 要] 针对词频统计的特点 , 设计了一种多了多关键词的高效匹配 , 扫描一次文档 就可统计出全部关键词词频信息 . 通过理论分析与实验表明 , ...

  6. 关键词热度分析工具_阿里国际站外贸独立站关键词的收集

    很多朋友在做外贸独立站SEO和阿里巴巴国际站的时候,一定要查找收集一定数量的关键词,并且按照关键词的热度和词品相关性进行分类,从而为后面阿里巴巴国际站发布产品或者独立站谷歌推广打下坚实的基础.所谓磨刀 ...

  7. 关键词热度分析工具_独立站网站数据分析工具:Similarweb 找到竞争对手的关键词和流量来源!...

    ​ 没有关注我的小伙伴请先关注 今天小编来给大家讲一下大家最关心的独立站网站数据分析工具 独立站网站数据分析的作用: 对于独立站卖家来说,快速找到并分析自己的竞争对手,分析对手网站的流量数据.以及这些 ...

  8. 基于python的智能文本分析 豆瓣_长文干货 | 基于豆瓣影评数据的完整文本分析!...

    原标题:长文干货 | 基于豆瓣影评数据的完整文本分析! 作者:沂水寒城,CSDN博客专家,个人研究方向:机器学习.深度学习.NLP.CV Blog: http://yishuihancheng.blo ...

  9. python单词词频字典_用python实现词频分析+词云

    2020.05.13更新:大家点个赞再收藏吧(点赞后观看,养成好习惯)TAT 如你所见.文章标题图是以 周杰伦的百度百科 词条为分析文档,以 周杰伦超话第一的那张图+PPT删除背景底色 为词频背景进行 ...

最新文章

  1. 017_html图像
  2. 二.无显示器远程连接树莓派
  3. git 撤销修改以及删除文件(亲测最后一个删除后还原)
  4. 0708---oop学习--用户密码管理
  5. 输出26个英文字母c语言,菜鸟求助,写一个随机输出26个英文字母的程序
  6. go设置后端启动_Go语言基础(十四)
  7. DSO的记录模式Record Mode字段测试
  8. 蓝桥杯2013c++真题:排它平方数
  9. SpringBoot 一个依赖搞定 session 共享,没有比这更简单的方案了!
  10. Win 10 下载与安装 Oracle 12c 详细图解 与 Oracle 12c 卸载
  11. 阶段3 2.Spring_08.面向切面编程 AOP_5 切入点表达式的写法
  12. 【路径规划】基于matlab RRT算法求解机器人避障路径规划问题【含Matlab源码 319期】
  13. 计算机北大核心期刊排名2020,2017年版北京大学核心期刊目录4(第八版,2018~2020适用)...
  14. [渝粤教育] 九江学院 材料分析及测试技术 参考 资料
  15. PR字幕模板 简单大气红色创意图形动态字幕条全屏标题pr模板
  16. 这些题你hold住吗?
  17. 10、(十)外汇交易中专有名词整理
  18. 基于Android的数据传输wifi,基于ANDROID平台的WIFI文件传输系统的研究与实现
  19. 百度没有文化(转载)
  20. 【高德地图API】从零开始学高德JS API(一)地图展现——仙剑地图,麻点图,街景,室内图

热门文章

  1. Fidller 抓包工具-手机代理抓包
  2. HUAWEI(18)——VLAN mapping
  3. 三个月前第一星期一Oracle,ORACLE日期函数
  4. Mac nginx运行php文件 File not found.
  5. [转]对于WOW商业系统的回顾
  6. html转成pdf java,html转成pdf java
  7. 如何在CSDN写文章
  8. 宝塔面板和旗鱼云梯linux面板对比
  9. C语言printf格式化控制台移动光标
  10. Accclerate使用教程