以下是我对几十篇新华网的一个统计选择为appearCount>50 and possible>04 and possible<0.6

大概意思就是词频每篇一个,与文章的分类没什么影响的词。0.4与0.6是2分类的设置。

,    0.534606551921961      ,    w    1880
上 0.505789204468509      上 m    72
将 0.416122543377473      将 d     95
。 0.438038597619069      。 w    837
这 0.449684305887076      这 r      59
和 0.442210167735838      和 c     182
的 0.451497216703526      的 u     1114
新 0.514251730201348      新 a      49
是 0.536917840971011      是 v     249
目前 0.59181281716802 目前 t      51
与 0.480778076503969      与 p     72
还 0.586413572711937      还 d     63
了 0.544980393674803      了 u     204
有 0.52915586479371 有 v     129
多 0.515804441336147      多 m    71
也 0.442874228869804      也 d     78
年 0.476848076889714      年 q     54
都 0.476848076889714      都 d     54
个 0.446178648393815      个 q     88
并 0.459790531520973      并 c     52
不 0.579272271153612      不 d     130
后 0.56452484035225 后 f      48
一 0.524513271289974      一 m    145
问题 0.44237952587004 问题 n     47
进行 0.475353592837728      进行 v     52
社会 0.557587257495806      社会 n     49
但 0.519296679472669      但 c     52
停止词(应该删除词)在搜索引擎中一般是过滤的。基本上对结果没有影响。
目的是为了提高检索效率和节省空间。

停止词(stop words)相关推荐

  1. 什么是停止词stopword

    停止词 本词条缺少概述图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧! 停止词,是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为 ...

  2. solr配置同义词,停止词,和扩展词库(IK分词器为例)

    定义 同义词:搜索结果里出现的同义词.如我们输入"还行",得到的结果包括同义词"还可以". 停止词:在搜索时不用出现在结果里的词.比如is .a .are .& ...

  3. python去除中文停用词_删除停止词Python

    你不需要在用户定义的函数中构造所有的代码,我不确定这背后是否有原因,但问题非常简单,在阅读完你的datafrme之后,可以用实际上2行代码简洁地解决.在import pandas as pd from ...

  4. 全文检索、数据挖掘、推荐引擎系列4---去除停止词添加同义词

    Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的,因此在一般的Lucene文档中,这一部分都不是重点,往往一带而过,但是对于要建立基于文本的内容推荐引擎来说,却是相当关键的一步,因此有 ...

  5. springboot基于Elasticsearch6.x版本进行ES同义词、停用词(停止词)插件配置,远程词典热加载及数据库词典热加载总结,es停用词热更新,es同义词热更新

    前言:ES版本差异较大,建议跨版本的同学,可以先了解一下版本区别,建议不要跨版本使用插件或者进行项目调试. 本总结主要基于6.x版本的6.5.1(6.2.2实测可用),分词器为IK,下载地址:http ...

  6. mysql全文索引与停止词

    #mysql全文索引与停止词/*1.全文索引(FULLTEXT INDEX) FULLTEXT索引仅可用于MyISAM表,不可用于INNODB表 2.全文索引在mysql的默认情况下,对于中文意义不大 ...

  7. ik与拼音分词器,拓展热词/停止词库

    说明:本篇文章讲述elasticsearch分词器插件的安装,热词库停止词库的拓展,文章后面提到elasticsearch ,都是以es简称. 以下分词器的安装以ik分词器和pinyin分词器为例说明 ...

  8. php返回当前字符串把所有敏感词变红,PHP 实现敏感词 / 停止词 过滤(附敏感词库)...

    敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.在实现敏感词过滤的算法中,我们必须要减少运算,而 DFA 在 DFA 算法中几乎没有什么计算,有的只是状态的转 ...

  9. solr之使用IKAnalyzer配置同义词,停止词,扩展词。

    环境如下: solr4.7 IKAnalyzer2012FF_u1 配置同义词 第一步 将IKAnalyzer2012FF_u1放到solr-4.7.2/example/solr-webapp/web ...

  10. 腾讯云docker下安装elasticsearch及IK分词器-扩展词-停止词Kibana

    1.拉取 docker pull elasticsearch:7.7.0 2.运行 docker run --name elasticsearch -d -e ES_JAVA_OPTS="- ...

最新文章

  1. 毕业设计:基于SSM实现新生报道系统
  2. Python一行代码实现快速排序
  3. Linux基本命令四(文件系统)
  4. FCKeditor 2.6 安装配置使用指南(asp)
  5. 聊聊Java的泛型及实现
  6. CF1039E-Summer Oenothera Exhibition【LCT,根号分治】
  7. Shell脚本——函数
  8. JavaScript:instanceof 实现原理
  9. Hibernate之集合映射
  10. a中嵌套div的问题
  11. 面试考知识点,吾亦很难通过
  12. 超像素池化弱监督语义分割
  13. Pytorch 基于ResNet-18的服饰识别(使用Fashion-MNIST数据集)
  14. 软件工程的标准定义:什么是软件工程?
  15. 难说 | 新读了几本书
  16. 如何获取篮球比赛即时赔率
  17. Occupancy Flow: 4D Reconstruction by Learning Particle Dynamics(2)
  18. 为你推荐一款高效的IO组件——okio
  19. 二叉树剪枝_二叉树遍历与剪枝
  20. 解决ORA-00020错误

热门文章

  1. 基于FPGA的XPT2046触摸控制器设计
  2. 关于安卓模拟器兼容的问题原因及解决方案
  3. [蜂群课堂]懒人精灵自动化进阶课程
  4. 强烈推荐!10个超赞的C语言开源项目
  5. DPDK-Hash(2)
  6. Linux---网络部分
  7. 最顶级的心理学家是如何看待我们的人生的?
  8. ubuntu下的截图软件Spectacle安装(替代KSnapshot)
  9. 订单编号生成方案研究
  10. 手机如何双声道录音_手机音量太小怎么办?教你一招就能解决,进来学学吧!...