停用词表的修改

停用词表在“pyhanlp\static\data\dictionary”路径下的“stopwords.txt”文件中,CoreStopWordDictionary.apply方法支持去除停用词。如果需要修改停用词表,则直接编辑文件“stopwords.txt”,之后删除路径下的“stopwords.txt.bin”,运行CoreStopWordDictionary.apply后即可自动生效。有关验证的方法见“验证是否生效”小节。

自定义词语过滤方法

用户可以通过编写“pyhanlp\static”路径下的“MyFilter.java”文件设置自己的词语过滤方法。应当注意这里处理的语言单位是词语,而不是字。编辑完毕后需要编译该文件并生成字节码文件,之后运行CoreStopWordDictionary.apply方法时就会自动调用用户自己的词语过滤方法了。这里给出一个自定义过滤方法的编写示例代码。

import os

from pyhanlp.static import STATIC_ROOT, HANLP_JAR_PATH

java_code_path = os.path.join(STATIC_ROOT, 'MyFilter.java')

with open(java_code_path, 'w') as out:

java_code = """

import com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary;

import com.hankcs.hanlp.dictionary.stopword.Filter;

import com.hankcs.hanlp.seg.common.Term;

public class MyFilter implements Filter

{

public boolean shouldInclude(Term term)

{

if (term.nature.startsWith('m')) return false; // 数词过滤

if (term.nature.startsWith('q')) return false; // 量词过滤

if (term.nature.startsWith('t')) return false; // 时间词过滤

if (term.nature.startsWith("w")) return false; // 过滤标点符号

return !CoreStopWordDictionary.contains(term.word); // 停用词过滤

}

}

"""

out.write(java_code)

os.system('javac -cp {} {} -d {}'.format(HANLP_JAR_PATH, java_code_path, STATIC_ROOT))

验证是否生效

本节给出停用词表修改后以及使用了自定义词语过滤方法的示例代码。

from pyhanlp import *

# 加载停用词类

CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary")

# 加载自定义词语过滤逻辑

MyFilter = JClass('MyFilter')

CoreStopWordDictionary.FILTER = MyFilter()

term_list = HanLP.segment(text)

CoreStopWordDictionary.apply(term_list)

HanLP-停用词表的使用示例相关推荐

  1. python停用词表_多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序...

    文章简介与更新记录 如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件2017/07/04 创建文章,上传文件 201 ...

  2. 使用pickle模块打包停用词表,加快处理文本数据的速度

    参考博客:https://blog.csdn.net/brucewong0516/article/details/79055480 本地有一个停用词表eng_stop_words.txt文本,现在使用 ...

  3. 2750个通用停用词表整理,免费下载

    中文停用词表下载 一共2750个停用词,属于通用停用词表. 下载地址: 链接:https://pan.baidu.com/s/1u-Ob86VGVSk3vhnwf2S29w 提取码:aoj4 停用词表 ...

  4. 中文常用停用词表(哈工大停用词表、百度停用词表

    中文常用停用词表(哈工大停用词表.百度停用词表等:https://github.com/goto456/stopwords

  5. stop word理解及超全的停用词表

    停用词过滤,是文本分析中一个预处理方法.它的功能是过滤分词结果中的噪声(例如:的.是.啊等) 停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某 ...

  6. Python文本分析-常用中文停用词表(Chinese Stop Words)

    在做jieba中文分词处理,进行文本分析,必不可少的停用词处理,国内比较常用的中文停用词库,有以下几个: 中文停用词表 哈工大停用词表 百度停用词表 四川大学机器智能实验室停用词库 而@elephan ...

  7. stopwords.txt中英文数据集,四川大学机器智能实验室停用词库,哈工大停用词表,中文停用词表,百度停用词表百度网盘下载

    今天找stopwords.txt数据集找了好长时间,真是气死了,好多都是需要金币,这数据集不是应该共享的么.故搜集了一些数据集,主要包括四川大学机器智能实验室停用词库,哈工大停用词表,中文停用词表,百 ...

  8. NLP算法-关键词提取补充知识-停用词表

    引入 书接上回,我们讲这个关键词提取的时候没有说停用词: 那啥是停用词呢?当一个词语出现频率很高但是这个词并不是你所需要的信息,这个时候就会用到停用词表这个概念 什么是停用词表? 停用词是指在信息检索 ...

  9. 最新整理停用词表(中文)

    停用词表(中文) ! " $ % & ' ( ) * + , –...---------../.一.数.日///0123456789 :// :: ; < ? @ A Lex ...

最新文章

  1. 皮一皮:老外这是人傻钱多啊...
  2. LCD正向扫描和反向扫描
  3. 在sublime text3中利用markdown
  4. PHP 小数点保留两位【转】
  5. T-SQL删除存储过程
  6. hspice linux 软件,Hspice 200803 linux安装(亲测可行)
  7. html自动弹图片,JS自动适应的图片弹窗实例
  8. 利用pyecharts绘制雷达图的案例(含参数解释)
  9. Thrift与其他传输方式的比较
  10. Python 基础 函数的使用——参数
  11. wifi文件服务器地址,wifi是服务器地址
  12. 移动办公模式下的业务 微易聊微信管理系统作用显著!
  13. CMDN Club #23 开放平台和O2O移动产品开发
  14. SitePoint Podcast#181:解决比创建更多的问题
  15. 电子标签读取异常怎么办
  16. SpringBoot Validation 快速失败(failFast)
  17. 那些有趣的网站系列(十)
  18. 用计算机弹钢琴谱,flash用键盘弹钢琴,电脑钢琴谱-走啦网
  19. python-清华大学镜像源
  20. 『运筹OR帷幄』CSDN官方账号正式上线啦| 运筹学/优化理论/人工智能/数据科学的学习交流社区

热门文章

  1. 人工智能 清览作业1
  2. npm install 出错read ECONNRESET
  3. 优思学院|怎么把DPMO/不良率换算成六西格玛水平?
  4. 成本函数/代价函数、损失函数、目标函数
  5. Matplotlib散点图、条形图、直方图-02
  6. 软件测试也逃不过“35岁危机”?
  7. OpenCV中角点检测:Harris、Shi-Tomasi、亚像素级角点检测
  8. 软件测试(进阶篇2)
  9. ES6中let的用法及一个小案例,在for循环中运行setTimeout的四种情况:
  10. Qt开发 — 图片缩放简述