文章简介与更新记录

如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件2017/07/04 创建文章,上传文件

2017/07/04 更新了合并代码,添加了新的中文停用词表(哈工大扩展版本)和一个新的停用词表,现在最全的中文停用词表为1927,添加了英文和中英文停用词表英文停用词词表为1199

停用词

在进行汉语自然语言处理时候,分词是必不可少的环节,但是在实际的自然语言中,有很多的非实意词语或者其他并没有实际作用的词语,这些词语我们必须在分词环节后进行过滤—这个环节也就是过滤停用词.不过想要获得好的分词效果,必须首先进行比较好的分词处理.这一点也是十分重要的.

python合并中文停用词词表的代码

# - * - coding: utf - 8 -*-

#

# 作者:田丰(FontTian)

# 创建时间:'2017/7/4'

# 邮箱:fonttian@Gmaill.com

# CSDN:http://blog.csdn.net/fontthrone

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

# 获取停用词的List

def GetListOfStopWords(filepath):

f_stop = open(filepath)

try:

f_stop_text = f_stop.read()

f_stop_text = unicode(f_stop_text, 'utf-8')

finally:

f_stop.close()

f_stop_seg_list = f_stop_text.split('\n')

return f_stop_seg_list

# 保存List

def SaveFile(list, filename):

f_stop = open(filename, 'w')

for item in range(len(list)):

if item != len(list):

f_stop.writelines((list[item].encode('utf-8')) + '\n')

else:

f_stop.writelines(list[item].encode('utf-8'))

f_stop.close()

# 求List并集

def GetListUnion(listName):

ListUnion = ['!']

for item in listName:

# print item

ListUnion.extend(GetListOfStopWords(item))

return list(set(ListUnion))

def GetStopWords(listOfFileName, FileName='CNstopwords.txt', keynumber=1):

stopwords_pathCN = 'CNstopwords.txt' # 默认中文总表 1

stopwords_pathEN = 'ENstopwords.txt' # 默认英文总表 2

stopwords_pathCNEN = 'CNENstopwords.txt' # 默认中英文混合总表 4

if keynumber == 1:

listOfFileName.append(stopwords_pathCN)

elif keynumber == 2:

listOfFileName.append(stopwords_pathEN)

elif keynumber == 3:

listOfFileName.append(stopwords_pathCN)

listOfFileName.append(stopwords_pathEN)

elif keynumber == 5:

listOfFileName.append(stopwords_pathCN)

listOfFileName.append(stopwords_pathCNEN)

elif keynumber == 6:

listOfFileName.append(stopwords_pathEN)

listOfFileName.append(stopwords_pathCNEN)

elif keynumber == 7:

listOfFileName.append(stopwords_pathCN)

listOfFileName.append(stopwords_pathEN)

listOfFileName.append(stopwords_pathCNEN)

else:

listOfFileName.append(stopwords_pathCN)

print 'The keynumber is wrong,chage keynumber to 1 '

listOfFileName.append(stopwords_pathCNEN)

ListUnion = GetListUnion(listOfFileName)

SaveFile(ListUnion, FileName)

'''

stopwords_pathCN = 'CNstopwords.txt' # 默认中文总表 1

stopwords_pathEN = 'CNstopwords.txt' # 默认英文总表 2

stopwords_pathCNEN = 'CNstopwords.txt' # 默认中英文混合总表 4

'''

listOfFileName = []

# 需要添加的 中文 停用词词表

stopwords_path1 = 'stopwords1893.txt'

stopwords_path2 = 'stopwords1229.txt'

stopwords_path3 = 'stopwordshagongdakuozhan.txt'

stopwords_path4 = 'stop_words_zh.txt'

# 需要添加的 英文 停用词词表

stopwords_path5 = 'stop_words_eng.txt'

stopwords_path6 = 'ENstopwords891.txt'

# 需要添加的 中文 停用词词表路径

# listOfFileName.append(stopwords_path1)

# listOfFileName.append(stopwords_path2)

# listOfFileName.append(stopwords_path3)

# listOfFileName.append(stopwords_path4)

# 需要添加的 英文 停用词词表路径

listOfFileName.append(stopwords_path5)

listOfFileName.append(stopwords_path6)

GetStopWords(listOfFileName, FileName='ENstopwords.txt', keynumber=2)

百度云下载所有文件

python停用词表_多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序...相关推荐

  1. python 分词工具对比_五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

    最近玩公众号会话停不下来: 玩转腾讯词向量:Game of Words(词语的加减游戏) ,准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公 ...

  2. python多目标优化_多目标优化算法(四)NSGA3(NSGAIII)论文复现以及matlab和python的代码...

    前言:最近太忙,这个系列已经很久没有更新了,本次就更新一个Deb大神的NSGA2的"升级版"算法NSGA3.因为multi-objective optimization已经被做烂了 ...

  3. 程序语言python的优化版_从20秒到0.5秒:一个使用Rust语言来优化Python性能的案例...

    Sentry 是一个帮助在线业务进行监控及错误分析的云服务,它每月处理超过十亿次错误.我们已经能够扩展我们的大多数系统,但在过去几个月,Python 写的 source map 处理程序已经成为我们性 ...

  4. python怎么自动抢红包_抢红包,我还真没落下过!每个都抢得到!用Python实现自动抢红包...

    原标题:抢红包,我还真没落下过!每个都抢得到!用Python实现自动抢红包 前言 曾经有一份很大的红包,摆在我的面前,我没有好好珍惜,如果上天再给我一次机会,我会对发红包的人说三个字:再来个! 今天小 ...

  5. python怎么找资源_查找目标文件太慢了,用好搜索引擎,让你比Python找资源更快捷...

    很多人听到Python编程语言时,都是它大名鼎鼎的"网络爬虫"名号,一个厉害的Python高手,可以在互联网中找到很多他需要的资源数据.其实Python的"爬虫" ...

  6. python执行变量次_当脚本再次执行时需要一个变量来保留它的值(Python)

    目前我正在开发tweepy,我需要将tweet id存储在一个变量中,并希望它在脚本再次运行时保留该值.我知道我可以使用文件和数据库来实现这一点,但我想用环境变量来实现.寻找一个正确的方向.我已经使用 ...

  7. 代写python作业费用标准_代做159.272作业、代写Programming Paradigms作业、代做Python实验作业、代写Java/c++编程作业代写Database|代做R...

    代做159.272作业.代写Programming Paradigms作业.代做Python实验作业.代写Java/c++编程作业代写Database|代做RComputational Thinkin ...

  8. python read函数参数_最新Pandas.read_excel()全参数详解(案例实操,如何利用python导入excel)...

    pandas.read_excel()的作用:将Excel文件读取到pandas DataFrame中. 支持从本地文件系统或URL读取的xls,xlsx,xlsm,xlsb和odf文件扩展名. 支持 ...

  9. python批量分析表格_老板让我从几百个Excel中查找数据,我用Python一分钟搞定!...

    以下文章来源: 早起Python 作者:陈熹 大家好,又到了Python办公自动化系列. 今天分享一个真实的办公自动化需求,大家一定要仔细阅读需求说明,在理解需求之后即可体会Python的强大! 一. ...

  10. python安卓吾爱_【原创源码】 【无需第三方库】【支持签到 】 Python 吾爱挂机 无提示版...

    [Python] 纯文本查看 复制代码#!/usr/bin/env python # -*- coding: utf-8 -*- import time import urllib2 import s ...

最新文章

  1. 网络分流器-网络分流器IP网络路由交换测试技术探讨
  2. OPC向UNIX的演进(OPC evolution toward UNIX)
  3. 计算机专业可以用台式机吗,Win10X电脑操作系统可以装在台式机吗?
  4. QML创建C ++插件
  5. 论文浅尝 | Global Relation Embedding for Relation Extraction
  6. linux awk浅析(转)
  7. 机器学习基础(三十) —— 线性回归、正则化(regularized)线性回归、局部加权线性回归(LWLR)
  8. 关于SpringBoot和Thymeleaf模板中遇到的问题
  9. springboot 返回输出流_Spring Boot 静态资源处理,妙招
  10. matlab浮点转定点的函数,FPGA基础知识17(Matlab中滤波器的定点化 浮点运算转换为定点运算)...
  11. 432考研_贾俊平《统计学》第1章 导论思维导图
  12. Java设计模式—观察者模式
  13. Java基础Day04
  14. nar神经网络_动态神经网络(NAR)做预测
  15. 关于时间的SQL条件查询
  16. 论穷举法破解0到6位数登录密码的可行性
  17. 计算机基础知识是一级吗,计算机二级和初级的区别 初级是一级吗
  18. docker教程(简介)
  19. bistu新生-1004
  20. 实验31:温湿度传感器实验

热门文章

  1. Vue3---安装Element-Plus组件库
  2. oracle中sga的合理设置,oracle学习:SGA_MAX_SIZE参数设置
  3. linux环境下企业基于域名访问的web于电子邮件服务器 论文,基于Linux平台的企业邮件服务器搭建...
  4. java 发送16进制数据'_java 16进制数据递增
  5. java访问其它服务器,一个Java Web应用程序是否可以在tomcat服务器的同一本地主机中调用另一个Java Web应用程序...
  6. 发动机压缩比怎么计算公式_怎么判断发动机有积碳,发动机积碳多的症状有哪些...
  7. BugkuCTF-Reverse题特殊的Base64
  8. 算法代码中的循环矩阵在哪体现_「Machine Learning 学习小结」| 向量在梯度下降算法当中的应用...
  9. 快钱接口php,快钱支付接口
  10. 属性值动态调整_这可能是你见过最牛的CAD粗糙度动态块了!