python停用词表_多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序...
文章简介与更新记录
如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件2017/07/04 创建文章,上传文件
2017/07/04 更新了合并代码,添加了新的中文停用词表(哈工大扩展版本)和一个新的停用词表,现在最全的中文停用词表为1927,添加了英文和中英文停用词表英文停用词词表为1199
停用词
在进行汉语自然语言处理时候,分词是必不可少的环节,但是在实际的自然语言中,有很多的非实意词语或者其他并没有实际作用的词语,这些词语我们必须在分词环节后进行过滤—这个环节也就是过滤停用词.不过想要获得好的分词效果,必须首先进行比较好的分词处理.这一点也是十分重要的.
python合并中文停用词词表的代码
# - * - coding: utf - 8 -*-
#
# 作者:田丰(FontTian)
# 创建时间:'2017/7/4'
# 邮箱:fonttian@Gmaill.com
# CSDN:http://blog.csdn.net/fontthrone
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# 获取停用词的List
def GetListOfStopWords(filepath):
f_stop = open(filepath)
try:
f_stop_text = f_stop.read()
f_stop_text = unicode(f_stop_text, 'utf-8')
finally:
f_stop.close()
f_stop_seg_list = f_stop_text.split('\n')
return f_stop_seg_list
# 保存List
def SaveFile(list, filename):
f_stop = open(filename, 'w')
for item in range(len(list)):
if item != len(list):
f_stop.writelines((list[item].encode('utf-8')) + '\n')
else:
f_stop.writelines(list[item].encode('utf-8'))
f_stop.close()
# 求List并集
def GetListUnion(listName):
ListUnion = ['!']
for item in listName:
# print item
ListUnion.extend(GetListOfStopWords(item))
return list(set(ListUnion))
def GetStopWords(listOfFileName, FileName='CNstopwords.txt', keynumber=1):
stopwords_pathCN = 'CNstopwords.txt' # 默认中文总表 1
stopwords_pathEN = 'ENstopwords.txt' # 默认英文总表 2
stopwords_pathCNEN = 'CNENstopwords.txt' # 默认中英文混合总表 4
if keynumber == 1:
listOfFileName.append(stopwords_pathCN)
elif keynumber == 2:
listOfFileName.append(stopwords_pathEN)
elif keynumber == 3:
listOfFileName.append(stopwords_pathCN)
listOfFileName.append(stopwords_pathEN)
elif keynumber == 5:
listOfFileName.append(stopwords_pathCN)
listOfFileName.append(stopwords_pathCNEN)
elif keynumber == 6:
listOfFileName.append(stopwords_pathEN)
listOfFileName.append(stopwords_pathCNEN)
elif keynumber == 7:
listOfFileName.append(stopwords_pathCN)
listOfFileName.append(stopwords_pathEN)
listOfFileName.append(stopwords_pathCNEN)
else:
listOfFileName.append(stopwords_pathCN)
print 'The keynumber is wrong,chage keynumber to 1 '
listOfFileName.append(stopwords_pathCNEN)
ListUnion = GetListUnion(listOfFileName)
SaveFile(ListUnion, FileName)
'''
stopwords_pathCN = 'CNstopwords.txt' # 默认中文总表 1
stopwords_pathEN = 'CNstopwords.txt' # 默认英文总表 2
stopwords_pathCNEN = 'CNstopwords.txt' # 默认中英文混合总表 4
'''
listOfFileName = []
# 需要添加的 中文 停用词词表
stopwords_path1 = 'stopwords1893.txt'
stopwords_path2 = 'stopwords1229.txt'
stopwords_path3 = 'stopwordshagongdakuozhan.txt'
stopwords_path4 = 'stop_words_zh.txt'
# 需要添加的 英文 停用词词表
stopwords_path5 = 'stop_words_eng.txt'
stopwords_path6 = 'ENstopwords891.txt'
# 需要添加的 中文 停用词词表路径
# listOfFileName.append(stopwords_path1)
# listOfFileName.append(stopwords_path2)
# listOfFileName.append(stopwords_path3)
# listOfFileName.append(stopwords_path4)
# 需要添加的 英文 停用词词表路径
listOfFileName.append(stopwords_path5)
listOfFileName.append(stopwords_path6)
GetStopWords(listOfFileName, FileName='ENstopwords.txt', keynumber=2)
百度云下载所有文件
python停用词表_多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序...相关推荐
- python 分词工具对比_五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP
最近玩公众号会话停不下来: 玩转腾讯词向量:Game of Words(词语的加减游戏) ,准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公 ...
- python多目标优化_多目标优化算法(四)NSGA3(NSGAIII)论文复现以及matlab和python的代码...
前言:最近太忙,这个系列已经很久没有更新了,本次就更新一个Deb大神的NSGA2的"升级版"算法NSGA3.因为multi-objective optimization已经被做烂了 ...
- 程序语言python的优化版_从20秒到0.5秒:一个使用Rust语言来优化Python性能的案例...
Sentry 是一个帮助在线业务进行监控及错误分析的云服务,它每月处理超过十亿次错误.我们已经能够扩展我们的大多数系统,但在过去几个月,Python 写的 source map 处理程序已经成为我们性 ...
- python怎么自动抢红包_抢红包,我还真没落下过!每个都抢得到!用Python实现自动抢红包...
原标题:抢红包,我还真没落下过!每个都抢得到!用Python实现自动抢红包 前言 曾经有一份很大的红包,摆在我的面前,我没有好好珍惜,如果上天再给我一次机会,我会对发红包的人说三个字:再来个! 今天小 ...
- python怎么找资源_查找目标文件太慢了,用好搜索引擎,让你比Python找资源更快捷...
很多人听到Python编程语言时,都是它大名鼎鼎的"网络爬虫"名号,一个厉害的Python高手,可以在互联网中找到很多他需要的资源数据.其实Python的"爬虫" ...
- python执行变量次_当脚本再次执行时需要一个变量来保留它的值(Python)
目前我正在开发tweepy,我需要将tweet id存储在一个变量中,并希望它在脚本再次运行时保留该值.我知道我可以使用文件和数据库来实现这一点,但我想用环境变量来实现.寻找一个正确的方向.我已经使用 ...
- 代写python作业费用标准_代做159.272作业、代写Programming Paradigms作业、代做Python实验作业、代写Java/c++编程作业代写Database|代做R...
代做159.272作业.代写Programming Paradigms作业.代做Python实验作业.代写Java/c++编程作业代写Database|代做RComputational Thinkin ...
- python read函数参数_最新Pandas.read_excel()全参数详解(案例实操,如何利用python导入excel)...
pandas.read_excel()的作用:将Excel文件读取到pandas DataFrame中. 支持从本地文件系统或URL读取的xls,xlsx,xlsm,xlsb和odf文件扩展名. 支持 ...
- python批量分析表格_老板让我从几百个Excel中查找数据,我用Python一分钟搞定!...
以下文章来源: 早起Python 作者:陈熹 大家好,又到了Python办公自动化系列. 今天分享一个真实的办公自动化需求,大家一定要仔细阅读需求说明,在理解需求之后即可体会Python的强大! 一. ...
- python安卓吾爱_【原创源码】 【无需第三方库】【支持签到 】 Python 吾爱挂机 无提示版...
[Python] 纯文本查看 复制代码#!/usr/bin/env python # -*- coding: utf-8 -*- import time import urllib2 import s ...
最新文章
- 网络分流器-网络分流器IP网络路由交换测试技术探讨
- OPC向UNIX的演进(OPC evolution toward UNIX)
- 计算机专业可以用台式机吗,Win10X电脑操作系统可以装在台式机吗?
- QML创建C ++插件
- 论文浅尝 | Global Relation Embedding for Relation Extraction
- linux awk浅析(转)
- 机器学习基础(三十) —— 线性回归、正则化(regularized)线性回归、局部加权线性回归(LWLR)
- 关于SpringBoot和Thymeleaf模板中遇到的问题
- springboot 返回输出流_Spring Boot 静态资源处理,妙招
- matlab浮点转定点的函数,FPGA基础知识17(Matlab中滤波器的定点化 浮点运算转换为定点运算)...
- 432考研_贾俊平《统计学》第1章 导论思维导图
- Java设计模式—观察者模式
- Java基础Day04
- nar神经网络_动态神经网络(NAR)做预测
- 关于时间的SQL条件查询
- 论穷举法破解0到6位数登录密码的可行性
- 计算机基础知识是一级吗,计算机二级和初级的区别 初级是一级吗
- docker教程(简介)
- bistu新生-1004
- 实验31:温湿度传感器实验
热门文章
- Vue3---安装Element-Plus组件库
- oracle中sga的合理设置,oracle学习:SGA_MAX_SIZE参数设置
- linux环境下企业基于域名访问的web于电子邮件服务器 论文,基于Linux平台的企业邮件服务器搭建...
- java 发送16进制数据'_java 16进制数据递增
- java访问其它服务器,一个Java Web应用程序是否可以在tomcat服务器的同一本地主机中调用另一个Java Web应用程序...
- 发动机压缩比怎么计算公式_怎么判断发动机有积碳,发动机积碳多的症状有哪些...
- BugkuCTF-Reverse题特殊的Base64
- 算法代码中的循环矩阵在哪体现_「Machine Learning 学习小结」| 向量在梯度下降算法当中的应用...
- 快钱接口php,快钱支付接口
- 属性值动态调整_这可能是你见过最牛的CAD粗糙度动态块了!