构建停用词表

构建停用词表是数据预处理的必要步骤,可以减小不必要的开销。

哈工大、百度、川大等停用词表见GitHub链接:https://github.com/goto456/stopwords

经实验和观察证明,’cn_stopwords.txt‘文件的停用词大多是否定词:不、不是、不得,转折词:就算、即使、但是等,这些词如果作为停用词去除的话,会改变原意。
比如:

  1. 我 不 喜欢 你 => 我 喜欢 你
  2. 就算他很坏,我也喜欢他 => 他 很坏 我 喜欢 他
  3. 他很坏,但是我喜欢他 => 他 很坏 我 喜欢 他

对于2,3,DL会认为前面是negative,后面是positive,实际上整句是positive,这样会影响网络的学习,尤其是CNN,只能提取短距离特征,‘他很坏’很大概率会被误认为是positive,进而影响后续的学习;如果保留‘就算’,那么‘就算他很坏’会被认为是positive,这是合理的,因为重点在于后半句。
因此,不考虑’cn_stopwords.txt‘作为停用词。
用python将三个词表合并、去重、写入txt:

import os# 输入你要读取的目录
path='.\stopwords-master'
files = os.listdir(path)
print(files)
stopwords = []
for file in files:if file[-3:] == 'txt': # 也可以是md,xsl等# 逐行读取,然后再数组拼接;这里不能用append,append会将数组当成一个对象接在stopwords之后:[1,2,3,[1,2,3]]stopwords += ( [line.strip() for line in open(path+'\\'+file,encoding='UTF-8').readlines()] )
# 去重
stopwords = list(set(stopwords))
print(len(stopwords))
# 保存在Stopwords.txt
with open(path+'\\'+'StopWords.txt', 'w',encoding='utf-8') as f:for stopword in stopwords:f.write(stopword+"\n")

此外,人工筛选了一些我认为会影响分类结果的停用词,剩余1545个停用词。
百度云:https://pan.baidu.com/s/1M7gcSs_MGFlevMB8wRhUlw
提取码:qg4p

【python】构建停用词表(文末附链接)相关推荐

  1. Python网络爬虫与信息提取笔记(续篇)(文末附教学视频)只供教学讲解,请勿对有robots协议的网站(如淘宝网)造成骚扰

    接上篇博客:Python网络爬虫与信息提取笔记(文末附教学视频) 14:基于bs4库的HTML内容遍历方法 标签树的下行遍历: 用len(soup.body.contents)返回body标签的儿子节 ...

  2. python程序员专用壁纸_程序员炫技必备:用Python生成马赛克画!(文末附源码)...

    原标题:程序员炫技必备:用Python生成马赛克画!(文末附源码) 源 | Python与数据分析文 | 强哥 大家知道马赛克画是什么吗?不是动作片里的马赛克哦~~ 马赛克画是一张由小图拼成的大图,本 ...

  3. 80行代码自己动手写一个表格拆分与合并小工具(文末附工具下载)

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 瑶池阿母绮窗开,黄竹歌声动地哀. ...

  4. 亲身经历告诉你,学好英语的正确姿势(文末附自建英语学习网站)

    亲身经历告诉你,学好英语的正确姿势(文末附自建英语学习网站) 为什么要学英语? 你学英语的契机是什么? 缺乏坚持的动力怎么办? 为什么学了好多年英语收效甚微? 如何学好英语? 如何快速构建知识体系? ...

  5. UIautomator2:APP自动化测试方法与小技巧记录(文末附实用APP测试脚本编写模板)

    uiautomator2是一个python的用来自动化操作手机的库,可用于APP自动化测试.就笔者的使用体验,比appuim更稳定.易用.本文以大家最常用的APP:微信为例子,记录uiautomato ...

  6. @autowired注解_品Spring:对@Autowired和@Value注解的处理方法(文末附spring系列资源合集)...

    作者:编程新说李新杰 出自:微信公众号"编程新说" 原文:品Spring:对@Autowired和@Value注解的处理方法 在Spring中能够完成依赖注入的注解有JavaSE提 ...

  7. MATLAB实战系列(十九)-遗传算法解决TSP(旅行商)问题-应用及解析(文末附MATLAB源码)

    接上篇MATLAB实战系列(十八)-遗传算法解决TSP(旅行商)问题-算法原理 https://wenyusuran.blog.csdn.net/article/details/114060030 感 ...

  8. 【干货分享】企业数据中台整体介绍及建设方案(文末附52页pdf下载链接)

    话不多说,直接上干货,文末附52页pdf文档下载链接. 更多细节请关注公众号并回复"1113",获取下载链接. 「 更多干货,更多收获 」 推荐系统系列教程之十二:Facebook ...

  9. 数据仓库指北(文末附PDF下载)

    文章开头介绍下,这篇文章的第一部分Q&A环节,主要来源于日常工作沉淀,于是决定抽空写篇原创博文来做技术分享,有技术问题均可在大数据阶梯之路技术交流群互相讨论,加我微信拉你进群.公众号持续加成输 ...

最新文章

  1. C++ Primer 5th笔记(chap 14 重载运算和类型转换)标准库函数对象
  2. MyEclipse/Eclipse快捷键调试大全
  3. Docker 容器从入门到Devops实践
  4. maven项目创建过慢解决
  5. dcnctf-web-wp(部分)
  6. php必须掌握的库,PHP初學者必須掌握的10個知識點
  7. eclipse集成maven插件
  8. JUnit 5 –下一代JUnit的初步了解
  9. apache-ab并发负载压力测试(转)
  10. TIOBE 6 月编程语言排行榜:Perl 成为 Python 过分炒作的牺牲品?
  11. BSN联盟链专有节点服务介绍
  12. 工资计算系统设计实现
  13. 中级软件测试技能,中级软件测试工程师的职责描述精选
  14. 腾讯云COS云存储入门(一)
  15. html爆炸动画效果,基于CSS3和GSAP的超酷盒子爆炸动画特效
  16. ps无缝拼图教程一:无缝拼接花纹图案
  17. 新版iTunes如何设置手机铃声
  18. 获取ftp服务器文件,ftp获取服务器文件
  19. python爬取腾讯新闻统计数据——新型冠状病毒引发肺炎实况(selenium实现)
  20. Android远程真机调试(电脑使用 Vysor 控制手机)

热门文章

  1. 03前端学习之CSS3(2)
  2. 极米Play2、哈趣K1Pro、坚果P3S和当贝C2区别对比评测
  3. 口碑最好的虚拟主机服务商
  4. Java实现 LeetCode 799 香槟塔 (暴力模拟)
  5. 面试高级Java面试题
  6. python实现ocr识别算法_基于Python的OCR实现示例
  7. 个人感兴趣的硬件清单(佛系更新中……)
  8. 凡客“怒放体”走红,汪峰会不会很“嫉妒”?
  9. 基本数据类型包装类、包装类的用途
  10. @WebServlet需要引入的依赖包