英文文本分词之工具NLTK
英文文本分词之工具NLTK
- 安装NLTK
- 停用词和标点符号包放置
- 验证
安装NLTK
pip install nltk
分词需要用到两个包:stopwords
和punkt
,需要下载:
import nltknltk.download('stopwords')
nltk.download('punkt')
如果你能运行成功,那么恭喜,但多半要和我一样,被墙,然后下载失败。于是乎,需要手动下载,这里我已经打包好了,百度提取即可。
链接:https://pan.baidu.com/s/1ddVRG86W-dyk2O6TsIMXAw
提取码:nltk
此处也是要感激广大网友的无私分享和帮助!!!
停用词和标点符号包放置
言归正传,下载解压后要注意,stopwords里面还有个stopwords文件,punkt文件里面还有个punkt文件,我们需要的是里面的这两个文件,而不是最外围的同名文件,虽然包含的内容一样,但是python读取的时候路径会出错。将里面
的stopwords
和punkt
文件夹分别移动到python安装目录下的两个子路径中,比如我的路径是F:\python38\Lib\nltk_data\corpora
和F:\python38\Lib\nltk_data\tokenizers
。需要说明的是,我的F:\python38\Lib
路径下并没有nltk_data
这个文件,没有?没有就让他有!新建文件夹,重命名即可。
然后在nltk_data
中再新建两个文件夹:corpora
和tokenizers
。然后把停用词和标点分别移动到这两个文件里即可,亦即:corpora\stopwords
和tokenizers\punkt
。
验证
此处提供一段验证代码,明日开始nltk分词之旅!
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwordspunctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']
data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy."
words = word_tokenize(data)
words = [word for word in words if word not in punctuations] # 去除标点符号
stopWords = set(stopwords.words('english'))
wordsFiltered = []for w in words:if w not in stopWords:wordsFiltered.append(w)print(wordsFiltered)
完结,可以愉快地听歌了。
英文文本分词之工具NLTK相关推荐
- 英文文本分词处理(NLTK)
文章目录 1.NLTK的安装 2.NLTK分词和分句 3.NLTK分词后去除标点符号 4.NLTK分词后去除停用词 5.NLTK分词后进行词性标注 6.NLTK分词后进行词干提取 7.NLTK分词后进 ...
- 【Python】英文文本分词与词频统计(split()函数、re库)
英文文本分词 1.知识准备 (1)Python中的split()函数的用法 了解split()的基本用法 (2)python多个分割符split字符串 了解re库的部分用法 Python strip( ...
- python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例
在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了.英文语料由于其本身存在空格符所以无需跟中文语料同样处 ...
- Python英文文本分词(无空格)模块wordninja的使用实例
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- 英文文本关键词抽取——使用NLTK进行关键词抽取
记录一下代码: """ __author__:shuangrui Guo __description__: """ import sys i ...
- 数据处理之文本分词、MMSEG分词工具、斯坦福NLTK分词工具
一. 文本分词概述 二. 中文分词算法分类 三. MMSEG分词工具 四. 斯坦福NLTK分词工具 1 CRF方法实例 一. 文本分词概述 文本分词是将字符串文本划分为有意义的单位的过程,如词语.句子 ...
- python 英语分词_基于Python NLTK库进行英文文本预处理
文本预处理是要文本处理成计算机能识别的格式,是文本分类.文本可视化.文本分析等研究的重要步骤.具体流程包括文本分词.去除停用词.词干抽取(词形还原).文本向量表征.特征选择等步骤,以消除脏数据对挖掘分 ...
- NLP实现文本分词+在线词云实现工具
实现文本分词+在线词云实现工具 词云是NLP中比较简单而且效果较好的一种表达方式,说到可视化,R语言当仍不让,可见R语言︱文本挖掘--词云wordcloud2包 当然用代码写词云还是比较费劲的,网上也 ...
- Java代码工具之中英文语句分词
在自然语言处理中比较热门的操作就是中文或英文语句分词了,分词就是按照不同的算法和参数将语句分成若干词汇.拆分后的关键词可以进行词频统计或者词云图片生成等,能够快速方便的找到语句的核心主题热点. 在ja ...
最新文章
- 《Java 开发从入门到精通》—— 2.2 编写第一段Java程序
- 深度分析蔡徐坤的百万流量数据,揭底哪些是假的!
- GRPC golang版源码分析之客户端(二)
- 前端开发学习二——由JSON和Object Literal Notation引起的思考
- java for循环排序_java编程问题。用两个for循环来把输入的整数从小到大排序。
- 解决 Xcode10 编译错误 ld: library not found for -lstdc++6.0.9
- Delphi format的用法
- OpenSSL签发证书时编码UTF8STRING PRINTABLESTRING不匹配
- VS2010主题设置及插件推荐
- java6打印机不能用_高分求解:java中调用的打印机在什么情况下不可用?
- python 新建文件 hdfs_python基础操作以及hdfs操作
- mysql5.7.14_mysql 5.7.14 下载安装配置方法图文教程
- 面向对象随笔(super关键字)
- 配置环境变量OpenJDK和OracleJDK区别
- matlab中if语句中的结果返回,matlab中if 语句后面的判别式不能是算术表达式?或者说变量?...
- 为什么说DeFi将催生银行业杀手级应用?
- Endnote安装出现Internal error 2503解决办法
- Kafka之与Spring集成
- 拼多多和酷家乐面试经历总结(已拿offer)
- R语言 循环 步长 写法
热门文章
- 基于CNN的Landsat 8全色与多光谱图像融合的泛锐化方法
- 视频:说话的艺术-与斯科特·汉塞尔曼(Scott Hanselman)
- win7开机登录界面的壁纸怎样更换修改
- oracle 误删 log文件,Redo log文件被删除恢复
- Redis学习(1)——下载与配置[转]
- JavaScript自定义tirm方法
- 图像暗角阴影去除算法
- try..catch捕获不到空指针等异常的问题
- 数据分析师岗位热招!你也有希望进大厂~
- [论文阅读笔记]Aladdin: Optimized Maximum Flow Management for Shared Production Clusters