英文文本分词之工具NLTK

  • 安装NLTK
  • 停用词和标点符号包放置
  • 验证

安装NLTK

pip install nltk

分词需要用到两个包:stopwordspunkt,需要下载:

import nltknltk.download('stopwords')
nltk.download('punkt')

如果你能运行成功,那么恭喜,但多半要和我一样,被墙,然后下载失败。于是乎,需要手动下载,这里我已经打包好了,百度提取即可。

链接:https://pan.baidu.com/s/1ddVRG86W-dyk2O6TsIMXAw
提取码:nltk

此处也是要感激广大网友的无私分享和帮助!!!

停用词和标点符号包放置

言归正传,下载解压后要注意,stopwords里面还有个stopwords文件,punkt文件里面还有个punkt文件,我们需要的是里面的这两个文件,而不是最外围的同名文件,虽然包含的内容一样,但是python读取的时候路径会出错。将里面stopwordspunkt文件夹分别移动到python安装目录下的两个子路径中,比如我的路径是F:\python38\Lib\nltk_data\corporaF:\python38\Lib\nltk_data\tokenizers。需要说明的是,我的F:\python38\Lib路径下并没有nltk_data这个文件,没有?没有就让他有!新建文件夹,重命名即可。
然后在nltk_data中再新建两个文件夹:corporatokenizers。然后把停用词和标点分别移动到这两个文件里即可,亦即:corpora\stopwordstokenizers\punkt

验证

此处提供一段验证代码,明日开始nltk分词之旅!

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwordspunctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']
data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy."
words = word_tokenize(data)
words = [word for word in words if word not in punctuations]   # 去除标点符号
stopWords = set(stopwords.words('english'))
wordsFiltered = []for w in words:if w not in stopWords:wordsFiltered.append(w)print(wordsFiltered)

完结,可以愉快地听歌了。

英文文本分词之工具NLTK相关推荐

  1. 英文文本分词处理(NLTK)

    文章目录 1.NLTK的安装 2.NLTK分词和分句 3.NLTK分词后去除标点符号 4.NLTK分词后去除停用词 5.NLTK分词后进行词性标注 6.NLTK分词后进行词干提取 7.NLTK分词后进 ...

  2. 【Python】英文文本分词与词频统计(split()函数、re库)

    英文文本分词 1.知识准备 (1)Python中的split()函数的用法 了解split()的基本用法 (2)python多个分割符split字符串 了解re库的部分用法 Python strip( ...

  3. python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例

    在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了.英文语料由于其本身存在空格符所以无需跟中文语料同样处 ...

  4. Python英文文本分词(无空格)模块wordninja的使用实例

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  5. 英文文本关键词抽取——使用NLTK进行关键词抽取

    记录一下代码: """ __author__:shuangrui Guo __description__: """ import sys i ...

  6. 数据处理之文本分词、MMSEG分词工具、斯坦福NLTK分词工具

    一. 文本分词概述 二. 中文分词算法分类 三. MMSEG分词工具 四. 斯坦福NLTK分词工具 1 CRF方法实例 一. 文本分词概述 文本分词是将字符串文本划分为有意义的单位的过程,如词语.句子 ...

  7. python 英语分词_基于Python NLTK库进行英文文本预处理

    文本预处理是要文本处理成计算机能识别的格式,是文本分类.文本可视化.文本分析等研究的重要步骤.具体流程包括文本分词.去除停用词.词干抽取(词形还原).文本向量表征.特征选择等步骤,以消除脏数据对挖掘分 ...

  8. NLP实现文本分词+在线词云实现工具

    实现文本分词+在线词云实现工具 词云是NLP中比较简单而且效果较好的一种表达方式,说到可视化,R语言当仍不让,可见R语言︱文本挖掘--词云wordcloud2包 当然用代码写词云还是比较费劲的,网上也 ...

  9. Java代码工具之中英文语句分词

    在自然语言处理中比较热门的操作就是中文或英文语句分词了,分词就是按照不同的算法和参数将语句分成若干词汇.拆分后的关键词可以进行词频统计或者词云图片生成等,能够快速方便的找到语句的核心主题热点. 在ja ...

最新文章

  1. 《Java 开发从入门到精通》—— 2.2 编写第一段Java程序
  2. 深度分析蔡徐坤的百万流量数据,揭底哪些是假的!
  3. GRPC golang版源码分析之客户端(二)
  4. 前端开发学习二——由JSON和Object Literal Notation引起的思考
  5. java for循环排序_java编程问题。用两个for循环来把输入的整数从小到大排序。
  6. 解决 Xcode10 编译错误 ld: library not found for -lstdc++6.0.9
  7. Delphi format的用法
  8. OpenSSL签发证书时编码UTF8STRING PRINTABLESTRING不匹配
  9. VS2010主题设置及插件推荐
  10. java6打印机不能用_高分求解:java中调用的打印机在什么情况下不可用?
  11. python 新建文件 hdfs_python基础操作以及hdfs操作
  12. mysql5.7.14_mysql 5.7.14 下载安装配置方法图文教程
  13. 面向对象随笔(super关键字)
  14. 配置环境变量OpenJDK和OracleJDK区别
  15. matlab中if语句中的结果返回,matlab中if 语句后面的判别式不能是算术表达式?或者说变量?...
  16. 为什么说DeFi将催生银行业杀手级应用?
  17. Endnote安装出现Internal error 2503解决办法
  18. Kafka之与Spring集成
  19. 拼多多和酷家乐面试经历总结(已拿offer)
  20. R语言 循环 步长 写法

热门文章

  1. 基于CNN的Landsat 8全色与多光谱图像融合的泛锐化方法
  2. 视频:说话的艺术-与斯科特·汉塞尔曼(Scott Hanselman)
  3. win7开机登录界面的壁纸怎样更换修改
  4. oracle 误删 log文件,Redo log文件被删除恢复
  5. Redis学习(1)——下载与配置[转]
  6. JavaScript自定义tirm方法
  7. 图像暗角阴影去除算法
  8. try..catch捕获不到空指针等异常的问题
  9. 数据分析师岗位热招!你也有希望进大厂~
  10. [论文阅读笔记]Aladdin: Optimized Maximum Flow Management for Shared Production Clusters