诸神缄默不语-个人CSDN博文目录

最近更新时间:2022.7.11
最早更新时间:2022.7.11

NLTK是自然语言处理中常用的Python包,本文是NLTK包的一个简单的使用教程。
NLTK API文档:NLTK :: nltk package

文章目录

  • 1. tokenize:分词,分句
  • 2. stem
    • 2.1 nltk.stem.wordnet

1. tokenize:分词,分句

在我下载的punkt文件夹里没有chinese.pickle文件(我在网上看到一些GitHub issue和google group里面有,我很迷惑,反正我没有),所以我认为应该不能实现中文操作。
语言可以通过函数的language入参调整,但是反正默认是英文,不能用中文的,那别的我也不会……所以我没有对此作尝试。
tokenize文档:NLTK :: nltk.tokenize package
punkt文档:NLTK :: nltk.tokenize.punkt module
punkt源码:NLTK :: nltk.tokenize.punkt

英文分词(需要安装Punkt sentence tokenization模型):

from nltk.tokenize import word_tokenizesentence="We trained a large, deep convolutional neural network to classify the 1.2 million high-resolution images in the ImageNet LSVRC-2010 contest into the 1000 different classes."
tokenized_result=word_tokenize(sentence)
print(tokenized_result)

输出结果:
['We', 'trained', 'a', 'large', ',', 'deep', 'convolutional', 'neural', 'network', 'to', 'classify', 'the', '1.2', 'million', 'high-resolution', 'images', 'in', 'the', 'ImageNet', 'LSVRC-2010', 'contest', 'into', 'the', '1000', 'different', 'classes', '.']

英文简单分词(仅使用规则,即空格和标点符号实现分词):

from nltk.tokenize import wordpunct_tokenizesentence="We trained a large, deep convolutional neural network to classify the 1.2 million high-resolution images in the ImageNet LSVRC-2010 contest into the 1000 different classes."
tokenized_result=wordpunct_tokenize(sentence)
print(tokenized_result)

输出结果:
['We', 'trained', 'a', 'large', ',', 'deep', 'convolutional', 'neural', 'network', 'to', 'classify', 'the', '1', '.', '2', 'million', 'high', '-', 'resolution', 'images', 'in', 'the', 'ImageNet', 'LSVRC', '-', '2010', 'contest', 'into', 'the', '1000', 'different', 'classes', '.']

2. stem

stem文档:NLTK :: nltk.stem package

2.1 nltk.stem.wordnet

nltk.stem.wordnet模块官网:NLTK :: nltk.stem.wordnet module

英文,使用WordNet Lemmatizer实现lemmatize:
使用WordNet内置的morphy函数来实现lemmatize,该函数官网:morphy(7WN) | WordNet

NLTK使用教程(持续更新ing...)相关推荐

  1. Swift开发系列教程持续更新ing

    第一章: 开发工具,学习方法,App想法 1. 前言 ​ 当你看到这篇文章的时候, 我想你应该想要开发iOS app, 开发一个app是一件非常有趣的事情,也是一件值得自豪的经历, 我仍然记得, 很多 ...

  2. PyCharm使用期间出现报错集合 持续更新ing

    PyCharm使用期间出现报错集合 持续更新ing 啥时候用PyCharm发现了奇奇怪怪的错误就整理上来 这几天帮同学安装torch的时候出现了一些奇奇怪怪的问题 1.torch始终安装失败 描述一下 ...

  3. Python3常用其他API速查手册(持续更新ing...)

    诸神缄默不语-个人CSDN博文目录 最近更新时间:2023.5.11 最早更新时间:2022.6.27 运算符 + - * / 取余% 开方** 等式:= == > < >= < ...

  4. 资源搜索引擎集合1(持续更新ing...)

    诸神缄默不语-个人CSDN博文目录 不是所有网址我都用过.如有失效请联系我. 最近更新时间:2023.7.25 最早更新时间:2023.7.25 文章目录 1. 影视资源 2. 电子书 3. 文献 4 ...

  5. 重拾CCNA,学习笔记持续更新ing......(4)

    重拾CCNA,学习笔记持续更新ing......(4) 路由器作用功能的经典解说(笑)(非原创) 假设你的名字叫小不点,你住在一个大院子里,你的邻居有很多小伙伴,在门口传达室还有个看大门的李大爷,李大 ...

  6. js中text方法是啥意识_一盏茶的时间,快速捕获JS中常用的方法(细心整理,持续更新ing)...

    不知不觉上班一周辽-趁着大好周末,小编挣扎着从床上爬起来,决定对前端日常编程中常用到的一些方法做一个系统的整合. 有些人或许会觉得忘了百度就完事儿,no no no!这事儿小编真的亲践过好多次,百度一 ...

  7. pip更新失败_最全Tensorflow2.0 入门教程持续更新

    最全Tensorflow 2.0 入门教程持续更新: Doit:最全Tensorflow 2.0 入门教程持续更新​zhuanlan.zhihu.com 完整tensorflow2.0教程代码请看ht ...

  8. 程序员的职业选择,你应该知道的,持续更新ing

    程序员的职业选择,你应该知道的,持续更新ing 一下内容只是个人认知的表达,仅供参考,互相交流,不喜勿喷 程序员的职业选择,你应该知道的,持续更新ing 我认识很多猎头,有些曾经是经验丰富的HR,以下 ...

  9. 开源小程序CMS网站,JeeWx-App-CMS 持续更新ing~

    JeeWx-App-CMS开源小程序CMS网站,持续更新ing~  JeeWx-App-CMS 是jeewx开发的小程序网站开源项目,基于小程序wepy语言,具备cms网站的基本功能,能够打造简单易用 ...

  10. 2023届秋招提前批信息汇总(持续更新ing)

    实时更新的文档:2023届秋招提前批信息汇总(持续更新ing) (qq.com) 公司 投递链接 面试网站 工作地点 截止时间 互联网及私企(软件) 网易游戏 网易游戏(互娱)校园招聘官网 https ...

最新文章

  1. 空无达摩院——机器智能技术的发展
  2. 学校老师绝对不会教的方法,让你的孩子拥有一个开挂般的人生!
  3. mysql 增加建表权限,mysql_基本权限模型建表结构
  4. 怎样将GIS图形复制到Windows剪贴板,粘贴到Word中
  5. 使用windows live writer连接CSDN和博客园博客
  6. listview mysql源码_用ListView实现对数据库的内容显示
  7. [设计模式] 15 解释器模式 Interpreter
  8. 常见的5个Java测试框架和工具
  9. Python语法糖系列
  10. Html静态页面更新,解决浏览器缓存不更新问题
  11. vue 实时显示当前时间
  12. Java多个PDF文件合并成一个PDF文件
  13. 谁都可以抱怨监管,唯独蚂蚁不应该
  14. Qt-qmake install相关
  15. PKCS#11标准解读-Cryptoki库如何工作
  16. ubuntu不小心忘记开机密码
  17. excel如何数据汇总之多工作簿
  18. java 分页查询的实现
  19. mysql随机不连续数据_用MySQL里的Rand()生成 不连续重复 的随机数年龄以及随机姓名字符串...
  20. 程序员必读 - 收藏集 - 掘金

热门文章

  1. angr学习之ctf练习
  2. 我的markdown编辑器
  3. 碧水风荷录-第一章(未完,正在整理中……)
  4. BGA焊接可靠性评价指引,为产品质量保驾护航
  5. 51单片机外部中断的使用以及优先级设置
  6. 关于ROS功能包里package.xml和CMakeList.txt的源码分析
  7. sublime text3安装python插件和flake8_Sublime Text 3中的插件sublimelinter3外加sublimelinter-flake8,无使用效果...
  8. 吉尔伯特定律(转载)
  9. c语言递推算法微课,高中数学题型方法100讲[微课视频]
  10. HTML前端(一)----DIV布局