NLTK使用教程(持续更新ing...)
诸神缄默不语-个人CSDN博文目录
最近更新时间:2022.7.11
最早更新时间:2022.7.11
NLTK是自然语言处理中常用的Python包,本文是NLTK包的一个简单的使用教程。
NLTK API文档:NLTK :: nltk package
文章目录
- 1. tokenize:分词,分句
- 2. stem
- 2.1 nltk.stem.wordnet
1. tokenize:分词,分句
在我下载的punkt文件夹里没有chinese.pickle文件(我在网上看到一些GitHub issue和google group里面有,我很迷惑,反正我没有),所以我认为应该不能实现中文操作。
语言可以通过函数的language
入参调整,但是反正默认是英文,不能用中文的,那别的我也不会……所以我没有对此作尝试。
tokenize文档:NLTK :: nltk.tokenize package
punkt文档:NLTK :: nltk.tokenize.punkt module
punkt源码:NLTK :: nltk.tokenize.punkt
英文分词(需要安装Punkt sentence tokenization模型):
from nltk.tokenize import word_tokenizesentence="We trained a large, deep convolutional neural network to classify the 1.2 million high-resolution images in the ImageNet LSVRC-2010 contest into the 1000 different classes."
tokenized_result=word_tokenize(sentence)
print(tokenized_result)
输出结果:
['We', 'trained', 'a', 'large', ',', 'deep', 'convolutional', 'neural', 'network', 'to', 'classify', 'the', '1.2', 'million', 'high-resolution', 'images', 'in', 'the', 'ImageNet', 'LSVRC-2010', 'contest', 'into', 'the', '1000', 'different', 'classes', '.']
英文简单分词(仅使用规则,即空格和标点符号实现分词):
from nltk.tokenize import wordpunct_tokenizesentence="We trained a large, deep convolutional neural network to classify the 1.2 million high-resolution images in the ImageNet LSVRC-2010 contest into the 1000 different classes."
tokenized_result=wordpunct_tokenize(sentence)
print(tokenized_result)
输出结果:
['We', 'trained', 'a', 'large', ',', 'deep', 'convolutional', 'neural', 'network', 'to', 'classify', 'the', '1', '.', '2', 'million', 'high', '-', 'resolution', 'images', 'in', 'the', 'ImageNet', 'LSVRC', '-', '2010', 'contest', 'into', 'the', '1000', 'different', 'classes', '.']
2. stem
stem文档:NLTK :: nltk.stem package
2.1 nltk.stem.wordnet
nltk.stem.wordnet模块官网:NLTK :: nltk.stem.wordnet module
英文,使用WordNet Lemmatizer实现lemmatize:
使用WordNet内置的morphy函数来实现lemmatize,该函数官网:morphy(7WN) | WordNet
NLTK使用教程(持续更新ing...)相关推荐
- Swift开发系列教程持续更新ing
第一章: 开发工具,学习方法,App想法 1. 前言 当你看到这篇文章的时候, 我想你应该想要开发iOS app, 开发一个app是一件非常有趣的事情,也是一件值得自豪的经历, 我仍然记得, 很多 ...
- PyCharm使用期间出现报错集合 持续更新ing
PyCharm使用期间出现报错集合 持续更新ing 啥时候用PyCharm发现了奇奇怪怪的错误就整理上来 这几天帮同学安装torch的时候出现了一些奇奇怪怪的问题 1.torch始终安装失败 描述一下 ...
- Python3常用其他API速查手册(持续更新ing...)
诸神缄默不语-个人CSDN博文目录 最近更新时间:2023.5.11 最早更新时间:2022.6.27 运算符 + - * / 取余% 开方** 等式:= == > < >= < ...
- 资源搜索引擎集合1(持续更新ing...)
诸神缄默不语-个人CSDN博文目录 不是所有网址我都用过.如有失效请联系我. 最近更新时间:2023.7.25 最早更新时间:2023.7.25 文章目录 1. 影视资源 2. 电子书 3. 文献 4 ...
- 重拾CCNA,学习笔记持续更新ing......(4)
重拾CCNA,学习笔记持续更新ing......(4) 路由器作用功能的经典解说(笑)(非原创) 假设你的名字叫小不点,你住在一个大院子里,你的邻居有很多小伙伴,在门口传达室还有个看大门的李大爷,李大 ...
- js中text方法是啥意识_一盏茶的时间,快速捕获JS中常用的方法(细心整理,持续更新ing)...
不知不觉上班一周辽-趁着大好周末,小编挣扎着从床上爬起来,决定对前端日常编程中常用到的一些方法做一个系统的整合. 有些人或许会觉得忘了百度就完事儿,no no no!这事儿小编真的亲践过好多次,百度一 ...
- pip更新失败_最全Tensorflow2.0 入门教程持续更新
最全Tensorflow 2.0 入门教程持续更新: Doit:最全Tensorflow 2.0 入门教程持续更新zhuanlan.zhihu.com 完整tensorflow2.0教程代码请看ht ...
- 程序员的职业选择,你应该知道的,持续更新ing
程序员的职业选择,你应该知道的,持续更新ing 一下内容只是个人认知的表达,仅供参考,互相交流,不喜勿喷 程序员的职业选择,你应该知道的,持续更新ing 我认识很多猎头,有些曾经是经验丰富的HR,以下 ...
- 开源小程序CMS网站,JeeWx-App-CMS 持续更新ing~
JeeWx-App-CMS开源小程序CMS网站,持续更新ing~ JeeWx-App-CMS 是jeewx开发的小程序网站开源项目,基于小程序wepy语言,具备cms网站的基本功能,能够打造简单易用 ...
- 2023届秋招提前批信息汇总(持续更新ing)
实时更新的文档:2023届秋招提前批信息汇总(持续更新ing) (qq.com) 公司 投递链接 面试网站 工作地点 截止时间 互联网及私企(软件) 网易游戏 网易游戏(互娱)校园招聘官网 https ...
最新文章
- 空无达摩院——机器智能技术的发展
- 学校老师绝对不会教的方法,让你的孩子拥有一个开挂般的人生!
- mysql 增加建表权限,mysql_基本权限模型建表结构
- 怎样将GIS图形复制到Windows剪贴板,粘贴到Word中
- 使用windows live writer连接CSDN和博客园博客
- listview mysql源码_用ListView实现对数据库的内容显示
- [设计模式] 15 解释器模式 Interpreter
- 常见的5个Java测试框架和工具
- Python语法糖系列
- Html静态页面更新,解决浏览器缓存不更新问题
- vue 实时显示当前时间
- Java多个PDF文件合并成一个PDF文件
- 谁都可以抱怨监管,唯独蚂蚁不应该
- Qt-qmake install相关
- PKCS#11标准解读-Cryptoki库如何工作
- ubuntu不小心忘记开机密码
- excel如何数据汇总之多工作簿
- java 分页查询的实现
- mysql随机不连续数据_用MySQL里的Rand()生成 不连续重复 的随机数年龄以及随机姓名字符串...
- 程序员必读 - 收藏集 - 掘金
热门文章
- angr学习之ctf练习
- 我的markdown编辑器
- 碧水风荷录-第一章(未完,正在整理中……)
- BGA焊接可靠性评价指引,为产品质量保驾护航
- 51单片机外部中断的使用以及优先级设置
- 关于ROS功能包里package.xml和CMakeList.txt的源码分析
- sublime text3安装python插件和flake8_Sublime Text 3中的插件sublimelinter3外加sublimelinter-flake8,无使用效果...
- 吉尔伯特定律(转载)
- c语言递推算法微课,高中数学题型方法100讲[微课视频]
- HTML前端(一)----DIV布局