关于NLTK中tokenizers的问题
最近在使用nlkt库进行分词任务和词性还原任务时遇到了一些问题,在这里做一些记录
解决办法
尝试使用图中所给的:
import nltk
nltk.download
这种方法在我这里不行,报错如下
转点另一种方法,访问github上提供的nltk_data( nltk_data)
这里如果将整个包全部下载下来会很大,比较耗时
我选择了根据报错,也就是attempted to load后面所跟的路径文件夹进行相对应的下载。
包存放位置
上面报错的信息一般都会给出相应的存放位置。这里我选择的是在anaconda虚拟环境下新建文件夹nltk_data中进行存放,
这里记住图2黄色路径的第一个文件夹名字,根据不同的报错信息,文件名有所不同。贴一张图片
一般将所有报错的包补充安装好就没问题了
关于NLTK中tokenizers的问题相关推荐
- r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...
斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...
- nltk 中的 sents 和 words
nltk 中的 sents 和 words ,为后续处理做准备. #!/usr/bin/env python # -*- coding: utf-8 -*-from nltk.corpus impor ...
- python语法详解_关于python:NLTK中解析的英语语法
是否有可以立即使用并可以在NLTK中使用的即用型英语语法? 我搜索了使用NLTK进行解析的示例,但似乎我必须在解析句子之前手动指定语法. 非常感谢! 您可以看一下pyStatParser,这是一个简单 ...
- python中pos是什么_如何在NLTK中使用pos_标记?
所以我试着在列表中标记一堆单词(确切地说是POS标记)如下:pos = [nltk.pos_tag(i,tagset='universal') for i in lw] 其中lw是一个单词列表(它确实 ...
- NLP之路-实验nltk中的raw 和 words
为了实验首先在nltk_data中建立了一个实验文本文件,如下: 文字内容是: hello this is a test sentence. this is the second line ha ...
- 中文停用词文档_使用Python中的NLTK和spaCy删除停用词与文本标准化
译者 | VK 来源 | Analytics Vidhya [磐创AI 导读]:本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化,欢迎大家转发.留言.想要更多电子杂志的机器 ...
- python自然语言分析 何翠仪_如何用 Python 中的 NLTK 对中文进行分析和处理?
最近正在用nltk 对中文网络商品评论进行褒贬情感分类,计算评论的信息熵(entropy).互信息(point mutual information)和困惑值(perplexity)等(不过这些概念我 ...
- [转载] 使用Python中的NLTK和spaCy删除停用词与文本标准化
参考链接: Python | 用NLTK进行词干分析 概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化 ...
- nltk词性标注与词形还原中的词性类型匹配
一.两函数词性不匹配问题: nltk中词性标注函数nltk.pos_tag([])得到的结果:NN,NNP,VB等 nltk中词形还原函数nltk.stem.WordNetLemmatizer().l ...
最新文章
- mysql 查看用户权限_在Navicat Premium中管理MySQL用户 - 第4部分:权限管理器工具
- VTK:PolyData之ColorDisconnectedRegionsDemo
- Mac-ios下JDK的安装路径(java)
- Oracle透明网关 for SQL Server
- Hadoop 2.x MapReduce(MR V1)字数统计示例
- 剑指offer——面试题5:从尾到头打印链表
- 发那科机器人圆弧指令怎么用_发那科机器人指令编辑详细介绍
- 制作windows7虚拟机镜像并配置网络
- 【元胞自动机】基于元胞自动机模拟和改进遗传算法的动态网络分配模型分析matlab仿真
- 接口测试用例设计和sql注入
- 有效压缩量子数据的量子自动编码器——Quantum autoencoders for efficient compression of quantum data论文翻译
- 通达OA2017版连接sqlserver2008数据库
- 计算机管理模块无法初始化单元,win7组策略提示MMC无法初始化管理单元怎么办...
- opencv马赛克python实现
- encode()和decode()
- HTML基础-02-文本格式化、引文(斜体、粗体、上/下标签、删除、插入、强调、加重、字号、预格式,缩写、文字方向、短引用、长引用、引证)
- The first interview for xiecheng
- arm架构linux系统平板电脑推荐,x86平板电脑排行_X86平板电脑推荐成垃圾,ARM架构平板电脑品牌是王道...
- python图像轮廓识别_Python+OpenCV图像处理(十六)—— 轮廓发现
- DHCPV6 开源代码如何获取device的MAC