NLTK库来咬文嚼字
github地址:https://github.com/nltk/nltk
官网:http://www.nltk.org/
开篇
NLTK – the Natural Language Toolkit – is a suite of open source Python modules, data sets and tutorials supporting research and development in Natural Language Processing
从这句话就可以看出来:NLTK - 自然语言工具包 - 是一套开源的Python模块,数据集和教程,支持自然语言处理中的研究和开发。
为什么说 “咬文嚼字”?
nltk是一个自然语言处理工具包,里面包含大量的处理文字,语言的方法。说白了就是处理语言文字,对语言文字进行”揣摩”
安装
下面说一下安装nltk:
说明一下;我的系统是ubuntu 16.04 系统自带python各种版本 (可以使用pip安装)
sudo apt-get updateapt-cache depends python-nltk #与其相关的依赖包 sudo apt-get install python-nltk
至此,安装完毕
以下是和nltk比较友好的库,可以可以选择安转
sudo apt-get install python-matplotlib #画图表要用的 sudo apt-get install python-numpy #科学计算库
基本使用
engxing@tengxing-Lenovo-Y50-70:~$ python
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download()
showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
会下载数据模块,之后打开如下:
MOdels数据包可以下载需要的。
参考文献:
http://blog.csdn.net/huang2009303513/article/details/14498473
http://www.linuxidc.com/Linux/2012-06/62416.htm
http://www.tuicool.com/articles/r2yyei
NLTK库来咬文嚼字相关推荐
- Python自然语言处理 NLTK 库用法入门教程
NLP (Natural Language Processing):自然语言处理 ...
- 探索 Python、机器学习和 NLTK 库 开发一个应用程序,使用 Python、NLTK 和机器学习对 RSS 提要进行分类
挑战:使用机器学习对 RSS 提要进行分类 最近,我接到一项任务,要求为客户创建一个 RSS 提要分类子系统.目标是读取几十个甚至几百个 RSS 提要,将它们的许多文章自动分类到几十个预定义的主题领域 ...
- NLP之BoWNLTK:自然语言处理中常用的技术——词袋法Bow、NLTK库
NLP之BoW&NLTK:自然语言处理中常用的技术--词袋法Bow.NLTK库 目录 输出结果 实现代码 输出结果 [[0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 ...
- python自然语言处理案例-Python自然语言处理 NLTK 库用法入门教程【经典】
本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP).本教程将会使用 Python NLTK ...
- 安装nltk库及nltk_data数据包
一.安装nltk库 1.查看官方文档的方法(笔者没使用这种方法) Installing NLTK (Win.Linux.Mac的安装都有讲解,但笔者没使用这种方法.) 2.使用PyCharm安装 在系 ...
- python 英语分词_基于Python NLTK库进行英文文本预处理
文本预处理是要文本处理成计算机能识别的格式,是文本分类.文本可视化.文本分析等研究的重要步骤.具体流程包括文本分词.去除停用词.词干抽取(词形还原).文本向量表征.特征选择等步骤,以消除脏数据对挖掘分 ...
- Python NLTK库安装Error:Resource u*corpora/gutenberg* not found.
转载请标明出处: http://blog.csdn.net/djy1992/article/details/72828734 本文出自:[奥特曼超人的博客] 提起聊天机器人, 想必大家会想起一个优秀的 ...
- 自然语言处理--NLTK 库casual_tokenize对非规范文本(表情符号等)分词
NLTK 库中包含一个分词器 casual_tokenize,该分词器用于处理来自社交网络的非规范的包含表情符号的短文本.在这些社交网络中,文本的语法和拼写习惯千差万别. from nltk.toke ...
- Anaconda3安装jieba库和NLTK库
当我们进行文本处理时,常常需要对文本进行分词处理,但是中文与英文的处理方式确实不一样的:英文主要利用空格进行单词或者句子划分,所以使用的是NLTK分词方法:而中文比英文复杂,需要进行预处理等操作,使 ...
最新文章
- python学习之第四课时--运算符
- Servlet应用之细节
- 超细粒度分析XLNet中神奇的Attention Mask
- 谷歌TensorFlow Lite支持Core ML
- Bootstrap模态框垂直高度居中问题
- micropython 蜂鸣器_基于MicroPython的TPYBoard微信远程可燃气体报警器的设计与实现...
- Java实现 已知ListString list = new ArrayListString();list .add(张三丰,北京);......要求:求出每个地区有多少人,都是谁?
- android有什么作用,Android 7.0有什么功能 Android N完整功能参数介绍
- 得到app文稿导出_得到app的文稿怎么下载复制导出
- 微信小程序云开发-微信小程序账号申请及新手环境配置
- oracle数据库报错:ORA-01654: 索引 XXX 无法通过 128 (在表空间 xxx 中) 扩展
- twitter全自动发推_如何阻止Twitter视频自动播放
- 无人机基于目标检测的路径规划任务
- ansys的kbc_在Ansys中施加阶跃载荷和渐变载荷的方法 | 坐倚北风
- 大连学计算机的三本学校,2021大连三本大学有哪些 最新院校名单
- 【闲侃】解析行业专家咨询
- TCP/IP 与 DBUS 发送数据速度对比 进程间通信
- matlab 生成plc程序,利用MATLABsimulink的自动代码生成工具开发PLC程序..docx
- 【库】Generator:8行代码优雅解决异步嵌套
- MySQL设计学生选课系统(关系型数据库概论)
热门文章
- 探秘地月空间的无尽“矿藏”
- 下载华为交换机 MIB 参考文件并使用 snmpwalk 获取 OID 信息
- PS“矩形工具”的多样式
- 项目38.2 打豆豆
- 安居客住房系统-基于Python-Django前后端分离开发(一)——初始化项目及ORM关系映射
- 计算机专业跨专业考研哪个专业好考,求助-计算机专业跨专业考研考什么专业好当 – 手机爱问...
- 旋元佑进阶语法_简体
- 移动App运营推广的13个细节
- 无线电基础电路 > RLC阻尼系数计算仿真
- 2、Pandas练习