NLTK库安装

pip install nltk

执行python并下载书籍:

[root@centos #] python
Python 2.7.11 (default, Jan 22 2016, 08:29:18)
[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download()

选择book后点Download开始下载

下载完成以后再输入:

>>> from nltk.book import *

你会看到可以正常加载书籍如下:

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908

这里面的text*都是一个一个的书籍节点,直接输入text1会输出书籍标题:

>>> text1
<Text: Moby Dick by Herman Melville 1851>

搜索文本

执行

>>> text1.concordance("former")

会显示20个包含former的语句上下文

我们还可以搜索相关词,比如:

>>> text1.similar("ship")
whale boat sea captain world way head time crew man other pequod line
deck body fishery air boats side voyage

输入了ship,查找了boat,都是近义词

我们还可以查看某个词在文章里出现的位置:

>>> text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

词统计

len(text1):返回总字数

set(text1):返回文本的所有词集合

len(set(text4)):返回文本总词数

text4.count("is"):返回“is”这个词出现的总次数

FreqDist(text1):统计文章的词频并按从大到小排序存到一个列表里

fdist1 = FreqDist(text1);fdist1.plot(50, cumulative=True):统计词频,并输出累计图像

纵轴表示累加了横轴里的词之后总词数是多少,这样看来,这些词加起来几乎达到了文章的总词数

fdist1.hapaxes():返回只出现一次的词

text4.collocations():频繁的双联词

自然语言处理-nltk学习(一)相关推荐

  1. 自然语言处理-nltk学习(二)

    nltk里面重要的函数 一.similar 用来识别文章中和搜索词相似的词语,可以用在搜索引擎中的相关度识别功能中. text1.similar("monstrous") 查询出了 ...

  2. python自然语言处理案例-Python自然语言处理 NLTK 库用法入门教程【经典】

    本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP).本教程将会使用 Python NLTK ...

  3. python学到哪知道baseline_Python NLTK学习6(创建词性标注器)

    Python NLTK学习6(创建词性标注器) 发表于: 2017年1月5日  阅读: 6487 除特别注明外,本站所有文章均为小杰Code原创 本系列博客为学习<用Python进行自然语言处理 ...

  4. NLTK学习笔记(一)

    NLTK学习笔记(一) 文章目录 NLTK学习笔记(一) 一.概述 二.NLTK语料库 2.1 语料库处理API 三.分词和分句 四.词频统计 五.单词分布 六.词性标注 七.去除停用词 八.NLTK ...

  5. Python自然语言处理 NLTK 库用法入门教程【经典】

    @本文来源于公众号:csdn2299,喜欢可以关注公众号 程序员学府 本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python ...

  6. python 命名实体识别_Python NLTK学习11(命名实体识别和关系抽取)

    Python NLTK学习11(命名实体识别和关系抽取) 发表于: 2017年7月27日  阅读: 18262 除特别注明外,本站所有文章均为小杰Code原创 本系列博客为学习<用Python进 ...

  7. 【自然语言处理】【多模态】CLIP:从自然语言监督中学习可迁移视觉模型

    从自然语言监督中学习可迁移视觉模型 <Learning Transferable Visual Models From Natural Language Supervision> 论文地址 ...

  8. 刘知远老师-自然语言处理表示学习

    语义表示是自然语言处理的基础,我们需要将原始文本数据中的有用信息转换为计算机能够理解的语义表示,才能实现各种自然语言处理应用.表示学习旨在从大规模数据中自动学习数据的语义特征表示,并支持机器学习进一步 ...

  9. 自然语言处理深度学习的7个应用

    原文:7 Applications of Deep Learning for Natural Language Processing 作者:Jason Brownlee 翻译:无阻我飞扬 摘要:在这篇 ...

最新文章

  1. APACHE 2.2.8+TOMCAT6.0.14配置负载均衡
  2. 常用的时间字符串转换
  3. linux0.11学习笔记-技术铺垫-简单AB任务切换程序(1)-实现一个简单的bootloader
  4. restTemplate使用和踩坑总结
  5. Groovy在Spring中的简单使用实例
  6. 大学编程python_大学生想学一门编程语言傍身,Python可以吗?
  7. 寻找最小term,自制面试题
  8. 使用凤凰在6303C里开启Java软件在后台运行!
  9. C++ 实现CRC循环冗余校验码
  10. 5G通信网络专题报告:新一轮移动通信网络建设迎来高潮
  11. 买股不如买基?Python实现快速追踪基金的收益情况!谁还不是个买基高手?
  12. 1分钟链圈 | 比特大陆推出挖矿路由器!苏宁正式上线区块链产品“星际家园”...
  13. 利用Matlab将图片转换成素描(简笔画)风格
  14. 【新手上路】Java必备小游戏——Flappy Bird(飞翔的小鸟)
  15. 求1!+2!+3!......+20!
  16. 像素、移动端网页——CSS
  17. 5089. 安排会议日程
  18. 【机器学习】这份分类决策树算法介绍请收好!
  19. Elasticsearch学习2 SpringBoot整合 测试复杂检索
  20. android蓝牙通讯方法,Android蓝牙通信开发教程(详解版)

热门文章

  1. 部署Squid 代理服务器(内含传统、透明代理服务器的配置、ACL访问控制、日志分析、反向代理)
  2. c语言程序设计编程解读,C语言程序设计第三次实验报告解读
  3. mysql文档批处理去重_数据导入经验总结
  4. 改变能改变的,接受不能改变的
  5. android多线程文章,Android 多线程处理之多线程用法大集合
  6. 30可以刷什么系统_刷脸支付系统可以对接原来的收银系统吗?
  7. 微x怎么设置主题_红人堂:抖音直播预告文案怎么写?5个小技巧提高你的文案吸引力!...
  8. js 单页面ajax缓存策略,浅谈ajax的缓存机制---IE浏览器方面
  9. 插入模板_现场组装楼梯踏步模板施工支设细节
  10. java 引用队列_Java中的方法队列