自然语言处理-nltk学习(一)

NLTK库安装

pip install nltk

执行python并下载书籍：

[root@centos #] python
Python 2.7.11 (default, Jan 22 2016, 08:29:18)
[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download()

选择book后点Download开始下载

下载完成以后再输入：

>>> from nltk.book import *

你会看到可以正常加载书籍如下：

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908

这里面的text*都是一个一个的书籍节点，直接输入text1会输出书籍标题：

>>> text1
<Text: Moby Dick by Herman Melville 1851>

搜索文本

执行

>>> text1.concordance("former")

会显示20个包含former的语句上下文

我们还可以搜索相关词，比如：

>>> text1.similar("ship")
whale boat sea captain world way head time crew man other pequod line
deck body fishery air boats side voyage

输入了ship，查找了boat，都是近义词

我们还可以查看某个词在文章里出现的位置：

>>> text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

词统计

len(text1)：返回总字数

set(text1)：返回文本的所有词集合

len(set(text4))：返回文本总词数

text4.count("is")：返回“is”这个词出现的总次数

FreqDist(text1)：统计文章的词频并按从大到小排序存到一个列表里

fdist1 = FreqDist(text1);fdist1.plot(50, cumulative=True)：统计词频，并输出累计图像

纵轴表示累加了横轴里的词之后总词数是多少，这样看来，这些词加起来几乎达到了文章的总词数

fdist1.hapaxes()：返回只出现一次的词

text4.collocations()：频繁的双联词

自然语言处理-nltk学习(一)相关推荐

自然语言处理-nltk学习(二)
nltk里面重要的函数一.similar 用来识别文章中和搜索词相似的词语,可以用在搜索引擎中的相关度识别功能中. text1.similar("monstrous") 查询出了 ...
python自然语言处理案例-Python自然语言处理 NLTK 库用法入门教程【经典】
本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP).本教程将会使用 Python NLTK ...
python学到哪知道baseline_Python NLTK学习6（创建词性标注器）
Python NLTK学习6(创建词性标注器) 发表于: 2017年1月5日阅读: 6487 除特别注明外,本站所有文章均为小杰Code原创本系列博客为学习<用Python进行自然语言处理 ...
NLTK学习笔记(一)
NLTK学习笔记(一) 文章目录 NLTK学习笔记(一) 一.概述二.NLTK语料库 2.1 语料库处理API 三.分词和分句四.词频统计五.单词分布六.词性标注七.去除停用词八.NLTK ...
Python自然语言处理 NLTK 库用法入门教程【经典】
@本文来源于公众号:csdn2299,喜欢可以关注公众号程序员学府本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python ...
python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取）
Python NLTK学习11(命名实体识别和关系抽取) 发表于: 2017年7月27日阅读: 18262 除特别注明外,本站所有文章均为小杰Code原创本系列博客为学习<用Python进 ...
【自然语言处理】【多模态】CLIP：从自然语言监督中学习可迁移视觉模型
从自然语言监督中学习可迁移视觉模型 <Learning Transferable Visual Models From Natural Language Supervision> 论文地址 ...
刘知远老师-自然语言处理表示学习
语义表示是自然语言处理的基础,我们需要将原始文本数据中的有用信息转换为计算机能够理解的语义表示,才能实现各种自然语言处理应用.表示学习旨在从大规模数据中自动学习数据的语义特征表示,并支持机器学习进一步 ...
自然语言处理深度学习的7个应用
原文:7 Applications of Deep Learning for Natural Language Processing 作者:Jason Brownlee 翻译:无阻我飞扬摘要:在这篇 ...

自然语言处理-nltk学习(一)

NLTK库安装

搜索文本

词统计

自然语言处理-nltk学习(一)相关推荐

最新文章

热门文章