【语言处理与Python】2.1获取文本语料库

古藤堡语料库（电子文本档案经过挑选的一小部分文本）

#语料库中所有的文件

Import nltkNltk.corpus.gutenberg.fileids()From nltk.corpus import GutenbergGutenberg.fileids()Emma=Gutenberg.words(‘austen-emma.txt’)

#挑选其中的某一部著作进行操作

Emma=nltk.corpus.gutenberg.words(‘austen-emma.txt’)Num_chars=len(Gutenberg.raw(fileid))Num_words=len(Gutenberg.words(fileid))Num_sents=len(Gutenberg.sents(fileid))Num_vocab=len(set([w.lower() for w in Gutenberg.words(fileid)]))

网络和聊天文本

From nltk.corpus import webtextFrom nltk.corpus import nps_chat

布朗语料库

#对布朗语料库的一些操作：

From nltk.corpus import brownBrown.categories()#语料库的一些分类

Brown.words(categories=’news’)#访问某一文体的单词

Brown.words(fields=[‘cg22’])Brown.sents(categories=[‘news’,’editorial’,’reviews’])#使用条件频率分布做一些统计

Cfd=nltk.ConditionalFreqdist((genre,word)For genre in brown.categories()For word in brown.words(categories=genre))Genres=[‘news’,’religion’,’hobbies’,’science_fiction’,’’romance’,’humor’]Modals=[‘can’,’could’,’may’,’might’,’must’m’will’]Cfd.tabulate(conditions=generes,samples=modals)

路透社语料库（新闻文档，分成了90个主题，按照训练和测试分为两组）

就职演说语料库

#使用条件分布做一些统计工作

Cfd=nltk.ConditionalFreqdist((target,fileid[:4])For fileid in inaugural.fileids()For w in inaugural.words(fileid)For target in [‘america’,’citizen’]If  w.lower().startswith(target))Cfd.plot()

标注文本语料库（含有语言学标注，词性标注、命名实体、句法结构、语义角色等）

在其他语言的语料库

文本语料库的结构

载入自己的语料库

#在一些地方可以用匹配符号

From nltk.corpus import PlaintextCorpusReaderCorpus_root=’/usr/share/dict’Wordlists=PlaintextCorpusReader(corpus_root,’.*’)Wordlists.fileids()Wordlists.words(‘connectives’)#在硬盘上的语料库

From nltk.corpus import BracketParseCorpusReaderCorpus_root=r”C:\corpura\penntreebank\parsed\mrg\wsj”File_pattern=r”.*/wsj_.*\.mrg”Ptb=BracketParseCorpusReader(corpus_root,file_pattern)Ptb.fileids()

转载于:https://www.cnblogs.com/createMoMo/archive/2013/05/22/3092558.html

【语言处理与Python】2.1获取文本语料库相关推荐

【python正则表达式匹配获取文本中的11位手机号码】
[python正则表达式匹配获取文本中的11位手机号码] 文前白话代码实现效果正则知识补充文前白话根据需要,匹配一段没有固定格式的文本,识别其中的11位数字作为手机号,如果11位数字后还有数 ...
NLP之路-查看获取文本语料库
继续学习NLP in Python #coding=UTF-8 #上面一句解决中文注释编码错误问题 import nltk #查看获取到的文本语料库 nltk.corpus.gutenberg.fil ...
python爬取下拉列表数据_Python+selenium之获取文本值和下拉框选择数据
Python+selenium之获取文本值和下拉框选择数据一.结合实例进行描述 1. 实例如下所示: #新增标签操作 def func_labels(self): self.driver.find_ ...
Python自然语言处理 | 获得文本语料与词汇资源
本章解决问题- 什么是有用的文本语料和词汇资源,我们如何使用Python获取它们? 哪些Python结构最适合这项工作? 编写Python代码时我们如何避免重复的工作? 这里写目录标题 1获取文本语料 ...
《Python自然语言处理》——第1章语言处理与Python 1.1 语言计算：文本和词汇...
本节书摘来自异步社区<Python自然语言处理>一书中的第1章,第1.1节,作者[美]Steven Bird,Ewan Klein,Edward Loper, 陈涛,张旭,崔杨,刘海平译 ...
python获取文本框内容_jquery获取文本框的内容
使用jquery获取文本框的内容有以下几种: 1.根据ID取值(id属性): // javascript function getUserName(){ var username= $("# ...
python nlp_【NLP】Python NLTK获取文本语料和词汇资源
作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集.模型上提供了全面.易用的接口, ...
python tkinter输入框_python TKinter获取文本框内容的方法
python TKinter获取文本框内容的方法更新时间:2018年10月11日 11:36:08 作者:biubiuzzz 今天小编就为大家分享一篇python TKinter获取文本框内容的方法 ...
python获取文本框里输入的值_如何从Tkinter文本框小工具获取输入？
要从python 3中的文本框中获取Tkinter输入,我使用的完整学生级程序如下: #Imports all (*) classes, #atributes, and methods of tkin ...
python输出文本框_python TKinter获取文本框内容的方法
python TKinter获取文本框内容的方法如下所示: #coding:utf-8 import urllib,urllib2 import Tkinter #导入TKinter模块 ytm=T ...

【语言处理与Python】2.1获取文本语料库

古藤堡语料库（电子文本档案经过挑选的一小部分文本）

网络和聊天文本

布朗语料库

就职演说语料库

标注文本语料库（含有语言学标注，词性标注、命名实体、句法结构、语义角色等）

在其他语言的语料库

文本语料库的结构

载入自己的语料库

【语言处理与Python】2.1获取文本语料库相关推荐

最新文章

热门文章