【语言处理与Python】2.1获取文本语料库
古藤堡语料库(电子文本档案经过挑选的一小部分文本)
#语料库中所有的文件
Import nltkNltk.corpus.gutenberg.fileids()From nltk.corpus import GutenbergGutenberg.fileids()Emma=Gutenberg.words(‘austen-emma.txt’)
#挑选其中的某一部著作进行操作
Emma=nltk.corpus.gutenberg.words(‘austen-emma.txt’)Num_chars=len(Gutenberg.raw(fileid))Num_words=len(Gutenberg.words(fileid))Num_sents=len(Gutenberg.sents(fileid))Num_vocab=len(set([w.lower() for w in Gutenberg.words(fileid)]))
网络和聊天文本
From nltk.corpus import webtextFrom nltk.corpus import nps_chat
布朗语料库
#对布朗语料库的一些操作:
From nltk.corpus import brownBrown.categories()#语料库的一些分类 Brown.words(categories=’news’)#访问某一文体的单词 Brown.words(fields=[‘cg22’])Brown.sents(categories=[‘news’,’editorial’,’reviews’])#使用条件频率分布做一些统计 Cfd=nltk.ConditionalFreqdist((genre,word)For genre in brown.categories()For word in brown.words(categories=genre))Genres=[‘news’,’religion’,’hobbies’,’science_fiction’,’’romance’,’humor’]Modals=[‘can’,’could’,’may’,’might’,’must’m’will’]Cfd.tabulate(conditions=generes,samples=modals)
路透社语料库(新闻文档,分成了90个主题,按照训练和测试分为两组)
就职演说语料库
#使用条件分布做一些统计工作 Cfd=nltk.ConditionalFreqdist((target,fileid[:4])For fileid in inaugural.fileids()For w in inaugural.words(fileid)For target in [‘america’,’citizen’]If w.lower().startswith(target))Cfd.plot()
标注文本语料库(含有语言学标注,词性标注、命名实体、句法结构、语义角色等)
在其他语言的语料库
文本语料库的结构
载入自己的语料库
#在一些地方可以用匹配符号 From nltk.corpus import PlaintextCorpusReaderCorpus_root=’/usr/share/dict’Wordlists=PlaintextCorpusReader(corpus_root,’.*’)Wordlists.fileids()Wordlists.words(‘connectives’)#在硬盘上的语料库 From nltk.corpus import BracketParseCorpusReaderCorpus_root=r”C:\corpura\penntreebank\parsed\mrg\wsj”File_pattern=r”.*/wsj_.*\.mrg”Ptb=BracketParseCorpusReader(corpus_root,file_pattern)Ptb.fileids()
转载于:https://www.cnblogs.com/createMoMo/archive/2013/05/22/3092558.html
【语言处理与Python】2.1获取文本语料库相关推荐
- 【python正则表达式匹配获取文本中的11位手机号码】
[python正则表达式匹配获取文本中的11位手机号码] 文前白话 代码实现 效果 正则知识补充 文前白话 根据需要,匹配一段没有固定格式的文本,识别其中的11位数字作为手机号,如果11位数字后还有数 ...
- NLP之路-查看获取文本语料库
继续学习NLP in Python #coding=UTF-8 #上面一句解决中文注释编码错误问题 import nltk #查看获取到的文本语料库 nltk.corpus.gutenberg.fil ...
- python爬取下拉列表数据_Python+selenium之获取文本值和下拉框选择数据
Python+selenium之获取文本值和下拉框选择数据 一.结合实例进行描述 1. 实例如下所示: #新增标签操作 def func_labels(self): self.driver.find_ ...
- Python自然语言处理 | 获得文本语料与词汇资源
本章解决问题- 什么是有用的文本语料和词汇资源,我们如何使用Python获取它们? 哪些Python结构最适合这项工作? 编写Python代码时我们如何避免重复的工作? 这里写目录标题 1获取文本语料 ...
- 《Python自然语言处理》——第1章 语言处理与Python 1.1 语言计算:文本和词汇...
本节书摘来自异步社区<Python自然语言处理>一书中的第1章,第1.1节,作者[美]Steven Bird,Ewan Klein,Edward Loper, 陈涛,张旭,崔杨,刘海平 译 ...
- python获取文本框内容_jquery获取文本框的内容
使用jquery获取文本框的内容有以下几种: 1.根据ID取值(id属性): // javascript function getUserName(){ var username= $("# ...
- python nlp_【NLP】Python NLTK获取文本语料和词汇资源
作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集.模型上提供了全面.易用的接口, ...
- python tkinter输入框_python TKinter获取文本框内容的方法
python TKinter获取文本框内容的方法 更新时间:2018年10月11日 11:36:08 作者:biubiuzzz 今天小编就为大家分享一篇python TKinter获取文本框内容的方法 ...
- python获取文本框里输入的值_如何从Tkinter文本框小工具获取输入?
要从python 3中的文本框中获取Tkinter输入,我使用的完整学生级程序如下: #Imports all (*) classes, #atributes, and methods of tkin ...
- python输出文本框_python TKinter获取文本框内容的方法
python TKinter获取文本框内容的方法 如下所示: #coding:utf-8 import urllib,urllib2 import Tkinter #导入TKinter模块 ytm=T ...
最新文章
- 薄膜封装,等离子体技术,原子层沉积,化学气相沉积
- Design Pattern - Command (C#)
- python保留小数不四舍五入_Python3小数(浮点数)精度处理,[不]四舍五入去小数点后几位...
- css美化单选款、复选框
- Android-实现View滑动的6种方式
- c#拼图碎片形状_使用神经网络解决拼图游戏
- 【Spring】CGLIB动态代理
- python爬虫找工作怎么找_python爬虫判断招聘信息是否存在的实例代码
- PHP安全,防止远程非法提交
- Spring MVC 起步
- 收件服务器位置,如何查看邮箱的收件服务器地址
- java 定时凌晨_Java定时任务,每天凌晨1点执行
- 1032: 员工薪水 Python
- iPhone7 更新iOS13.3软件闪退
- 有可以提醒自己上下班打卡的手机便签软件吗?
- cordova多语言(国际化,本地化,全球化)
- 费雪MOGAFX方程式是什么?(三)
- C++微信网页协议实现和应用
- 基于Android的社交游戏百宝箱App设计与实现
- 20180402-F · US Tuition Costs · pheatmap 绘制热图 · R 语言数据可视化 案例 源码