古藤堡语料库(电子文本档案经过挑选的一小部分文本)

#语料库中所有的文件

Import nltkNltk.corpus.gutenberg.fileids()From nltk.corpus import GutenbergGutenberg.fileids()Emma=Gutenberg.words(‘austen-emma.txt’)

#挑选其中的某一部著作进行操作

Emma=nltk.corpus.gutenberg.words(‘austen-emma.txt’)Num_chars=len(Gutenberg.raw(fileid))Num_words=len(Gutenberg.words(fileid))Num_sents=len(Gutenberg.sents(fileid))Num_vocab=len(set([w.lower() for w in Gutenberg.words(fileid)]))

网络和聊天文本

From nltk.corpus import webtextFrom nltk.corpus import nps_chat

布朗语料库

#对布朗语料库的一些操作:

From nltk.corpus import brownBrown.categories()#语料库的一些分类

Brown.words(categories=’news’)#访问某一文体的单词

Brown.words(fields=[‘cg22’])Brown.sents(categories=[‘news’,’editorial’,’reviews’])#使用条件频率分布做一些统计

Cfd=nltk.ConditionalFreqdist((genre,word)For genre in brown.categories()For word in brown.words(categories=genre))Genres=[‘news’,’religion’,’hobbies’,’science_fiction’,’’romance’,’humor’]Modals=[‘can’,’could’,’may’,’might’,’must’m’will’]Cfd.tabulate(conditions=generes,samples=modals)

路透社语料库(新闻文档,分成了90个主题,按照训练和测试分为两组)

就职演说语料库

#使用条件分布做一些统计工作

Cfd=nltk.ConditionalFreqdist((target,fileid[:4])For fileid in inaugural.fileids()For w in inaugural.words(fileid)For target in [‘america’,’citizen’]If  w.lower().startswith(target))Cfd.plot()

标注文本语料库(含有语言学标注,词性标注、命名实体、句法结构、语义角色等)

在其他语言的语料库

文本语料库的结构

载入自己的语料库

#在一些地方可以用匹配符号

From nltk.corpus import PlaintextCorpusReaderCorpus_root=’/usr/share/dict’Wordlists=PlaintextCorpusReader(corpus_root,’.*’)Wordlists.fileids()Wordlists.words(‘connectives’)#在硬盘上的语料库

From nltk.corpus import BracketParseCorpusReaderCorpus_root=r”C:\corpura\penntreebank\parsed\mrg\wsj”File_pattern=r”.*/wsj_.*\.mrg”Ptb=BracketParseCorpusReader(corpus_root,file_pattern)Ptb.fileids()

转载于:https://www.cnblogs.com/createMoMo/archive/2013/05/22/3092558.html

【语言处理与Python】2.1获取文本语料库相关推荐

  1. 【python正则表达式匹配获取文本中的11位手机号码】

    [python正则表达式匹配获取文本中的11位手机号码] 文前白话 代码实现 效果 正则知识补充 文前白话 根据需要,匹配一段没有固定格式的文本,识别其中的11位数字作为手机号,如果11位数字后还有数 ...

  2. NLP之路-查看获取文本语料库

    继续学习NLP in Python #coding=UTF-8 #上面一句解决中文注释编码错误问题 import nltk #查看获取到的文本语料库 nltk.corpus.gutenberg.fil ...

  3. python爬取下拉列表数据_Python+selenium之获取文本值和下拉框选择数据

    Python+selenium之获取文本值和下拉框选择数据 一.结合实例进行描述 1. 实例如下所示: #新增标签操作 def func_labels(self): self.driver.find_ ...

  4. Python自然语言处理 | 获得文本语料与词汇资源

    本章解决问题- 什么是有用的文本语料和词汇资源,我们如何使用Python获取它们? 哪些Python结构最适合这项工作? 编写Python代码时我们如何避免重复的工作? 这里写目录标题 1获取文本语料 ...

  5. 《Python自然语言处理》——第1章 语言处理与Python 1.1 语言计算:文本和词汇...

    本节书摘来自异步社区<Python自然语言处理>一书中的第1章,第1.1节,作者[美]Steven Bird,Ewan Klein,Edward Loper, 陈涛,张旭,崔杨,刘海平 译 ...

  6. python获取文本框内容_jquery获取文本框的内容

    使用jquery获取文本框的内容有以下几种: 1.根据ID取值(id属性): // javascript function getUserName(){ var username= $("# ...

  7. python nlp_【NLP】Python NLTK获取文本语料和词汇资源

    作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集.模型上提供了全面.易用的接口, ...

  8. python tkinter输入框_python TKinter获取文本框内容的方法

    python TKinter获取文本框内容的方法 更新时间:2018年10月11日 11:36:08 作者:biubiuzzz 今天小编就为大家分享一篇python TKinter获取文本框内容的方法 ...

  9. python获取文本框里输入的值_如何从Tkinter文本框小工具获取输入?

    要从python 3中的文本框中获取Tkinter输入,我使用的完整学生级程序如下: #Imports all (*) classes, #atributes, and methods of tkin ...

  10. python输出文本框_python TKinter获取文本框内容的方法

    python TKinter获取文本框内容的方法 如下所示: #coding:utf-8 import urllib,urllib2 import Tkinter #导入TKinter模块 ytm=T ...

最新文章

  1. 薄膜封装,等离子体技术,原子层沉积,化学气相沉积
  2. Design Pattern - Command (C#)
  3. python保留小数不四舍五入_Python3小数(浮点数)精度处理,[不]四舍五入去小数点后几位...
  4. css美化单选款、复选框
  5. Android-实现View滑动的6种方式
  6. c#拼图碎片形状_使用神经网络解决拼图游戏
  7. 【Spring】CGLIB动态代理
  8. python爬虫找工作怎么找_python爬虫判断招聘信息是否存在的实例代码
  9. PHP安全,防止远程非法提交
  10. Spring MVC 起步
  11. 收件服务器位置,如何查看邮箱的收件服务器地址
  12. java 定时凌晨_Java定时任务,每天凌晨1点执行
  13. 1032: 员工薪水 Python
  14. iPhone7 更新iOS13.3软件闪退
  15. 有可以提醒自己上下班打卡的手机便签软件吗?
  16. cordova多语言(国际化,本地化,全球化)
  17. 费雪MOGAFX方程式是什么?(三)
  18. C++微信网页协议实现和应用
  19. 基于Android的社交游戏百宝箱App设计与实现
  20. 20180402-F · US Tuition Costs · pheatmap 绘制热图 · R 语言数据可视化 案例 源码

热门文章

  1. Python中print函数细节——默认换行
  2. Scikit-learn_聚类算法_K均值聚类
  3. #MoreThanCode:社会正义技术
  4. java刮刮乐,20行JS代码实现网页刮刮乐效果
  5. [转]不可不知的十部交响曲
  6. ACL-IJCNLP 2021-Sentiment Analysis相关论文整理
  7. Python Pandas缺省值(NaN)处理
  8. Android签名生成和Android签名格式转换工具(MD5和SHA1签名)
  9. 操作系统复习——进程同步与通信
  10. Go基础:路径、文件名和包名的关系