什么是语料库?文本语料库是一个大型结构化文本的集合。

NLTK包含了许多语料库:

(1)古滕堡语料库

(2)网络和聊天文本

(3)布朗语料库

(4)路透社语料库

(5)就职演讲语料库

(6)标注文本语料库

词汇列表语料库

(1)词汇列表:nltk.corpus.words.words()

词汇语料库是Unix 中的/usr/dict/words 文件,被一些拼写检查程序使用。下面这段代码的功能是:过滤文本,留下罕见或拼写错误的词汇,删除在词汇列表中出现过的词汇。

#coding:utf-8

import nltk

def unusual_words(text):

text_vocab=set(w.lower() for w in text if w.isalpha())

english_vocab=set(w.lower() for w in nltk.corpus.words.words())

unusual=text_vocab.difference(english_vocab) #求差集

return sorted(unusual)

print(unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt')))

print(unusual_words(nltk.corpus.nps_chat.words()))

(2)停用词语料库:nltk.corpus.stopwords.words()

停用词语料库包含一些高频词,在处理时可以从文档中过滤掉,以便区分文本。下面这段代码实现了计算文本中不包含在停用词语料库中的词所占的比例。

import nltk

def content_fraction(text):

stopwords=nltk.corpus.stopwords.words('english')

content=[w for w in text if w.lower() not in stopwords]

return len(content)*1.0/len(text)

print(content_fraction(nltk.corpus.reuters.words()))

语料库python_NLPPython笔记——语料库相关推荐

  1. python语料库代码_NLPPython笔记——语料库

    什么是语料库?文本语料库是一个大型结构化文本的集合. NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本 (3)布朗语料库 (4)路透社语料库 (5)就职演讲语料库 (6)标注文本语 ...

  2. 菜鸟学习C++练笔之整理搜狗2008版语料库--获取分类语料库

    注:此篇博客无法提供源代码下载,读者可自行从博文上拷贝代码. 作者:finallyliuyu(博文转载请注明作者和出处) 注:有网友提出来说直接把抽取之后的搜狗2008版新闻语料库发布,根据搜狗实验室 ...

  3. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:02 语料库和数据集

    什么是语料库? 为什么我们需要语料库? 理解语料库分析? 数据属性的类型 语料库的不同文件格式 免费语料库的资源 为NLP应用准备数据集 网页爬取 什么是语料库? 在语料库中,大数据集合可以采用以下格 ...

  4. 自然语言处理(4)——语料库和语言知识库

    NLP学习笔记(4)--语料库和语言知识库 1. 基础知识 2.语料库技术的发展 第一个阶段:早期,20世纪五十年代中期之前 二个阶段:沉寂时期,1957-20世纪八十年代初 第三个阶段:复苏与发展时 ...

  5. 【NLP】语料库和词汇知识库

    语料库(corpus) 语料库(corpus)就是存放语言材料的仓库(语言数据库),基于语料库进行语言学研究–语料库语言学(corpus linguistics). 语料库语言学研究的内容 语料库的建 ...

  6. 如何建语料库_如何建设语料?

    语料库的建设与开发 (一)总体设计 首先语料库的建设目的要明确,建库的目的决定着语料的选取. 如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授等主持建设的中国学习者英语语料库(CLEC)建库目的 ...

  7. 一起来学自然语言处理----语料库和词汇资源

    语料库和词汇资源 1.自然语言工具包(NLTK) 2.获取文本语料 1.语料库 古腾堡语料库 网络和聊天文本 布朗语料库 路透社语料库 就职演说语料库 标注文本语料库 在其他语言的语料库 语料库结构 ...

  8. 第四章 语料库与语言知识库

    文章目录 语料库技术 概述* 研究内容* 语料库语言学的发展* 早期的语料库语言学 沉寂时代 复苏与发展时期 语料库的类型* 平衡语料库和平行语料库* 共时语料库和历时语料库* 汉语语料库建设中的问题 ...

  9. Gensim官方教程翻译(二)——语料库与向量空间(Corpora and Vector Spaces)

    仅供我自己学习方便,翻译了原教程,原文地址:http://radimrehurek.com/gensim/tut2.html ====================正==========文===== ...

最新文章

  1. c#读写XML文件 (转)
  2. QT Creater/VS2013的使用(快捷键,调试等)
  3. 使命召唤手游新的狙击枪,升级之后堪比巴雷特?会玩的就是
  4. 母版页可以动态切换吗?
  5. Code Sinppet
  6. Linux IPC实践(5) --System V消息队列(2)
  7. JavaScript操作BOM对象 - document对象; history 和 location对象 ,对话框,Date时间对象...
  8. 将华为路由器做成ftp服务器(实现上传下载功能)
  9. C++基于MFC编程——课程管理系统
  10. 写个鸭子类方法java_小黄鸭系列java基础知识 | Java基本语法
  11. TC118AH单通道内置MOS单通道直流无刷马达驱动IC
  12. 网管的自我修养-信息系统
  13. 蓝桥杯2016年第七届真题-碱基
  14. Java安装WindowBuilder
  15. linux awk命令详解(一) awk语法 awk运算 awk数组
  16. c 语言printf输出,位数不够补0
  17. Windows Server 2008 防火墙开放 Oracle 的1521端口
  18. Spring Boot使用websocket实现聊天室
  19. 移动Web MUI框架Switch开关自定义中文文字
  20. 自由人NFT平台,全球首个以NFT+农业+元宇宙项目

热门文章

  1. linux telnet mysql_Linux下安装telnet(傻瓜教程)
  2. eclipse 2019-12版本安装svn
  3. c++ 箭头符号怎么打_C++随笔
  4. cuk电路设计及matlab仿真,cuk斩波电路仿真毕业论文,绝对精品.doc
  5. 中雅图帕尼尼_凝聚意大利足球50年辉煌 中雅图引进帕尼尼意甲球星贴
  6. could not start avd怎么解决_双十一又到了,你的购物车塞满了吗?「购物车」用英语该怎么说?...
  7. Oracle11g新特性:在线操作功能增强-Oracle11g在线重建索引功能增强 (转载)
  8. php写else老是报错,调试PHP错误经常用到的一些
  9. 注解形式控制器(4) 数据绑定
  10. fragment的懒加载