什么是语料库?文本语料库是一个大型结构化文本的集合。

NLTK包含了许多语料库:

(1)古滕堡语料库

(2)网络和聊天文本

(3)布朗语料库

(4)路透社语料库

(5)就职演讲语料库

(6)标注文本语料库

词汇列表语料库

(1)词汇列表:nltk.corpus.words.words()

词汇语料库是Unix 中的/usr/dict/words 文件,被一些拼写检查程序使用。下面这段代码的功能是:过滤文本,留下罕见或拼写错误的词汇,删除在词汇列表中出现过的词汇。

#coding:utf-8

import nltk

def unusual_words(text):

text_vocab=set(w.lower() for w in text if w.isalpha())

english_vocab=set(w.lower() for w in nltk.corpus.words.words())

unusual=text_vocab.difference(english_vocab) #求差集

return sorted(unusual)

print(unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt')))

print(unusual_words(nltk.corpus.nps_chat.words()))

(2)停用词语料库:nltk.corpus.stopwords.words()

停用词语料库包含一些高频词,在处理时可以从文档中过滤掉,以便区分文本。下面这段代码实现了计算文本中不包含在停用词语料库中的词所占的比例。

import nltk

def content_fraction(text):

stopwords=nltk.corpus.stopwords.words('english')

content=[w for w in text if w.lower() not in stopwords]

return len(content)*1.0/len(text)

print(content_fraction(nltk.corpus.reuters.words()))

python语料库代码_NLPPython笔记——语料库相关推荐

  1. Python 开发代码片段笔记

    作者编写的一些代码片段,本版本为残废删减版,没有加入多线程,也没有实现任何有价值的功能,只是一个临时记事本,记录下本人编写代码的一些思路,有价值的完整版就不发出来了,自己组织吧,代码没啥技术含量,毕竟 ...

  2. python优秀代码写法笔记

    1.变量交换 交换两个变量的值,正常都会想利用一个中间临时变量来过渡. tmp = a a = b b = tmp 为了让代码看起来更简洁,能用一行绝不用两行. a,b = b,a 2.列表推导 简单 ...

  3. 基于python的语料库数据处理电子版_基于 Python 自然语言处理工具包在语料库研究中的运用...

    基于 Python 自然语言处理工具包在语料库研究中的运用 刘 旭 [摘 要] 摘要:国内当前以语料库为基础的研究,在研究工具方面,多以 AntConc . PowerGREP 为主,使用 Pytho ...

  4. 语料库python_NLPPython笔记——语料库

    什么是语料库?文本语料库是一个大型结构化文本的集合. NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本 (3)布朗语料库 (4)路透社语料库 (5)就职演讲语料库 (6)标注文本语 ...

  5. LaTex实战笔记 4-插入 Python 程序代码块

    LaTex插入 Python 程序代码块 1. 需求描述和解决方案 2. minted 包的安装与配置 2.1 安装 Python 第三方库 Pygments 2.2 下载和安装 minted 宏包 ...

  6. Andrew Ng-机器学习基础笔记(下)-Python实现代码

    目录 前言: 10. 应用机器学习的建议 10.1 决定下一步做什么 10.2 评估一个假设 10.3 模型选择和交叉验证集 10.4 诊断误差和方差 10.5 正则化和偏差/方差 10.6 学习曲线 ...

  7. Python项目:《外星人入侵》代码及笔记 via:《Python变成入门到实战》

    Python项目:<外星人入侵>代码及笔记 (via:<Python变成入门到实战>) [项目代码] alien_invasion.py import pygame from ...

  8. python嵩天课堂笔记_[Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周)

    [Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周) [Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周) 目录 强化学习 定义 马尔科夫决策过程 基本元素 值函数 最优值 ...

  9. Python初学者零碎基础笔记(一)

    Python初学者零碎基础笔记 一行代码输入多个参数 方法1.) a,b,c=map(类型,input("请输入").split()) #默认空格分隔,若要转其他类型,把类型换成需 ...

最新文章

  1. 【对比分析六】JavaScript中GET和POST的区别及使用场景
  2. “365算法每日学计划”:03打卡-贪心算法
  3. MongoDB——Shell的基本操作及使用窍门
  4. laravel改代码没变化_推荐10个优质的Laravel扩展
  5. java -jar 启动程序/设置classpath
  6. nmon安装为什么重启mysql_Nmon的安装及使用
  7. UBUNTU804VirtualBox出现常见问题解决(转高手的)我转的CU的
  8. 高精地图中地面标识识别技术历程与实践
  9. python多线程操作字典_在Python中使用带有线程的全局字典
  10. python 爬虫代理_python 爬虫 使用代理 的问题
  11. Andorid视觉新冲击-Material design语言
  12. linux引导过程和服务控制
  13. TypeScript笔记(3)—— 使用WebPack工具
  14. 常见排序算法:归并排序
  15. CF55D-Beautiful numbers【数位dp】
  16. 新颖的计算机科学与技术毕业设计题目
  17. 渗透测试实验_安装Windows 2003 企业版
  18. 『拓扑排序』「NOI2010」航空管制
  19. Python自动化完成tb喵币任务
  20. 微信视频号视频保存,微信视频号视频下载的方法

热门文章

  1. 四色原型(转自banq大师)
  2. 数据库结构对比工具databasecompare
  3. [bzoj4850][Jsoi2016]灯塔
  4. nmn是个什么概念,NMN功能效果,一篇讲清楚
  5. 突发:杭州一员工因离职纠纷把公司炸了!
  6. 10个区块链应用成功案例_201802
  7. 【opencv】基于opencv实现人脸识别,原理代码部分
  8. pstm.setString(2, passw);
  9. 华为云nbiot接入示例_详解WIFI NB-IOT接入阿里云平台MQTT协议实现数据传输
  10. batchupdate写法_mybatis批量update操作的写法,及批量update报错的问题解决方法