python语料库_NLPPython笔记——语料库
什么是语料库?文本语料库是一个大型结构化文本的集合。
NLTK包含了许多语料库:
(1)古滕堡语料库
(2)网络和聊天文本
(3)布朗语料库
(4)路透社语料库
(5)就职演讲语料库
(6)标注文本语料库
词汇列表语料库
(1)词汇列表:nltk.corpus.words.words()
词汇语料库是Unix 中的/usr/dict/words 文件,被一些拼写检查程序使用。下面这段代码的功能是:过滤文本,留下罕见或拼写错误的词汇,删除在词汇列表中出现过的词汇。
#coding:utf-8
import nltk
def unusual_words(text):
text_vocab=set(w.lower() for w in text if w.isalpha())
english_vocab=set(w.lower() for w in nltk.corpus.words.words())
unusual=text_vocab.difference(english_vocab) #求差集
return sorted(unusual)
print(unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt')))
print(unusual_words(nltk.corpus.nps_chat.words()))
(2)停用词语料库:nltk.corpus.stopwords.words()
停用词语料库包含一些高频词,在处理时可以从文档中过滤掉,以便区分文本。下面这段代码实现了计算文本中不包含在停用词语料库中的词所占的比例。
import nltk
def content_fraction(text):
stopwords=nltk.corpus.stopwords.words('english')
content=[w for w in text if w.lower() not in stopwords]
return len(content)*1.0/len(text)
print(content_fraction(nltk.corpus.reuters.words()))
python语料库_NLPPython笔记——语料库相关推荐
- python语料库代码_NLPPython笔记——语料库
什么是语料库?文本语料库是一个大型结构化文本的集合. NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本 (3)布朗语料库 (4)路透社语料库 (5)就职演讲语料库 (6)标注文本语 ...
- 语料库python_NLPPython笔记——语料库
什么是语料库?文本语料库是一个大型结构化文本的集合. NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本 (3)布朗语料库 (4)路透社语料库 (5)就职演讲语料库 (6)标注文本语 ...
- 是否有可能从python中的句子语料库重新训练word2vec模型(例如GoogleNews-vectors-negative300.bin)?
是否有可能从python中的句子语料库重新训练word2vec模型(例如GoogleNews-vectors-negative300.bin)? http://www.voidcn.com/artic ...
- Machine Learning with Python Cookbook 学习笔记 第6章
Chapter 6. Handling Text 本笔记是针对人工智能典型算法的课程中Machine Learning with Python Cookbook的学习笔记 学习的实战代码都放在代码压缩 ...
- python做直方图-python OpenCV学习笔记实现二维直方图
本文介绍了python OpenCV学习笔记实现二维直方图,分享给大家,具体如下: 官方文档 – https://docs.opencv.org/3.4.0/dd/d0d/tutorial_py_2d ...
- Python中知识点笔记
Python中知识点笔记 Wentao Sun. Nov.14, 2008 来这个公司11个月了,最开始来的一个笔记本用完了,里面都是工作时记录的一些片段,看到一块自己当时学/写 python程序时记 ...
- python 队列 一次取多个_Queue 队列模块-Python成为专业人士笔记
"专业人士笔记"系列目录: 创帆云:Python成为专业人士笔记--强烈建议收藏!每日持续更新!zhuanlan.zhihu.com 介绍 队列模块能实现多生产者.多消费者的队列 ...
- python 慕课课程笔记(一)
python 慕课课程笔记 1.python 是动态语言,而 java 是静态语言.动态语言变量本身的类型时不固定的,而静态语言在变量定义时就必须指定变量的类别. 2. 在python 代码中书写 a ...
- python 正则学习笔记
python 正则学习笔记 官方document #1.0 import re m=re.search('(?<=abc)def','cxabcdefgb')print(m.group(0))# ...
- 【Tools】python环境操作笔记
python环境操作笔记 1.安装Python虚拟环境 2.python pip 添加清华镜像 3.Ubuntu卸载python后出现系统崩溃以及各种问题的解决方法 4.Python下关于 tkint ...
最新文章
- 免费教材丨第49期:数学基础课程----漫画线性代数、微积分超入门
- mysql5.6创建用户并授予指定数据库或表权限
- 【转】正则基础之——捕获组(capture group)
- 初二模拟赛总结(2019.8.7)
- Java的最新发展– 2018年4月下旬
- Linux select/poll机制原理分析
- 前后端分离中的权限管理思路
- struts2:数据标签
- keytool 错误 java.io.IOException: incorrect AVA format
- 并发编程学习之Lock同步锁
- matlab2015a安装秘钥_MATLAB2015a(2015b)安装教程
- 性能测试中问题反思和心得
- 【352】矩阵转置性质
- PhotoBulk for Mac(图像批量添加水印工具)
- 怎么关闭Deep Freeze (冰点还原精灵单机版)
- tplink怎么进去_怎么进入TP-Link路由器设置界面? | 192路由网
- (二)GNSS定位中的卫星轨道位置计算
- 亲测有效,解决C盘空间不足问题
- Ubuntu 18.04及Snap体验——让Linux入门更简单(转))
- CVF2020邻域自适应/语义分割:FDA: Fourier Domain Adaptation for Semantic SegmentationFDA:用于语义分割的傅立叶域自适应算法