NLP之路-查看获取文本语料库
继续学习NLP in Python
#coding=UTF-8
#上面一句解决中文注释编码错误问题
import nltk
#查看获取到的文本语料库
nltk.corpus.gutenberg.fileids()
#给书名附一个简短的名字emma
emma=nltk.corpus.gutenberg.words('austen-emma.txt')
#192427
len(emma)
#同样利用前一章中的concordance
from nltk.corpus import gutenberg
emma = nltk.Text(gutenberg.words('austen-emma.txt'))
#如果不import,语句需要写全:
#emma=nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))
emma.concordance("surprize")
#每个文本的三个统计量:平均词长、平均句子长度和本文中每个词出现的平均次数
for fileid in gutenberg.fileids():num_chars = len(gutenberg.raw(fileid))num_words = len(gutenberg.words(fileid))num_sents = len(gutenberg.sents(fileid))num_vocab = len(set([w.lower() for w in gutenberg.words(fileid)]))print int(num_chars/num_words), int(num_words/num_sents), int(num_words/num_vocab), fileid
NLP之路-查看获取文本语料库相关推荐
- python nlp_【NLP】Python NLTK获取文本语料和词汇资源
作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集.模型上提供了全面.易用的接口, ...
- 【NLP】Python NLTK获取文本语料和词汇资源
向AI转型的程序员都关注了这个号
- 【自然语言处理基础技能(NLP)】jieba中文文本处理
1.基本分词函数与用法 # jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(un ...
- 【NLP】基于机器学习的文本分类!
作者:李露,西北工业大学,Datawhale优秀学习者 据不完全统计,网民们平均每人每周收到的垃圾邮件高达10封左右.垃圾邮件浪费网络资源的同时,还消耗了我们大量的时间.大家对此深恶痛绝,于是识别垃圾 ...
- Selenium 获取文本信息方法+select(定位)
1.通过先定位到具体的元素然后通过text方法获取文本信息,如获取控件名称等 driver.find_element_by_xpath("//div[/h1").text 2.直接 ...
- Uipath 学习栏目基础教学:8、uipath 屏幕抓取获取文本
提示:专栏解锁后,可以查看该专栏所有文章. 文章目录 一.前言 二.获取文本 2.1流程图 一.前言 Uipath 学习栏目基础教学:7.uipath 用open browser实现打开网页并登录 在 ...
- 简单NLP分析套路(1)----语料库积累之3种简单爬虫方式应对大部分网站
目录 近期听课的思考 语料库的记录 3种爬虫 urllib.request + BeautifulSoup scrapy 与xpath 使用selenium 模拟浏览器行为 新的改变 相关链接 未完待 ...
- 「NLP入门系列」9. 文本摘要和主题建模
来源 | Natural Language Processing for Beginners 作者 | AI Publishing 翻译 | 悉尼没睡醒 校对 | gongyouliu 编辑 | au ...
- php 取html文本框的值,jQuery中怎么获取文本框的值
jQuery中获取文本框的值方法:首先新建文件,并使用script标签在当前页面引入[jquery.min.js]文件:然后使用input标签创建文本框,并设置其id为myinput:最后给butto ...
最新文章
- python+appium判断元素存在_python自动化测试应用--Appium元素篇
- Soalris10下NDOUtils安装
- 汇编指令处理的数据长度
- Android应用【世界杯知识答题】的界面设计经验
- 抓包工具Charles(青花瓷)使用教程
- 使用MRS CDL实现实时数据同步的极致性能
- MongoDB插入文档
- PEP 263 -- Defining Python Source Code Encodings(定义Python源代码编码)
- android 通过platform.pk8,platform.x509.pem生成jks签名文件
- html 随机抽奖,随机抽奖页面js
- java23种设计模式
- HTML基础(新手入门教程)
- Windows 7 修改系统临时文件夹
- php在线图片签名,ElementUi+Vue+Php+fpdf+fpdi 实现文档在线签订(图片水印、手写签名)...
- 远程计算机强迫关闭一个连接,远程主机强迫关闭了一个现有的连接,该怎么办...
- 小饶学编程之JAVA SE第二部分——Web 前端基础:09CSS3
- 为什么装完计算机系统后进不去,电脑重新装完系统后开机后就这个样子,一直进不去是为什么?...
- uniapp + vue3微信小程序开发(4)身份信息认证
- informix数据库同步CDR配置
- GitHub开源14.5万行阿波罗11号源代码