继续学习NLP in Python

#coding=UTF-8
#上面一句解决中文注释编码错误问题
import nltk
#查看获取到的文本语料库
nltk.corpus.gutenberg.fileids()
#给书名附一个简短的名字emma
emma=nltk.corpus.gutenberg.words('austen-emma.txt')
#192427
len(emma)
#同样利用前一章中的concordance
from nltk.corpus import gutenberg
emma = nltk.Text(gutenberg.words('austen-emma.txt'))
#如果不import,语句需要写全:
#emma=nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))
emma.concordance("surprize")
#每个文本的三个统计量:平均词长、平均句子长度和本文中每个词出现的平均次数
for fileid in gutenberg.fileids():num_chars = len(gutenberg.raw(fileid))num_words = len(gutenberg.words(fileid))num_sents = len(gutenberg.sents(fileid))num_vocab = len(set([w.lower() for w in gutenberg.words(fileid)]))print int(num_chars/num_words), int(num_words/num_sents), int(num_words/num_vocab), fileid

NLP之路-查看获取文本语料库相关推荐

  1. python nlp_【NLP】Python NLTK获取文本语料和词汇资源

    作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集.模型上提供了全面.易用的接口, ...

  2. 【NLP】Python NLTK获取文本语料和词汇资源

    向AI转型的程序员都关注了这个号

  3. 【自然语言处理基础技能(NLP)】jieba中文文本处理

    1.基本分词函数与用法 # jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(un ...

  4. 【NLP】基于机器学习的文本分类!

    作者:李露,西北工业大学,Datawhale优秀学习者 据不完全统计,网民们平均每人每周收到的垃圾邮件高达10封左右.垃圾邮件浪费网络资源的同时,还消耗了我们大量的时间.大家对此深恶痛绝,于是识别垃圾 ...

  5. Selenium 获取文本信息方法+select(定位)

    1.通过先定位到具体的元素然后通过text方法获取文本信息,如获取控件名称等 driver.find_element_by_xpath("//div[/h1").text 2.直接 ...

  6. Uipath 学习栏目基础教学:8、uipath 屏幕抓取获取文本

    提示:专栏解锁后,可以查看该专栏所有文章. 文章目录 一.前言 二.获取文本 2.1流程图 一.前言 Uipath 学习栏目基础教学:7.uipath 用open browser实现打开网页并登录 在 ...

  7. 简单NLP分析套路(1)----语料库积累之3种简单爬虫方式应对大部分网站

    目录 近期听课的思考 语料库的记录 3种爬虫 urllib.request + BeautifulSoup scrapy 与xpath 使用selenium 模拟浏览器行为 新的改变 相关链接 未完待 ...

  8. 「NLP入门系列」9. 文本摘要和主题建模

    来源 | Natural Language Processing for Beginners 作者 | AI Publishing 翻译 | 悉尼没睡醒 校对 | gongyouliu 编辑 | au ...

  9. php 取html文本框的值,jQuery中怎么获取文本框的值

    jQuery中获取文本框的值方法:首先新建文件,并使用script标签在当前页面引入[jquery.min.js]文件:然后使用input标签创建文本框,并设置其id为myinput:最后给butto ...

最新文章

  1. python+appium判断元素存在_python自动化测试应用--Appium元素篇
  2. Soalris10下NDOUtils安装
  3. 汇编指令处理的数据长度
  4. Android应用【世界杯知识答题】的界面设计经验
  5. 抓包工具Charles(青花瓷)使用教程
  6. 使用MRS CDL实现实时数据同步的极致性能
  7. MongoDB插入文档
  8. PEP 263 -- Defining Python Source Code Encodings(定义Python源代码编码)
  9. android 通过platform.pk8,platform.x509.pem生成jks签名文件
  10. html 随机抽奖,随机抽奖页面js
  11. java23种设计模式
  12. HTML基础(新手入门教程)
  13. Windows 7 修改系统临时文件夹
  14. php在线图片签名,ElementUi+Vue+Php+fpdf+fpdi 实现文档在线签订(图片水印、手写签名)...
  15. 远程计算机强迫关闭一个连接,远程主机强迫关闭了一个现有的连接,该怎么办...
  16. 小饶学编程之JAVA SE第二部分——Web 前端基础:09CSS3
  17. 为什么装完计算机系统后进不去,电脑重新装完系统后开机后就这个样子,一直进不去是为什么?...
  18. uniapp + vue3微信小程序开发(4)身份信息认证
  19. informix数据库同步CDR配置
  20. GitHub开源14.5万行阿波罗11号源代码

热门文章

  1. from __future__ import的用法
  2. 架设动态 DNS 服务器: 让你成为 ISP 啦
  3. Android Fragment 使用详解
  4. 服务器内存升级与oracle 参数调整 实施
  5. 软件开发工程师--经验之谈
  6. Javascript学习历程之事件
  7. 超级强大的鼠标手势工具
  8. 【LOJ#6036】[雅礼集训2017Day4]编码
  9. 快速搭建react项目骨架(按需加载、redux、axios、项目级目录等等)
  10. CVS/SVN/GIT