from nltk.corpus import reuters #加载路透语料库
files = reuters.fileids()
print(len(files)) # 10788
words16097 = reuters.words(['test/16097'])
print(words16097)

什么是语料

就是一个个txt,一个txt就是一个列表

categories种类

reutersGenres = reuters.categories()
print(reutersGenres)  # 90

加载语料特定的种类的句子

# 加载语料特定的种类
for w in reuters.words(categories=['bop','cocoa']):print(w +' ',end='')if(w is '.'): # 一个句子就换行print()

实际生活中要自己下载语料来搞

读取下载的语料

from nltk.corpus import CategorizedPlaintextCorpusReader# 语料将分成不同的种类的txt,所以采用正则的方法来读取txt
reader = CategorizedPlaintextCorpusReader(r'/Volumes/Data/NLP-CookBook/Reviews/txt_sentoken', r'.*\.txt', cat_pattern=r'(\w+)/*')
print(reader.categories())  

自然语言处理python进阶(一)相关推荐

  1. 自然语言处理python进阶(二)

    python字符串的简单使用 namesList = ['Tuffy','Ali','Nysha','Tim' ] sentence = 'My dog sleeps on sofa'names = ...

  2. Python进阶之递归函数的用法及其示例

    作者 | 程序员adny 责编 | 徐威龙 封图| CSDN│下载于视觉中国 出品 |  AI科技大本营(ID:rgznai100) 本篇文章主要介绍了Python进阶之递归函数的用法及其示例,现在分 ...

  3. Python自学路线图之Python进阶

    Python自学路线图的第二个阶段是Python进阶学习,自学完后需要掌握的Python技能: 1.自学Linux操作系统,熟练使用Linux操作系统: 自学网络编程,掌握网络编程相关技术, 能够实现 ...

  4. 如果只推荐一本 Python 进阶的书,我要 Pick 它!

    作者 | 豌豆花下猫 今年二月初,我偶然看到了一条推特: <流畅的Python>一书的作者发布了一条激动人心的消息:他正在写作第二版! 如果要票选最佳的 Python 进阶类书目,这本书肯 ...

  5. 106页的《Python进阶》中文版(附下载)!

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 推荐一本对Python感兴趣的书籍<Python进阶>,是<Inter ...

  6. 斯坦福NLP团队发布最新自然语言处理Python库

    https://www.toutiao.com/a6655115885528744456/ 斯坦福NLP团队,于1月29日发布了新版的自然语言处理Python库:StandfordNLP,不同于以前j ...

  7. Python进阶6——序列操作

    1.序列的拼接和复制 Python中使用+对序列进行拼接,使用*对序列进行复制 s=str(1234) l=list(range(2,13)) print(s,l) print('---------- ...

  8. Python 进阶之路 (九) 再立Flag, 社区最全的itertools深度解析(上)

    前言 大家好,今天想和大家分享一下我的itertools学习体验及心得,itertools是一个Python的自带库,内含多种非常实用的方法,我简单学习了一下,发现可以大大提升工作效率,在sf社区内没 ...

  9. Python 进阶_生成器 生成器表达式

    目录 目录 相关知识点 生成器 生成器 fab 的执行过程 生成器和迭代器的区别 生成器的优势 加强的生成器特性 生成器表达式 生成器表达式样例 小结 相关知识点 Python 进阶_迭代器 & ...

最新文章

  1. 用ASP.NET如何读取NT用户名
  2. Windows下Python添加MySQLdb扩展模块
  3. 回归评价指标MSE、RMSE、MAE、R-Squared
  4. python字典的键可以用列表吗_python字典多键值及重复键值的使用方法(详解)
  5. HTML5之article元素与section元素之间的区别?
  6. 五、【线性表】线性表的链式表示和实现
  7. Mendix发布全球低代码报告,中国软件与低代码发展远超全球
  8. arduino 温度调节器_Arduino用温湿度传感器控制继电器,为什么点了串口助手才能运行,拔掉usb线,直接外界9V电源却用不了...
  9. Spring JMS 整合 ActiveMQ
  10. [Flink]Flink的window介绍
  11. 189. Rotate Array
  12. 用计算机算出你的年龄,身体年龄计算器:一分钟算出你的健康年龄(全文)
  13. 稳压二极管和TVS管知识点总结
  14. matlab实现幂法迭代求特征值和特征向量
  15. 实现两直角坐标系转换
  16. JAVA close关闭流最佳实践
  17. OpenVINO部署Mask-RCNN实例分割网络
  18. Java基础(数据类型、字符串)
  19. HDU-1495-非常可乐
  20. 服装ERP丨样衣管理系统解决方案

热门文章

  1. 2020大学计算机知到答案,2020年_知到_大学计算机(济南大学)_网课答案
  2. html tab选项卡 控件,tab选项卡插件
  3. python ssl连接 证书验证失败_即使在添加CA证书之后,Python也会请求SSL证书验证失败...
  4. linux环境下的连接器,Linux下连接器ld链接如何排序
  5. oracle删表分区同时维护索引,有关Oracle表分区进行(DML)维护后对索引的影响的分析...
  6. java多线程实现端口扫描,使用Java开发多线程端口扫描工具
  7. 通用测试用例大全(转自——知了.Test)
  8. jzoj100029. 【NOIP2017提高A组模拟7.8】陪审团(贪心,排序)
  9. linux下卸载已安装的软件
  10. bootstrap源码分析之Carousel