自然语言处理python进阶(一)
from nltk.corpus import reuters #加载路透语料库
files = reuters.fileids()
print(len(files)) # 10788
words16097 = reuters.words(['test/16097'])
print(words16097)
什么是语料
就是一个个txt,一个txt就是一个列表
categories种类
reutersGenres = reuters.categories()
print(reutersGenres) # 90
加载语料特定的种类的句子
# 加载语料特定的种类
for w in reuters.words(categories=['bop','cocoa']):print(w +' ',end='')if(w is '.'): # 一个句子就换行print()
实际生活中要自己下载语料来搞
读取下载的语料
from nltk.corpus import CategorizedPlaintextCorpusReader# 语料将分成不同的种类的txt,所以采用正则的方法来读取txt
reader = CategorizedPlaintextCorpusReader(r'/Volumes/Data/NLP-CookBook/Reviews/txt_sentoken', r'.*\.txt', cat_pattern=r'(\w+)/*')
print(reader.categories())
自然语言处理python进阶(一)相关推荐
- 自然语言处理python进阶(二)
python字符串的简单使用 namesList = ['Tuffy','Ali','Nysha','Tim' ] sentence = 'My dog sleeps on sofa'names = ...
- Python进阶之递归函数的用法及其示例
作者 | 程序员adny 责编 | 徐威龙 封图| CSDN│下载于视觉中国 出品 | AI科技大本营(ID:rgznai100) 本篇文章主要介绍了Python进阶之递归函数的用法及其示例,现在分 ...
- Python自学路线图之Python进阶
Python自学路线图的第二个阶段是Python进阶学习,自学完后需要掌握的Python技能: 1.自学Linux操作系统,熟练使用Linux操作系统: 自学网络编程,掌握网络编程相关技术, 能够实现 ...
- 如果只推荐一本 Python 进阶的书,我要 Pick 它!
作者 | 豌豆花下猫 今年二月初,我偶然看到了一条推特: <流畅的Python>一书的作者发布了一条激动人心的消息:他正在写作第二版! 如果要票选最佳的 Python 进阶类书目,这本书肯 ...
- 106页的《Python进阶》中文版(附下载)!
点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 推荐一本对Python感兴趣的书籍<Python进阶>,是<Inter ...
- 斯坦福NLP团队发布最新自然语言处理Python库
https://www.toutiao.com/a6655115885528744456/ 斯坦福NLP团队,于1月29日发布了新版的自然语言处理Python库:StandfordNLP,不同于以前j ...
- Python进阶6——序列操作
1.序列的拼接和复制 Python中使用+对序列进行拼接,使用*对序列进行复制 s=str(1234) l=list(range(2,13)) print(s,l) print('---------- ...
- Python 进阶之路 (九) 再立Flag, 社区最全的itertools深度解析(上)
前言 大家好,今天想和大家分享一下我的itertools学习体验及心得,itertools是一个Python的自带库,内含多种非常实用的方法,我简单学习了一下,发现可以大大提升工作效率,在sf社区内没 ...
- Python 进阶_生成器 生成器表达式
目录 目录 相关知识点 生成器 生成器 fab 的执行过程 生成器和迭代器的区别 生成器的优势 加强的生成器特性 生成器表达式 生成器表达式样例 小结 相关知识点 Python 进阶_迭代器 & ...
最新文章
- 用ASP.NET如何读取NT用户名
- Windows下Python添加MySQLdb扩展模块
- 回归评价指标MSE、RMSE、MAE、R-Squared
- python字典的键可以用列表吗_python字典多键值及重复键值的使用方法(详解)
- HTML5之article元素与section元素之间的区别?
- 五、【线性表】线性表的链式表示和实现
- Mendix发布全球低代码报告,中国软件与低代码发展远超全球
- arduino 温度调节器_Arduino用温湿度传感器控制继电器,为什么点了串口助手才能运行,拔掉usb线,直接外界9V电源却用不了...
- Spring JMS 整合 ActiveMQ
- [Flink]Flink的window介绍
- 189. Rotate Array
- 用计算机算出你的年龄,身体年龄计算器:一分钟算出你的健康年龄(全文)
- 稳压二极管和TVS管知识点总结
- matlab实现幂法迭代求特征值和特征向量
- 实现两直角坐标系转换
- JAVA close关闭流最佳实践
- OpenVINO部署Mask-RCNN实例分割网络
- Java基础(数据类型、字符串)
- HDU-1495-非常可乐
- 服装ERP丨样衣管理系统解决方案
热门文章
- 2020大学计算机知到答案,2020年_知到_大学计算机(济南大学)_网课答案
- html tab选项卡 控件,tab选项卡插件
- python ssl连接 证书验证失败_即使在添加CA证书之后,Python也会请求SSL证书验证失败...
- linux环境下的连接器,Linux下连接器ld链接如何排序
- oracle删表分区同时维护索引,有关Oracle表分区进行(DML)维护后对索引的影响的分析...
- java多线程实现端口扫描,使用Java开发多线程端口扫描工具
- 通用测试用例大全(转自——知了.Test)
- jzoj100029. 【NOIP2017提高A组模拟7.8】陪审团(贪心,排序)
- linux下卸载已安装的软件
- bootstrap源码分析之Carousel