python训练自己中文语料库_Python nltk载入自己的中文语料库的两种方法 for Windows7...
前提:把自己的语料库(sogou文本分类语料库)放在LTK_DATA/corpora/目录下;
然后在命令行输入以下之后,即可看到所有的txt文件名列表了。
第一种方法:BracketParseCorpusReader更适合已解析过的语料库
from nltk.corpus import BracketParseCorpusReader
corpus_root =r"F:\nltk_data\corpora\SogouC.reduced.20061127\SogouC.reduced\Reduced" # r"" 防止转义
file_pattern = r".*/.*\.txt" #匹配corpus_root目录下的所有子目录下的txt文件
ptb = BracketParseCorpusReader(corpus_root, file_pattern) #初始化读取器:语料库目录和要加载文件的格式,默认utf8格式的编码
ptb.fileids() #至此,可以看到目录下的所有文件名,例如C000008/1001.txt,则成功了
ptb.raw(“C000008/1001.txt”) # 如果C000008/1001.txt编码格式和ptb格式一致,则看到内容
得到文件的内容后,就可以分词处理了
import jieba
w = jieba.cut(ptb.raw(“C000008/1001.txt”)) #jieba分词工具对文本分词
wlst = list(w) #得到分词列表
w1 = “ ”.join(w) #得到空格划分的分词后文本字符串
另一种方法:PlaintextCorpusReader更适合文本文件
from nltk.corpus impor
python训练自己中文语料库_Python nltk载入自己的中文语料库的两种方法 for Windows7...相关推荐
- python实现人脸口罩检测(基于opencv和深度学习两种方法)
人脸口罩检测GUI系统(基于opencv和深度学习两种方法对比) 由于疫情的影响,人脸口罩检测系统的开发成为很多人争相开发的一种算法.很多公司或者个人都开源了他们很多的代码或者SDK.大家在GitHu ...
- python 学习系列(3) 读取并显示图片的两种方法
python 读取并显示图片的两种方法 在 python 中除了用 opencv,也可以用 matplotlib 和 PIL 这两个库操作图片.本人偏爱 matpoltlib,因为它的语法更像 mat ...
- 用python打开视频_python读取视频流提取视频帧的两种方法
本文实例为大家分享了python读取视频流提取视频帧的具体代码,供大家参考,具体内容如下 方法一:通过imageio库和skimage库 1. 安装环境: pip install imageio pi ...
- python读取png图片只有一个图层_python实现读取并显示图片的两种方法
在 python 中除了用 opencv,也可以用 matplotlib 和 PIL 这两个库操作图片.本人偏爱 matpoltlib,因为它的语法更像 matlab. 一.matplotlib 1. ...
- python创建树结构、求深度_Python实现二叉树的最小深度的两种方法
找到给定二叉树的最小深度 最小深度是从根节点到最近叶子节点的最短路径上的节点数量 注意:叶子节点没有子树 Example: Given binary tree [3,9,20,null,null,15 ...
- Python 技术篇-通过进程名称、PID杀死windows进程的两种方法,获取当前运行程序的pid
方法一: 利用 os 杀死进程. import os# 通过进程名称杀死进程 os.system('taskkill /f /im %s' % 'python.exe')# 通过pid杀死进程 os. ...
- python 读取音频文件(mp3,wav)时间的两种方法
import os import torchaudio name_list=os.listdir("/home/dfy/snap/dukto/9/atc/4.16/") total ...
- python杨辉三角居中center_python经典---杨辉三角(两种方法)
#method 1 def triangle(): a=[1] while 1: yield a #yield返回a 但不终止循环 # 当next继续进行时才会由此继续yield之后的操作 a.ap ...
- python大漠游戏多开_防止程序多开的两种方法
[程序篇]防止程序多开的两种方法 http://bbs.cskin.net/forum.php?mod=viewthread&tid=105&fromuid=2446 (出处: CSk ...
最新文章
- linux c 报错 warning: large integer implicitly truncated to unsigned type[-Woverflow]
- 上网速度快的浏览器_2020年浏览器国内市场占有率排行榜
- 【poi xlsx报错】使用POI创建xlsx无法打开
- SRS-DOLPHIN
- Linux minicom串口通讯
- 动态游标(例如表名作为参数)以及动态SQL分析
- httpd-2.2部署Discuz!论坛系统、wordpress博客系统和phpMyAdmin程序
- 20172318 2017-2018-2 《程序设计与数据结构》第11周学习总结
- termios结构体详解
- 用php打竖的文字_总结PHP竖排文字的方法
- 专利分析的方法和流程
- H3C防火墙-安全域
- 数据库期末大作业:机票预定信息系统数据库设计与实现
- springMVC原理,一看明了
- CAD修复块中心(com接口c#语言)
- Spring的DAO模块数据库操作实例
- 盘点SQL中最难的5件事
- android自定义刻度线,Android自定义控件之刻度尺控件
- 用python爬虫制作图片下载器(超有趣!)
- Handler运行机制
热门文章
- 华为架构师谈如何理解运用模块与微服务,系统学Java从零开始
- sci影响因子小于1计算机,单位入编要求两篇SCI,影响因子大于1.0就可以,请问难吗?...
- Mysql 常用 时间函数
- 【欧拉计划第 5 题】最小公倍数 Smallest multiple
- 柯西积分不等式的证明题
- linux服务器配置磁盘阵列,Linux下的RAID配置和管理
- 登录QQ出现R6030-CRT not initialized
- Seaborn系列(三):分布统计绘图(distribution)
- 【Unity3d】 制作游戏主菜单 GUI
- 给阿里云域名解析添加CAA记录,防止你的域名证书被劫持