前提:把自己的语料库(sogou文本分类语料库)放在LTK_DATA/corpora/目录下;

然后在命令行输入以下之后,即可看到所有的txt文件名列表了。

第一种方法:BracketParseCorpusReader更适合已解析过的语料库

from nltk.corpus import BracketParseCorpusReader

corpus_root =r"F:\nltk_data\corpora\SogouC.reduced.20061127\SogouC.reduced\Reduced" # r"" 防止转义

file_pattern = r".*/.*\.txt" #匹配corpus_root目录下的所有子目录下的txt文件

ptb = BracketParseCorpusReader(corpus_root, file_pattern) #初始化读取器:语料库目录和要加载文件的格式,默认utf8格式的编码

ptb.fileids() #至此,可以看到目录下的所有文件名,例如C000008/1001.txt,则成功了

ptb.raw(“C000008/1001.txt”) # 如果C000008/1001.txt编码格式和ptb格式一致,则看到内容

得到文件的内容后,就可以分词处理了

import jieba

w = jieba.cut(ptb.raw(“C000008/1001.txt”)) #jieba分词工具对文本分词

wlst = list(w) #得到分词列表

w1 = “ ”.join(w) #得到空格划分的分词后文本字符串

另一种方法:PlaintextCorpusReader更适合文本文件

from nltk.corpus impor

python训练自己中文语料库_Python nltk载入自己的中文语料库的两种方法 for Windows7...相关推荐

  1. python实现人脸口罩检测(基于opencv和深度学习两种方法)

    人脸口罩检测GUI系统(基于opencv和深度学习两种方法对比) 由于疫情的影响,人脸口罩检测系统的开发成为很多人争相开发的一种算法.很多公司或者个人都开源了他们很多的代码或者SDK.大家在GitHu ...

  2. python 学习系列(3) 读取并显示图片的两种方法

    python 读取并显示图片的两种方法 在 python 中除了用 opencv,也可以用 matplotlib 和 PIL 这两个库操作图片.本人偏爱 matpoltlib,因为它的语法更像 mat ...

  3. 用python打开视频_python读取视频流提取视频帧的两种方法

    本文实例为大家分享了python读取视频流提取视频帧的具体代码,供大家参考,具体内容如下 方法一:通过imageio库和skimage库 1. 安装环境: pip install imageio pi ...

  4. python读取png图片只有一个图层_python实现读取并显示图片的两种方法

    在 python 中除了用 opencv,也可以用 matplotlib 和 PIL 这两个库操作图片.本人偏爱 matpoltlib,因为它的语法更像 matlab. 一.matplotlib 1. ...

  5. python创建树结构、求深度_Python实现二叉树的最小深度的两种方法

    找到给定二叉树的最小深度 最小深度是从根节点到最近叶子节点的最短路径上的节点数量 注意:叶子节点没有子树 Example: Given binary tree [3,9,20,null,null,15 ...

  6. Python 技术篇-通过进程名称、PID杀死windows进程的两种方法,获取当前运行程序的pid

    方法一: 利用 os 杀死进程. import os# 通过进程名称杀死进程 os.system('taskkill /f /im %s' % 'python.exe')# 通过pid杀死进程 os. ...

  7. python 读取音频文件(mp3,wav)时间的两种方法

    import os import torchaudio name_list=os.listdir("/home/dfy/snap/dukto/9/atc/4.16/") total ...

  8. python杨辉三角居中center_python经典---杨辉三角(两种方法)

    #method 1 def triangle(): a=[1] while 1: yield a  #yield返回a 但不终止循环 # 当next继续进行时才会由此继续yield之后的操作 a.ap ...

  9. python大漠游戏多开_防止程序多开的两种方法

    [程序篇]防止程序多开的两种方法 http://bbs.cskin.net/forum.php?mod=viewthread&tid=105&fromuid=2446 (出处: CSk ...

最新文章

  1. linux c 报错 warning: large integer implicitly truncated to unsigned type[-Woverflow]
  2. 上网速度快的浏览器_2020年浏览器国内市场占有率排行榜
  3. 【poi xlsx报错】使用POI创建xlsx无法打开
  4. SRS-DOLPHIN
  5. Linux minicom串口通讯
  6. 动态游标(例如表名作为参数)以及动态SQL分析
  7. httpd-2.2部署Discuz!论坛系统、wordpress博客系统和phpMyAdmin程序
  8. 20172318 2017-2018-2 《程序设计与数据结构》第11周学习总结
  9. termios结构体详解
  10. 用php打竖的文字_总结PHP竖排文字的方法
  11. 专利分析的方法和流程
  12. H3C防火墙-安全域
  13. 数据库期末大作业:机票预定信息系统数据库设计与实现
  14. springMVC原理,一看明了
  15. CAD修复块中心(com接口c#语言)
  16. Spring的DAO模块数据库操作实例
  17. 盘点SQL中最难的5件事
  18. android自定义刻度线,Android自定义控件之刻度尺控件
  19. 用python爬虫制作图片下载器(超有趣!)
  20. Handler运行机制

热门文章

  1. 华为架构师谈如何理解运用模块与微服务,系统学Java从零开始
  2. sci影响因子小于1计算机,单位入编要求两篇SCI,影响因子大于1.0就可以,请问难吗?...
  3. Mysql 常用 时间函数
  4. 【欧拉计划第 5 题】最小公倍数 Smallest multiple
  5. 柯西积分不等式的证明题
  6. linux服务器配置磁盘阵列,Linux下的RAID配置和管理
  7. 登录QQ出现R6030-CRT not initialized
  8. Seaborn系列(三):分布统计绘图(distribution)
  9. 【Unity3d】 制作游戏主菜单 GUI
  10. 给阿里云域名解析添加CAA记录,防止你的域名证书被劫持