语料库就是我们要分析文件的合计。

语料库构建

http://blog.csdn.net/happylife_haha/article/details/44566975

构建方法:

os.walk(fileDir)

fileDir 文件夹路径

文件读取:

codecs.open(filePath, method, encoding)

filePath 文件路径

method 打开方式,r 读, w 写, rw 读写;

encoding 文件的编码,打开方式UTF-8。

# -*- coding: utf-8 -*-

import os

import os.path

#导入OS模块

#定义

filePaths = []

for root, dirs, files in os.walk(

"D:\\PDM\\2.1\\SogouC.mini\\Sample"

):

for name in files:

filePaths.append(os.path.join(root, name))

import codecs

filePaths = [];

fileContents = [];

for root, dirs, files in os.walk(

"D:\\PDM\\2.1\\SogouC.mini\\Sample"

):

#遍历目录下所有的文件,

for name in files:

filePath = os.path.join(root, name);

filePaths.append(filePath);

#只读文件

f = codecs.open(filePath, 'r', 'utf-8')#打开文件

fileContent = f.read()

f.close()#关闭文件

fileContents.append(fileContent)

#构建语料库

import pandas;

corpos = pandas.DataFrame({

'filePath': filePaths,

'fileContent': fileContents

})

python语料库是什么,Python 语料库的搭建相关推荐

  1. 基于python的语料库数据处理电子版_基于 Python 自然语言处理工具包在语料库研究中的运用...

    基于 Python 自然语言处理工具包在语料库研究中的运用 刘 旭 [摘 要] 摘要:国内当前以语料库为基础的研究,在研究工具方面,多以 AntConc . PowerGREP 为主,使用 Pytho ...

  2. python语料库代码_NLPPython笔记——语料库

    什么是语料库?文本语料库是一个大型结构化文本的集合. NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本 (3)布朗语料库 (4)路透社语料库 (5)就职演讲语料库 (6)标注文本语 ...

  3. python环境设置_CentOS 7.2环境搭建实录(第四章:python环境配置)

    第四章:python环境配置 使用环境工具 python 环境工具 python 2.7.5 # python2版本,系统自带 pip 9.0.1 # python2版本的pip,python工具集, ...

  4. python在windows的开发环境_Python合集之Python开发环境在Windows系统里面搭建

    在上一个合集里面我们了解到了Python的基础信息及学习了Python对我们有什么用处,那么今天我们来了解一下,Python的开发环境该如何搭建.(注:Python的开发环境可以在Windows.MA ...

  5. pycharm conda 环境 切换 linux_【Python专题(一)】python环境搭建

    ​前言 近几年python搭上了机器学习,人工智能的快车道,发展的如火如荼.不止是互联网,现在金融.国企甚至公务员朋友都有学python的计划.虽然我们也发现不管是微信朋友圈还是百度搜索,总是能看到各 ...

  6. python语言编程环境-python3编程环境搭建

    python语言介绍 随着人工智能浪潮的再次到来,也让python语言更加的流行,看看近几年的编程语言排行榜吧,你就知道python有多火:学习一门流行度高的语言意味着有更多的志同道合者.更多的学习资 ...

  7. python语言编程环境-python语言开发搭建电脑环境的方法

    python语言开发搭建电脑环境的方法 发布时间:2020-08-24 15:57:58 来源:亿速云 阅读:89 作者:小新 这篇文章主要介绍了python语言开发搭建电脑环境的方法,具有一定借鉴价 ...

  8. python什么环境_什么是Python?(基础环境建设),NO2,搭建

    1. Python语言 1.1 Python语言的基本概念 Python 是⼀种极少数能兼具 "简单" 与 "功能强⼤" 的编程语⾔.你将惊异于发现你正在使⽤的 ...

  9. Python IDE之Pydev: 基于Eclipse搭建python的编译环境(Eclipse+pydev)简介、安装、使用的详细攻略

    Python IDE之Pydev: 基于Eclipse搭建python的编译环境(Eclipse+pydev)简介.安装.使用的详细攻略 目录 pydev简介 PyDev 安装和配置 1.安装MyEc ...

  10. Python学习笔记:Day1-2 开发环境搭建

    前言 最近在学习深度学习,已经跑出了几个模型,但Pyhton的基础不够扎实,因此,开始补习Python了,大家都推荐廖雪峰的课程,因此,开始了学习,但光学有没有用,还要和大家讨论一下,因此,写下这些帖 ...

最新文章

  1. 做专才能做强做大——从OA、协同之争说起
  2. (zz)ubuntu 9.04 下无线破解
  3. java 读取html模板文件_Java根据html模板创建 html文件
  4. ubuntu修改ip地址后如何保存_如何在 Ubuntu 中检查你的 IP 地址 | Linux 中国
  5. 我们做了一个医疗版MNIST数据集,发现常见AutoML算法没那么好用
  6. Linux内核启动流程分析(一)【转】
  7. 千万条数据,Stack Overflow是如何实现快速分页的
  8. Windows phone 8 是新的起点吗?
  9. 【ES】ES 拼音 Pinyin 分词器
  10. PyInstaller:编译exe与反编译
  11. MySQL索引原理(标贝科技)
  12. 养成良好的编程习惯-一个库一个文件夹
  13. 深入浅出--何为多线程(引用自大神Kyrie lrving)
  14. 『德不孤』Pytest框架 — 14、Pytest参数化
  15. zblog插件-免费zblog插件各类zblog插件打包
  16. Python学习心得(一):词频统计,自顶向下设计
  17. 2021-10-13 CAN DM1排放和故障代码
  18. 【iOS与EV3混合机器人编程系列之六】iOS_WiFi_EV3_Library 剖析之发送命令给EV3
  19. Install PSSH
  20. 洛谷 P1726 上白泽慧音

热门文章

  1. CentOS5u11 Oracle 10g 生产RMAN备份可用性恢复测试
  2. 泰拉瑞亚服务器config修改,《泰拉瑞亚》游戏配置怎么修改 游戏配置修改办法推荐...
  3. 如何将eclipse项目和svn关联(从服务器取项目)
  4. Windows 10 版本 1507 中的新 AppLocker 功能
  5. python输入1234输出4321_求一个C语言程序:输入正整数,要求以相反数顺序输出该数。如输入1234,输出4321....
  6. 第11课:词句分布式表达——词建模工具
  7. 【漏洞扫描与复现】Kali之Metasploit渗透测试
  8. 在web上制作动画(css3)
  9. 强化学习基本概念及方法分类
  10. PyTorch基础:数据处理(数据可视化)