原标题:基于Python的语料库数据处理(三)

《Python玩转语料库数据》专栏· 第3篇

1393 字 | 5 分钟阅读

一起来学习用Python进行语料库数据处理吧!

一、条件判断

在执行某个语句前,我们可能需要对某个条件进行判断,并根据条件判断的结果来决定是否执行该语句。这时就需要使用条件判断if。

条件判断if的基本句法为:

if:

在用Python进行语料库数据处理时,常用的条件判断操作符有“”、“<=”、“>=”、“==”以及“!=”。

示例:

str1 = 'Life is short, we use Python.'

iflen(str1) > 10:

print( 'The string has more than 10 characters.') # Print the sentence

str2 = 'Python'

ifstr2.startswith( 'p'):

print(str2)

str1 = 'Life is short, we use Python.'

iflen(str1) > 30:

print( 'The string has more than 30 characters.')

else:

print( 'The string has less than 30 characters.') # Print this sentence

str2 = 'Python'

ifstr2.startswith( 'p'):

print( 'Yeah!')

else:

print( 'Oh, no!')

str1 = 'Python_N'

ifstr1.endswith( 'V'):

print( 'This is a verb.') # Pass

elifstr1.endswith( 'N'):

print( 'This is a noun.') # Print 'This is a noun.'

elifstr1.endswith( 'A'):

print( 'This is an adjective.') # Pass

elifstr1.endswith( 'R'):

print( 'This is an adverb.') # Pass

else:

print( 'This is a function word') # Pass

二、while循环

在编程时,可能需要重复执行某个语句,这就需要使用循环。如果需要对某个条件进行判断,以重复执行某个语句,则需要用到while循环。

while循环的基本句法为:

while:

示例:

i = 1

whilei <= 10:

print(i)

i += 1

三、for...in循环

如果我们需要对某个序列中的每一个元素重复执行某个语句,则需要用到for...in循环,for...in循环的基本句法为:

fori in:

示例:

word = 'Python'

forletter inword:

print(letter)

word = 'Python'

forletter inword:

print(letter.upper) #将字母变为大写

prefix = "A"

start = 2011001

end = 2011101

fori inrange(start, end):

print(prefix + str(i))

四、读写单个文本

语料库数据大多为文本文件。在进行语料库处理时,首先要对文本进行读取。读取文本需要使用open函数。open函数读取文本的基本句法如下:

file_handle = open( "file_name", "r")

file_handle.close

open函数有多个参数,第一个参数是目标文件的路径与文件名,文件名可以是绝对地址路径或相对地址路径;第二个参数是“r”,表示读取文本(read),close关闭文件句柄。

示例:

file_in = open( "../texts/ge.txt", "r")

forline infile_in:

print(line) #对读取的文件进行逐行打印输出

file_in.close

file_in = open( "../texts/ge.txt", "r")

forline infile_in.readlines: #readlines函数可将文本读取成一个列表

print(line)

file_in.close

我们将文本或其他语料进行处理后,可能需要将处理结果写成文本文件。写出并保存文本依然使用open函数。

示例:

file_in = open( "../texts/ge.txt", "r")

file_out = open( "../ge_lower.txt", "a") # "a"表示不会删除原文本内容,而是将新内容追加到末尾。"w"会删除原始内容,生成新文件。

forline infile_in.readlines:

line_new = line.lower #变为小写

file_out.write(line_new) #写出

file_in.close

file_out.close

请扫下方二维码加我为好友,备注Python-入群。有朋自远方来,不亦乐乎,并诚邀入群,以达 相互学习和进步之美好心愿。返回搜狐,查看更多

责任编辑:

基于python的语料库数据处理_基于Python的语料库数据处理(三)相关推荐

  1. python气象绘图速成_基于Python气象数据处理与可视化分析

    基于 Python 气象数据处理与可视化分析 张鑫 ; 曹蕾 ; 韩基良 [期刊名称] <气象灾害防御> [年 ( 卷 ), 期] 2020(027)001 [摘要] 全国综合气象信息共享 ...

  2. 用python做炒股软件-python程序源码_基于python的炒股软件

    股票模拟交易系统设计与实现 不但能够进行界面的设计,还可以实现各个窗口的关联,通过WPF实现和其余窗口的关联,而且WPF中的类不但能够和其中一个窗口进行关联,还可以跟许多功能操作接口,WPF在对窗口对 ...

  3. 高中python课程实施方法_基于学科核心素养的高中信息技术Python教学探析

    龙源期刊网 http://www.qikan.com.cn 基于学科核心素养的高中信息技术 Python 教学探析 作者:张明华 来源:<新课程 · 上旬> 2020 年第 07 期 摘 ...

  4. python水浒传名字次数_基于Python的《水浒传》中人物分析

    基于 Python 的<水浒传>中人物分析 ◆杨旭东 [摘 要] 摘要:随着大数据技术的应用领域不断扩大,信息量也在日益膨胀, 而有价值的信息是有限的,利用文本挖掘技术可以高效地获取长文本 ...

  5. python 工资管理软件_基于[Python]的员工管理系统

    基于[Python]的员工管理系统 -------------------------------- 简介 使用python语言来完成一个员工管理系统,员工信息包含:员工工号,姓名, 年龄,性别,职位 ...

  6. 如何用python实现地图定位_基于 PyQt5 实现地图中定位相片拍摄位置

    项目简介:本次项目主要学习了如何查找相片中的 Exif 信息,并通过 Exif 信息中的 GPS 数据在百度地图中进行定位标点,以确定相片的拍摄地点.本次实验的目的旨在通过包含 GPS 信息的相片进行 ...

  7. python语法元素测试_基于python全局设置id 自动化测试元素定位过程解析

    背景: 在自动化化测试过程中,不方便准确获取页面的元素,或者在重构过程中方法修改造成元素层级改变,因此通过设置id准备定位. 一.python准备工作: 功能:用自动化的方式进行批量处理. 比如,你想 ...

  8. python批量检索文献_基于Python的文献检索系统设计与实现

    基于 Python 的文献检索系统设计与实现 杜兰 ; 刘智 ; 陈琳琳 [期刊名称] <软件> [年 ( 卷 ), 期] 2020(041)001 [摘要] 毕业设计是大学本科教育的一个 ...

  9. python爱因斯坦的问题_基于Python3的趣味数学问题

    基于Python3的趣味数学问题 Pro1. 数独(Sudoku)根据九宫格盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行.每一列.每一个宫(3*3)内的数字均含1-9这9个数字. Pro2 ...

最新文章

  1. [转]Ubuntu SCIM 输入法不能光标跟随的解决
  2. JavaMail中附件名称有乱码
  3. Redis入门之 redis set集合的操作
  4. PyTorch-Transformers:一款可处理最先进NLP的惊人模型库
  5. __proto__和prototype 小记
  6. 颓废了1年+,今天开始勤(tui)奋(fei)啦
  7. 7 ida pro 网盘_7月上市新车汇总 日产轩逸领衔 自主高端红旗HS7最具潜力
  8. idea构建post请求_IDEA-HTTP工具
  9. 网易视频云:为何说张三丰是个优秀的程序员?
  10. 百变北京门头沟大觉寺养生温泉2日自驾游(可延住)
  11. Python 获取网站证书有效期
  12. rolling()函数
  13. 名帖105 赵孟頫 楷书《玄妙观重修三门记》
  14. c语言球球半径,C/C++编程笔记:C语言开发球球大作战(源码分享),你想试试吗?...
  15. 【基础框架-SSM】MyBatisPlus入门
  16. 海尔“1000天流程再造”
  17. 《匆匆那年》的你,还记得吗?数学中的那些有(hui)趣(se)的定理(1)——鸟头定理
  18. Python自动化办公:读取pdf文档
  19. unity开发罗技仿真驾驶环境
  20. 客户端与服务器端交互原理

热门文章

  1. Win11退Win10/重装Win10教程
  2. javascript html 去除,javascript去除html标签
  3. 中医病案管理、编码、质控、直报、统计系统--正在开发中
  4. java排列和组合算法
  5. linux复制后权限变化,学霸Linux基础命令吐血总结,给你当新华字典用
  6. 东方日升2019年全年营收实现高质量增长
  7. 长沙云栖谷交通事故_长沙含浦片区自发成立抗洪救灾志愿者服务队转移被困群众(组图)...
  8. QQ伤感日志_你教会了我爱,让我懂得了爱
  9. 宣州谢朓楼饯别校书叔云
  10. 【泛函分析】巴拿赫空间