由于需要使用一个纯单词组成的文件,在网上下载到了一个存放单词的文件,但是里面有中文的解释,那就需要做一下提取了。

文本的形式如下:

所见即所得,这个文本是有规律的,每个单词为一行,紧接着下一行便是单词的解释,有了这种规律我们就很好处理了。

首先我们来将文件的数据读取出来:

#coding:utf-8

file_object = open('words.txt')

try:

lines = file_object.readlines()

finally:

file_object.close( )

for line in lines:

print line 代码执行的结果为:

显然,这不是我们想要的结果,因为这里面有太多的空行了,现在最主要的就是要处理掉这些妨碍我们的空行,对于中文的乱码呢,我们是不需要中文的解释的,所以它是无妨碍的,如果想看得舒服些,那么我们就转码一下就好了。现在最主要的就是要知道为什么会出现这么多的空行,因为我们的文件是已将看过了,显然是这些空行的出现是有点“匪夷所思”的,这也是由于python读文件的机制导致的,下面我们修改下代码,来看看原因:

#coding:utf-8

file_object = open('words.txt')

try:

lines = file_object.readlines()

finally:

file_object.close( )

print lines 在这里,我们直接输出lines,得到如下的结果:

我们随意拿出这句'runlet\n', 'n.\xcd\xb0,\xd0\xa1\xba\xd3\n', '\n', 'runnel\n', 'n.\xd0\xa1\xba\xd3,\xcf\xb8\xc1\xf7\n', '\n',从中可以看出,对于每行的文件,在读取的时候,换行符“\n”也是会被读取在单词和对应的解释的后面的,所以这也就是为什么会有那么多空行的原因了,这显然不是我们想要看见的,下面我们处理一下,让这些多余的空行失去效果:

#coding:utf-8

file_object = open('words.txt')

try:

lines = file_object.readlines()

finally:

file_object.close( )

for line in lines:

if line!='\n':

print line.decode('gb2312','ignore'), #逗号得带着,因为文件自身带了换行,可以代替pirnt的换行 程序执行后,得到如下的结果:

好了,这下就是我们想看到的东西了,那么,现在我们可以将这些输出写入 到新的文件里了,然后就可以得到我们想要的单词文本了。

#coding:utf-8

file_object = open('words.txt')

try:

lines = file_object.readlines()

finally:

file_object.close( )

myfile=open('newfile.txt','w')

num=0

for word in lines:

if word!='\n':

num+=1

if num%2: #只有奇数行为单词

myfile.write(word) 运行程序便可以得到新的单词文件了,最终提取了45000多个单词,文件如下所示:

很显然,满足我们最终想要实现的要求,那么可以收工了。

最后附上两个文件的链接:http://pan.baidu.com/s/1cMvmbG。

python提取英文单词 每行显示一个_使用python对文件中的单词进行提取相关推荐

  1. python 执行shell命令行效率提升_在python脚本中执行shell命令的方法

    使用Python处理一个shell命令或一个执行一个shell脚本,一般情况下,有以下三种方法,以下我们来看: 第一种方法是使用os.system的方法 os.system(" cmd&qu ...

  2. python数字推盘游戏怎么显示步数_用 Python 实现手机自动答题,这下百万答题游戏谁也玩不过我!...

    引言 如果谈到这几年手机上各平台最常见的引流福利,必然是答题赢大奖系列小游戏了.像什么头号英雄,百万玩家之类的,充斥在我们生活中,同时也成为了我们生活中常见的娱乐方式. 但是有时候就会想,能不能实现手 ...

  3. python没有错误但是不显示结果_为什么我在Python3中加载模块时遇到问题但在Python2中没有加载?...

    根据我使用的 Python安装,我在加载模块时遇到了一些问题.当我输入 from quantecon import approx_markov 在使用Python 3.4.0的终端中,返回以下错误消息 ...

  4. python如何输入多行数据合并_关于Python中的合并字典,这些问题必须搞清楚!

    全文共1474字,预计学习时长6分钟 图源:unsplash Python 3.9现在处于初始开发阶段,但其中让人惊喜的新功能可不少.其中一个是颠覆性的,它能使处理Python字典时编写的代码更具可读 ...

  5. python数字推盘游戏怎么显示步数_用 Python 修改微信(支付宝)运动步数,轻松 TOP1...

    原标题:用 Python 修改微信(支付宝)运动步数,轻松 TOP1 作者:Tsubasa_Ou 今天分享的文章让你霸屏微信运动,横扫支付宝榜单 1 项目意义 如果你想在支付宝蚂蚁森林收集很多能量种树 ...

  6. Python教你几行代码生成一个自己的二维码名片

    Python教你几行代码生成一个自己的二维码名片 第一步:安装相关的库文件: 要导入一库文件 from seqno import helpers#安装库seqno: pip install seqno ...

  7. python图片保存为txt文件_python + opencv实现提取png图像的像素信息并存储到txt文件中(附安装指导)...

    相关库安装指导: 这里我们需要 opencv_python,numpy,matplotlib库,另外我用的是python3.6.1版本. 一般库大家都是用pip install命令安装的,不过不知道为 ...

  8. python linux系统管理与自动化运维_《Python Linux系统管理与自动化运维》赖明星著【摘要 书评 在线阅读】-苏宁易购图书...

    商品参数 作者: 赖明星著 出版社:机械工业出版社 出版时间:2017-09-01 版次:1 开本:16开 装帧:平装 ISBN:9787111578659 版权提供:机械工业出版社 基本信息 商品名 ...

  9. 将Excel每行数据存储到单独的txt文件中

    将Excel每行数据存储到单独的txt文件中 将Excel每行的第一格作为文件名,每行的剩余数据存放到该文件中. 实现Excel文件转换为txt文件. 以下是Python代码: import os i ...

最新文章

  1. 虚拟启动光盘-从ISO光盘镜像引导系统
  2. .net 导出excel和word
  3. Chrome 控制台不完全指南
  4. C++自定义自适应中值滤波
  5. Python学习6——条件,循环语句
  6. 初学者怎样看懂python代码_入门编程(初学者怎样看懂代码)
  7. 汉字的ascii码值范围_ASCII代码
  8. 索引(转载自百度百科)
  9. 巧妙突破大容量邮箱附件大小限制
  10. 用tensorflow实现矩阵分解
  11. c语言是非结构化程序语言_1、C语言是一种结构化程序设计语言
  12. Mail_Android_Video_SW_DDK_Intergration_Guide_And_Codec_User_Manual中文翻译【preface】
  13. php表单美化,使用css美化html表单控件详细示例(表单美化)_HTML/Xhtml_网页制作
  14. 【基于UML软件建模的选课系统】
  15. 程序员应该有制定工作计划的意识
  16. 软件公司中的“黑社会
  17. php 360全景,HTML5 Canvas实现360度全景方法
  18. 【YOLOV5-5.x 源码解读】train.py
  19. android蓝牙查看电池容量_Android获取电池电量和电池容量
  20. 双向dijkstra

热门文章

  1. PHP stomp 连接判断,php实现通过stomp协议连接ActiveMQ操作示例
  2. c 调用java程序_C ++可以调用Java代码吗?
  3. MongoDB Shell操作
  4. 远程网络安装RHEL5
  5. 7-深入练习Dockerfile
  6. 极光推送小结 - iOS
  7. 英语发音规则---S字母
  8. Facebook产品经理的三年叙事与协作思考
  9. Eclipse jetty和plugin 的结合使用
  10. 开源 免费 java CMS - FreeCMS2.1 菜单管理