最近学C++ Primer,做到第十二章有个习题。要求针对英文文本,对于用户想搜索的单词,打印出该单词在文本中出现的总次数,单词所出现行号及对应的行内容;单词在一行内出现多次,只打印该行一次。C++的代码太长就不给出,实现大概是用vector保存每一行内容,set保存每个单词出现的行号,map来保存单词与所在行号的映射。set.size()表示单词出现的总行数。这是个很好的思路,然而用类的方式实现起来有点繁琐了。好久不用Python了,灵机一动,想试试在Python上如何简单实现同样的功能。

单词查询

程序较为简单,直接上代码。

# 查询文本中某单词出现的次数,并打印其出现的行号及所在行的内容

# 只适用于英文文本

import re

from string import punctuation

text = open('find.txt')

text_list = text.readlines()

# 删除标点及其他常用符号

# punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""

text_plain = re.sub(r'[{}]'.format(punctuation), '', ''.join(text_list))

# 大写转换为小写,便于正确统计单词数

one_word_list = [word.lower() for word in text_plain.split()]

print(one_word_list)

def run_query(wanted):

word_total = 0

# 统计出现的总个数

for each in one_word_list:

if each == wanted:

word_total += 1

print('"{}" occurs {} times'.format(wanted, word_total))

line_number = 0

for line in text_list:

line_plain = re.sub(r'[{}]'.format(punctuation), '', line)

word_list = [word.lower() for word in line_plain.split()]

# 按照用户习惯第一行从"1"开始

line_number += 1

# 每行的单词列表

if wanted in word_list:

# 而下标"0"表示第一行,故需要减去1

print('\tline {}: {}'.format(line_number, text_list[line_number - 1]), end='')

if __name__ == '__main__':

while True:

sought = input('Input a word you want to search: ')

if sought == 'q':

break

run_query(sought)

看下结果,下面这张是Python下运行,yes出现94次。

C++中,yes出现91次。

仔细观察,两者对应的行号是一样的。为何单词出现次数C++版本就比Python版本少了?原因在于C++ Primer里面的写法是用的set,由于set里面的元素不能重复,如果想要查询的单词在一行内出现多次,实际也只记录一次。程序用set.size()表示单词出现总次数,即假设有n行里存在这个单词,单词出现总次数就是n。不知道作者本来就想实现这样的功能还是出于什么原因,私以为,这不符合我们的初衷。Python版本里对于想查询的单词,不管是否在一行内出现多次,都真正做到了精确计数。

文件查找

突然想起以前还写过个小脚本,查询本地文件。是当时看廖雪峰的Pytthon教程时做的一个课后习题。一起贴在这儿。

import os

def find_files(path, wanted):

try:

# 盘符内所有文件(夹)的路径

dir_list = os.listdir(path)

for filename in dir_list:

# 当前文件(夹)的路径

new_path = os.path.join(path, filename)

# 如果是文件夹,深入下一级继续查找

if os.path.isdir(new_path):

find_files(new_path, wanted)

# 若是文件,检查文件名里是否含有关键字, 应该不区分大小写,特别是针对后缀名时比较方便

elif os.path.isfile(new_path):

if wanted.lower() in filename.lower():

print(new_path)

except Exception as e:

print(e)

def save_all():

print('Example:\npath>>> F:\\secret\\action movies' + '\n' + 'key>>> .avi')

print('The result will be saved in C:\\findall.txt\n==========================================')

p = input('path>>> ')

k = input('key>>> ')

find_files(p, k)

if __name__ == '__main__':

save_all()

试试查询我的E:/Movie下得MP4视频文件

path>>> E:/Movie

key>>> .mp4

E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 001.mp4

E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 002.mp4

E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 003.mp4

E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 004.mp4

E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 005.mp4

E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 006.mp4

E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 007.mp4

E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 008.mp4

E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 009.mp4

E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 010.mp4

...

by @sunhaiyu

2016.9.29

python查找单词的位置_Python实现单词查询文件查找相关推荐

  1. python 正则表达式匹配的位置_python正则表达式匹配 模式匹配

    Python正则式的基本用法 初学Python,对Python的文字处理能力有很深的印象,除了str对象自带的一些方法外,就是正则表达式这个强大的模块了.但是对于初学者来说,要用好这个功能还是有点难度 ...

  2. python数据算法有哪些_python算法与数据结构-常用查找算法一(37)

    一.什么是查找 查找(Searching)就是根据给定的某个值,在查找表中确定一个其关键字等于给定值的数据元素(或记录). 查找表(Search Table):由同一类型的数据元素(或记录)构成的集合 ...

  3. python快递分拣小程序_python英语单词测试小程序代码实例

    这篇文章主要简介了python英语单词测试小程序代码实例,文中通过示例代码简介的非常具体,对大家的学习或者工作具有一定的参考学习网上卖,需要的朋友可以学习下 爬取了扇贝英语网,并制作了一个英语单词测试 ...

  4. python统计单词个数算法_python 统计单词个数和频次

    开始学习python,习题需要统计单词个数和频次.百度找到的代码好像都有问题.自己写了一个,调试通过. 环境:python: 3.9.1 64bit :  pycharm: 2020.2  电脑 wi ...

  5. python查找指定字符位置_Python 查找字符在字符串中的位置实例

    下面为大家分享一篇Python 查找字符在字符串中的位置实例,具有很好的参考价值,希望对大家有所帮助.一起过来看看吧 str_1='wo shi yi zhi da da niu ' char_1=' ...

  6. python背单词小程序_python背单词小程序

    import random as t #创建单词序列 words=("easy","difficult","answer","co ...

  7. python英语词汇量测试_python英语单词测试小程序

    博主爬取了扇贝英语网,并制作了一个英语单词测试的小程序,还能生成错词本,一起来看下代码吧- import requests #扇贝网爬虫,获取英语单词 category_res=requests.ge ...

  8. python字符串查找位置_python中怎么返回指定查找字符的位置

    展开全部 Python编程中对字符串进行搜索查找,并返回字符位e69da5e887aa62616964757a686964616f31333337396231置,案例代码如下:# multiple s ...

  9. python 识别子串的位置_Python基础语法小白这一篇就足够了!

    一个多星期的 Python基础语法学习结束,整理了一些常用必备的知识要点笔记.大家可以参考参考,内容比较长,知识点涉及还是蛮全面的(没面向对象),面向对象总结了以后会再单独发一篇,没有耐心的朋友可以直 ...

  10. python qtextedit设置光标位置_Python基础命令学习——就这一篇文章就够了

    一.python的定义: python是一种计算机程序设计语言,是一种解释型.编程型的脚本语言. 发现有很多想要学习Python却不知道如何下手的朋友,我这里整理了一些关于Python的学习资料,从基 ...

最新文章

  1. WindowsServer2003服务器
  2. 【数字信号处理】数字信号处理简介 ( DSP 定义 | DSP 知识领域 | A/D 转换 )
  3. 【转】iphone - ios app maximum memory budget
  4. Saas与传统软件对比
  5. python rpa库_Automagica python RPA库实践
  6. vs设计窗口不见了_龙猫腕表评测:VS沛纳海320V2版本
  7. flink source和sink
  8. 搜索图片及相似度探秘 二
  9. matlab通信系统性能估计(误码率、误比特率、眼图、星座图....)
  10. python 递归函数例子
  11. t580 thinkpad_ThinkPad T580性能如何?联想ThinkPad T580商务本详细评测
  12. linux 虚拟示波器,模拟示波器怎么看频率,模拟示波器频率计算
  13. XMind8 Update9下载安装
  14. Terrasolid点云分类_分类算法简述
  15. 城市按首字母分类,各城市对应的县和区
  16. android 渠道包 作用,谈谈我的Android多渠道打包方式
  17. android 摄像头比例,Android摄像头是全屏预览最简单的方式.doc
  18. 飞塔防火墙的配置与策略
  19. 【论文导读】Self-Supervised Learning with Data AugmentationsProvably Isolates Content from Style
  20. Ubuntu命令笔记

热门文章

  1. Linux进阶_加密和安全
  2. mp3cutter java_开源一款超级好用的mp3剪切器app
  3. C#创建临时文件夹方法
  4. 记录Notepad软件保护眼睛的颜色怎么设置
  5. 以太网卡、IB网卡的详细介绍以及区别分析
  6. linux定时脚本编写,如何实现Linux定时任务
  7. docker-compose 启动微服务项目时,nacos容器一直无限重启Restarting (1) Less than a second ago
  8. 为什么小程序getUserInfo获取的微信名称是“微信用户“?2.10.4词库之后如何渲染微信名称,微信头像和获取个人信息?
  9. python matplotlib 基础练习:画一元二次函数
  10. DirectX11 计时和动画