python单词查询_Python实现单词查询文件查找
最近学C++ Primer,做到第十二章有个习题。要求针对英文文本,对于用户想搜索的单词,打印出该单词在文本中出现的总次数,单词所出现行号及对应的行内容;单词在一行内出现多次,只打印该行一次。C++的代码太长就不给出,实现大概是用vector保存每一行内容,set保存每个单词出现的行号,map来保存单词与所在行号的映射。set.size()表示单词出现的总行数。这是个很好的思路,然而用类的方式实现起来有点繁琐了。好久不用Python了,灵机一动,想试试在Python上如何简单实现同样的功能。
单词查询
程序较为简单,直接上代码。
# 查询文本中某单词出现的次数,并打印其出现的行号及所在行的内容
# 只适用于英文文本
import re
from string import punctuation
text = open('find.txt')
text_list = text.readlines()
# 删除标点及其他常用符号
# punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""
text_plain = re.sub(r'[{}]'.format(punctuation), '', ''.join(text_list))
# 大写转换为小写,便于正确统计单词数
one_word_list = [word.lower() for word in text_plain.split()]
print(one_word_list)
def run_query(wanted):
word_total = 0
# 统计出现的总个数
for each in one_word_list:
if each == wanted:
word_total += 1
print('"{}" occurs {} times'.format(wanted, word_total))
line_number = 0
for line in text_list:
line_plain = re.sub(r'[{}]'.format(punctuation), '', line)
word_list = [word.lower() for word in line_plain.split()]
# 按照用户习惯第一行从"1"开始
line_number += 1
# 每行的单词列表
if wanted in word_list:
# 而下标"0"表示第一行,故需要减去1
print('\tline {}: {}'.format(line_number, text_list[line_number - 1]), end='')
if __name__ == '__main__':
while True:
sought = input('Input a word you want to search: ')
if sought == 'q':
break
run_query(sought)
看下结果,下面这张是Python下运行,yes出现94次。
C++中,yes出现91次。
仔细观察,两者对应的行号是一样的。为何单词出现次数C++版本就比Python版本少了?原因在于C++ Primer里面的写法是用的set,由于set里面的元素不能重复,如果想要查询的单词在一行内出现多次,实际也只记录一次。程序用set.size()表示单词出现总次数,即假设有n行里存在这个单词,单词出现总次数就是n。不知道作者本来就想实现这样的功能还是出于什么原因,私以为,这不符合我们的初衷。Python版本里对于想查询的单词,不管是否在一行内出现多次,都真正做到了精确计数。
文件查找
突然想起以前还写过个小脚本,查询本地文件。是当时看廖雪峰的Pytthon教程时做的一个课后习题。一起贴在这儿。
import os
def find_files(path, wanted):
try:
# 盘符内所有文件(夹)的路径
dir_list = os.listdir(path)
for filename in dir_list:
# 当前文件(夹)的路径
new_path = os.path.join(path, filename)
# 如果是文件夹,深入下一级继续查找
if os.path.isdir(new_path):
find_files(new_path, wanted)
# 若是文件,检查文件名里是否含有关键字, 应该不区分大小写,特别是针对后缀名时比较方便
elif os.path.isfile(new_path):
if wanted.lower() in filename.lower():
print(new_path)
except Exception as e:
print(e)
def save_all():
print('Example:\npath>>> F:\\secret\\action movies' + '\n' + 'key>>> .avi')
print('The result will be saved in C:\\findall.txt\n==========================================')
p = input('path>>> ')
k = input('key>>> ')
find_files(p, k)
if __name__ == '__main__':
save_all()
试试查询我的E:/Movie下得MP4视频文件
path>>> E:/Movie
key>>> .mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 001.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 002.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 003.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 004.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 005.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 006.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 007.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 008.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 009.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 010.mp4
...
by @sunhaiyu
2016.9.29
python里有意思的文件查找glob模块
python标准库之glob介绍 glob 文件名模式匹配,不用遍历整个目录判断每个文件是不是符合. 1.通配符 星号(*)匹配零个或多个字符 import glob for name in glob ...
python glob fnmatch 用于文件查找操作
參考: http://python.jobbole.com/81552/:Python模块学习:glob文件路径查找 http://blog.csdn.net/suiyunonghen/article ...
Python实现Linux下文件查找
import os, sys def search(curpath, s): L = os.listdir(curpath) #列出当前目录下所有文件 for subpath in L: #遍历当前目 ...
python 实现多层目录文件查找
本文针对多层目录下文件的查找. 利用 os模块的基本操作,并利用递归的思想实现了目录多层查找. 代码如下: import os #dir_name: 处理文件的起始目录 def count_file( ...
【原创】python倒排索引之查找包含某主题或单词的文件
什么是倒排索引? 倒排索引(英语:Inverted index),也常被称为反向索引.置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射.它是文 ...
用 Python 实现文件查找
用 Python 实现文件查找(BIF实现及队列实现) (1)利用内置函数实现文件查找 1.功能:返回用户输入的文件的绝对路径 2.设计思路: (1)用户输入在哪个盘进行查找 (2)遍历此盘文件,若为 ...
python对不同类型文件(doc,txt,pdf)的字符查找
python对不同类型文件的字符查找 TXT文件: def txt_handler(self, f_name, find_str): """ 处理txt文件 :param ...
在Python中使用glob模块查找文件路径的方法
在Python中使用glob模块查找文件路径的方法 glob模块是最简单的模块之一,内容非常少.用它可以查找符合特定规则的文件路径名.跟使用windows下的文件搜索差不多.查找文件只用到三个匹配符: ...
python实现在目录中查找指定文件的方法
python实现在目录中查找指定文件的方法 本文实例讲述了python实现在目录中查找指定文件的方法.分享给大家供大家参考.具体实现方法如下: 1. 模糊查找 代码如下: import os from ...
随机推荐
索引超出了数组界限(Microsoft.SqlServer.Smo)
SSMS连接远程SQL Server服务器是很方便的. 昨天我用SQL Server 2008 SSMS连接SQL Server 2012竟然报错,如下图: 在网上搜了,参考这个参考那个,太啰嗦了,确 ...
hdu 1517 博弈 **
博弈题: 题意:2 个人玩游戏,从 1 开始,轮流对数进行累乘,直到超过一个指定的值. 解题思路:如果输入是 2 ~ 9 ,因为Stan 是先手,所以Stan 必胜如果输入是 10~18 ,因为Oll ...
iOS开发-UITextView根据内容自适应高度
UITextView作为内容文本输入区域,有的时候我们需要根据内容动态改变文本区域的高度,效果如下: 定义UITextView,实现UITextViewDelegate: -(UITextView * ...
MVC模式简介
MVC模式是一种表现模式,它将web应用程序分成三个主要部分即:模型(Model)视图(View)控制器(Controller)M:Model主要是存储或者是处理数据的模型,包含了用户使用的数据,业务 ...
NOIP2014 飞扬的小鸟
3. 飞扬的小鸟 (bird.cpp/c/pas) [问题描述] Flappy Bird 是一款风靡一时的休闲手机游戏.玩家需要不断控制点击手机屏幕的频率来调节小鸟的飞行高度,让小鸟顺利通过画面右方的 ...
C#多线程(二)
一.线程池 每次创建一个线程,都会花费几百微秒级别的时间来创建一个私有的局部栈,每个线程默认使用1M的内存.这个可以在使用Thread类的构造函数时设置: new Thread(new ThreadS ...
用Redis轻松实现秒杀系统
秒杀系统的架构设计 秒杀系统,是典型的短时大量突发访问类问题.对这类问题,有三种优化性能的思路: 写入内存而不是写入硬盘 异步处理而不是同步处理 分布式处理 用上这三招,不论秒杀时负载多大,都能轻松应 ...
Math类中round、ceil和floor方法的功能
Java中的Math工具类用来完成除+.-.*./.%等基本运算以外的复杂运算,位于java.lang包下,Math类的构造器全是私有的(private),因此无法创建Math类的对象,Math类的方 ...
PyCharm安装使用 激活码
从pycharm官网 [http://www.jetbrains.com/pycharm/download/#section=windows]下载完整安装包 激活码激活 优点:Window.Mac.U ...
Spring Cloud的注册中心和服务者,消费者的构建
Spring Cloud的注册中心和服务者,消费者的构建 注册中心Eureka: 新建项目stu-eureka: StuEurekaApplication: package com.demo.stue ...
python单词查询_Python实现单词查询文件查找相关推荐
- python字典模糊查找_python字典模糊查询-女性时尚流行美容健康娱乐mv-ida网
女性时尚流行美容健康娱乐mv-ida网 mvida时尚娱乐网 首页 美容 护肤 化妆技巧 发型 服饰 健康 情感 美体 美食 娱乐 明星八卦 首页 > 高级搜索 access中的 模糊 查询 ...
- python翻转函数_Python翻转单词顺序
首先需要写一个reverse函数,把任何输入的字符串完全翻转.然后从前往后依次遍历新字符串,如果遇到空格,就把空格前的字符串用reverse翻转,添加空格,继续遍历.需要注意的是,如果新字符串结尾不是 ...
- python docx 复制_python制作单词抽测题(word版)(一)
需求: 作为双语教学的老师,学科单词一直是教学的重要一关 之前抽测学生都是用的自己做的word模板,打印出来一张纸上能切成三个人的试题: 类似的表格,打出来就是三个人的考试题 但是久而久之有的班级监管 ...
- 查python的软件_Python制作天气查询软件【python实战必学】
在这里插入图片描述 以前,公众号分享了如何使用 PyQt5 制作猜数游戏和计时器,这一次,我们继续学习:如何使用 PyQt5 制作天气查询软件. 如需获取源代码和 exe 文件,请在微信公众号Pyth ...
- python mongodb分页查询_python数据库分页查询语句
用django将数据从数据库提出并分页展示 不要笑这个太简单噢~~大神们路过的请自动忽略本文-- '''django有自带的分页功能,我这个是自己做的分页,效果其实是一样的. ''' 要把数据提出并展 ...
- python 表格查询_python单表查询
创建表 create table employee( id intnotnull unique auto_increment, name varchar(20) notnull, sex enum(' ...
- python常用单词有多少_Python常用单词
Python 常用单词 path [ p ɑ : θ ] 路径 class [kl ɑ :s] 类 public ['p ʌ blik] 公共的 , 公用的 private ['praivit] 私有 ...
- python 单词纠错_Python 简单单词纠错识别
用Python找到错误单词的最可能的正确形式 首先使用dp,计算两个字符串的最长字串长度 然后将错误 单词和词库中的单词注意对比,找到相似度最为符合的单词,输出前6个单词供用户选择 相似度的计算目前没 ...
- python反恐精英代码_python下如何查询CS反恐精英的服务器信息
前言 服务器的相关知识曾经让我非常困惑.我相信还有很多的Python开发者和我有着类似的遭遇.本文主要介绍了python下如何查询CS反恐精英的服务器信息,有需要的可以参考学习. CS反恐精英1.5版 ...
- python mysql批量查询_Python + MySQL 批量查询百度收录
做SEO的同学,经常会遇到几百或几千个站点,然后对于收录情况去做分析的情况 那么多余常用的一些工具在面对几千个站点需要去做收录分析的时候,那么就显得不是很合适. 在此特意分享给大家一个批量查询百度收录 ...
最新文章
- Android MarsDaemon实现进程及Service常驻
- 莫比乌斯反演专题学习笔记
- 哈佛最新成果:温度高于25℃可降低新冠病毒传染率,但不足以完全控制疫情...
- python的翻译-用Python做一个简单的翻译工具
- TestInside640-801 v11(神州testv11)题库视频讲解(全部上传完毕)
- 在选择屏幕的标准应用工具条上增加自定义按钮
- 服务器上的hdfs的配置文件中,namenode不能设置成127.0.0.1或者localhost,要设置ip或者映射别名
- PHP检测远端文件是否存在
- 泛型型协变逆变_Java泛型类型简介:协变和逆变
- Python | threading03 - 使用条件对象,实现线程间的同步
- python3读取txt文件数字签名_hash文件-对文件进行数字签名
- 我觉得这个世界不是特别的好,你说呢
- matlab hopty,运行Matlab时出现错误?Attempted to access rxd(500); index out of bou
- 汇川plc c语言,汇川plc可编程控制器模块种类
- 15个常用excel函数公式_工作中常用的excel函数公式大全,拿来即用!
- Eclipse中英文对照表(整理笔记)
- JSONP跨域以及CORS跨域
- matlab 分段函数 傅里叶变换,2005_09傅里叶变换及其应用 (第3版)_11482158.pdf
- b250支持服务器cpu,b250m主板上什么cpu
- fxp连接失败_用FLASHFXP连接站点,总显示连接失败(连接丢失),该怎么办呢
热门文章
- 简谈【自动化协议逆向工程技术的当前趋势】
- 星空主题设计理念_丰田埃尔法蒙娜丽莎星空版 博眼球设计理念
- 统计分析——假设检验、中心极限定理
- Guava学习笔记-Joiner
- Guava---Joiner
- PSD文件太大?高效压缩插件!
- el table 固定表头和首行_bootstrap table 固定 表头 冻结 窗格 固定首行 冻结首行 fixed 对齐 分享...
- Revisit Knowledge Distillation: a Teacher-free Framework
- 浏览器访问php文件提示下载文件,php – 使用浏览器提示下载文件
- linux udp 套接字编程获取源地址和目的地址(一)