我正在尝试创建一个目录爬虫来搜索文件夹及其所有子文件夹中的所有文件中的特定关键字。这就是我目前所拥有的(在本例中,我要查找关键字“olofx”):import os

rootDir = os.getcwd()

def scan_file(filename, dirname):

print(os.path.join(dirname,filename))

contains = False

if("olofx" in filename):

contains = True

else:

with open(os.path.join(dirname,filename)) as f:

lines = f.readlines()

for l in lines:

#print(l)

if("olofx" in l):

contains = True

break

if contains:

print("yes")

for dirName, subdirList, fileList in os.walk(rootDir):

for fname in fileList:

scan_file(fname, dirName)

问题是当我找到我的一个excel示例文件时,字符似乎不可读。在

以下是excel文件的一些输出:

^{pr2}$

我用过openpyxl,我知道我可以用它来读取excel文件,但是我想要一个可以读取各种文件的脚本:word、excel、pdf等等,不管文件类型如何,都能代表文件的内容?在

谢谢你

python查找关键字在目录的某些文件哪个位置 行数_Python目录爬虫扫描各种文件并搜索关键字...相关推荐

  1. 代码行统计工具:根据命令行输入的指定目录及文件类型进行统计目录或单个文件的代码行数

    #统计指定目录(count_path).指定文件类型文件(file_types)的代码量 import os def count_all_file_code(count_path,file_types ...

  2. python 文件行数_python—文件和数据(文件行数 文件字符分布)

    文件行数 描述 打印输出附件文件的有效行数,注意:空行不计算为有效行数. 文件下载地址: 链接:https://pan.baidu.com/s/1xURpGrALY0aZaoIEZI1LpA 提取码: ...

  3. python如何打开txt文件、并算词频_Python 合并多个TXT文件并统计词频的实现

    需求是:针对三篇英文文章进行分析,计算出现次数最多的 10 个单词 逻辑很清晰简单,不算难, 使用 python 读取多个 txt 文件,将文件的内容写入新的 txt 中,然后对新 txt 文件进行词 ...

  4. linux wc read,Linux 下使用 wc 统计文件夹下所有文件的代码行数(包括子目录)-Go语言中文社区...

    wc 命令用于统计文件内容的行数.单词数.字母数. 但是如果想统计一个目录下所有文件的行数,wc 并没有提供递归统计. 不过,可以结合 find 命令,例如: $ wc -l `find -name ...

  5. Python+os+openpyxl 批量获取Excel的文件名和最大行数

    1. 提出需求 这已经不知道是粉丝问我的第几个办公自动化的问题了,并且这些问题都是大家在学习和工作中碰到过的真实问题场景.其实从下图中已经可以很明确的看出别人的需求了,我这里就不用在赘述了,下面直接上 ...

  6. 使用Eclipse可以方便的统计工程或文件的代码行数,

    使用Eclipse可以方便的统计工程或文件的代码行数,方法如下: 1.点击要统计的项目或许文件夹,在菜单栏点击Search,然后点击File... 2.选中正则表达式(Regular expressi ...

  7. java中获取文件总行数_关于java:如何以有效的方式获取文件中的行数?

    本问题已经有最佳答案,请猛点这里访问. 我有一个大文件. 它包括大约3.000-20.000行. 如何使用Java获取文件中的行总数? 从你的评论到答案来判断,你要找的词是"有效的" ...

  8. flutter 打印 print 文件信息、行数、打印信息

    var test = "testContent";print("test:$test"); 打印结果: I/flutter (12983): test:test ...

  9. 批量将一个或多个 Word 文件按固定页数拆分成多个 Word 文件

    概要:我们经常面对很多 Word 文档,有些 Word 文档有几百页,有时候我们希望将这些 Word 文档都按固定的页数拆分成多个 Word 文档.有没有一种简单的方法能够批量的将这些 Word 文件 ...

最新文章

  1. python实现ocr识别文字
  2. vue 搜索框header_在Vue框架下使用Fullcalendar
  3. 超完整的 Chrome 浏览器客户端调试大全
  4. selenium中录制拖拽动作
  5. scala zip--拉链操作入门
  6. POSTFIX服务简介
  7. Oracle用户可要顶住了:准备好大规模补丁工作!以修补多达 433 个的新安全漏洞...
  8. 安卓显示视频画面的动画效果及代码
  9. TCP/IP、HTTP、HTTPS
  10. NATS 分布式消息队列系统
  11. C/C++中使用PlaySound()播放音乐
  12. 小米(xiaomi)红米(Redmi)手机一开机就自动重启:find device closed unexpectedly
  13. win7系统计算机虚拟内存不足,Win7系统虚拟内存不足的应对办法
  14. DLNA介绍(包括UPnP)
  15. greenDao框架浅入深出
  16. 麒麟操作系统之打印机适配查询
  17. 软件项目文档规划的大道至简、小道至繁原则
  18. 华为AC+AP配置笔记
  19. 2021河南卫生副高考试成绩查询,中国卫生人才网 中国卫生人才网:河南卫生资格成绩查询入口2021...
  20. 如何安装配置BRAS

热门文章

  1. [Mysql] 删除数据
  2. c语言表单文件上传,requests实现文件上传(对应postman form-data)
  3. python sched_python定时任务-sched模块
  4. AEROFILTRI套筒粉末过滤器CRT
  5. Spring加载流程源码解析
  6. 阿西莫夫50年前预言,网文网游正媾和——王冠雄
  7. python实现组合cmn公式_python %x
  8. 《港联证券》新三板股票交易规则是什么?如何进行交易?
  9. Java的instanceof关键字
  10. 数字电视芯片启动流程