Brooks老师今天在群里分享的python代码,布鲁老师目前供职于新浪爱问,新浪爱问是以问答内容为主,他今天分享的python编写的小工具作用主要是用于关键词筛选分类,可以快速提取具有某类特征的词,我测试了下,确实很好用。

我测试的词量不多,600多个词,基本上1秒钟就分好了(目前用的主要是提取疑问词用于做问答),效果如下图:

疑问词提取结果

代码如下:

# -*- coding: utf-8 -*-

import sys

# 用法示例:python3 filter_kw.py 关键词.txt 结果.txt

# 获取命令行参数,分别获取关键词文件和结果文件名

kwfile, retfile = sys.argv[-2:]

filters = {'如何','怎么','哪','多少','什么','多久','吗','能'}

ret = open(retfile, mode='w', encoding='utf-8')

with open(kwfile, encoding='utf-8') as f:

for line in f:

for w in filters:

if w in line:

ret.write(line)

break

ret.flush()

ret.close()

【使用注意】 关键词的txt文档一定要是utf-8格式的,而不是windows默认的ANSI,否则运行会报错

python提取关键词_【Python工具】30万关键词提取疑问词只需2秒,效率高到飞起!...相关推荐

  1. 处理100万条数据 python_仅需1秒!搞定100万行数据:超强Python数据分析利器

    作者:Maarten.Roman.Jovan 编译:1+1=6 1.前言 使用Python进行大数据分析变得越来越流行.这一切都要从NumPy开始,它也是今天我们在推文介绍工具背后支持的模块之一. 2 ...

  2. python移动文件的函数_移动并重命名2000个文件,用Python,只需3秒

    原标题:移动并重命名2000个文件,用Python,只需3秒 作者:陈熹.刘早起 来源:早起Python 今天介绍的案例是如何利用Python来 自动化移动.修改.重命名文件/夹,这样的操作在日常办公 ...

  3. python 画八角形步骤_只需45秒,Python给故宫画一组手绘图!

    原标题:只需45秒,Python给故宫画一组手绘图! 作者 |丁彦军 来源 |恋习Python(ID:sldata2017) 13日早晨,当北京市民拉开窗帘时发现,窗外雪花纷纷扬扬在空中飘落,而且越下 ...

  4. 用python画函数的梯度图_只需45秒,用Python给故宫画一组雪景手绘图

    原标题:只需45秒,用Python给故宫画一组雪景手绘图 导读:最近故宫总能"摊上事". 今天是元宵节,一批幸运鹅拿着在故宫门票预售网站瘫痪之前抢来的门票,夜游故宫,成为94年来第 ...

  5. 为何插入10万数据只需2秒

    文章目录 一.前言 二.问题 1.url后面useServerPrepStmts是什么? 2.url后面rewriteBatchedStatements是什么? 3.这两个参数对语句执行有什么影响? ...

  6. excel其中一个页签慢_技巧 | 只需10秒,便可对Excel多页签进行快速有效汇总

    在Excel中,多页签的数据汇总,是一个出镜频率极高的问题,有人用VBA,有人用函数,有人用最传统的方式--总之,就是八仙过海,各显神通-- 然而,模式虽多,但当Excel小白实操起来,大脑又是一片空 ...

  7. python医学应用_数据分析工具鄙视链:Python、R语言是老大,Excel只能称小弟?

    最新行业报告 2020数据分析.商业分析行业报告工作岗位与职能.薪资对比.热招公司等多方面详细解读帮助你一网打尽,斩获心仪Offer! 扫码回复[数据分析 0]立即领取 History语言发展史ABC ...

  8. python 病毒 基因_#Python#提取基因对应的蛋白质名

    提取基因对应的蛋白质官方名 最开始,是需要将基因跟其编码的蛋白质对应起来,找遍了各种数据库都没发现有相关的注释文件,Uniprot作为处理蛋白质的大佬,结果里都有,肯定有办法能够满足需求. 搜索TP5 ...

  9. python课程开课吧怎么样-年薪30万,未来十年大量缺人,这个技能在金融圈到底有多吃香?...

    论近年来,金融圈最火爆的语言技能,非Python莫属. 四大:不想被淘汰,就得学Python 四大不仅借助Python实现底稿的批量自动化处理.还推出了自己的财务机器人解决方案. 投行:想做Banke ...

  10. 查python的软件_[Python实战]Python制作天气查询软件

    以前,公众号分享了如何使用 PyQt5 制作猜数游戏和计时器,这一次,我们继续学习:如何使用 PyQt5 制作天气查询软件. 开发环境Python3 PyQt5 requests 准备工作 首先要获取 ...

最新文章

  1. GitHub开源的AI下五子棋(基于博弈树极大极小值alpha-beta剪枝搜索)
  2. 通配符(WildCard)的使用
  3. java 进程消失_Java进程诡异消失问题
  4. flask(一)之路由和视图
  5. C++标准:C++不允许修改任何基本型别(包括指针)的暂时值
  6. 字符串数组中查找字符串
  7. ASP.NET进阶(8):HttpModule和HttpApplication
  8. Python基础【day02】:元组和购物车练习的知识点
  9. android 获取栈顶activity,Android : 如何得到Activities栈顶的Activity名称
  10. Objective-C中的NSNumber和NSString
  11. 微信小程序微商城(七):动态API实现商品分类
  12. 【千份热门课后习题答案大全】
  13. linux uvc协议_USB摄像头的UVC协议
  14. Arduino通过usbasp编程器烧录程序或者bootloaders时出现以下错误解决方法
  15. IDEA自带的逆向工程功能
  16. TTTTTTTTTTDDDDDDDD原来是这样。。。。。。。。。。的
  17. Android各版本源码网盘下载(不断更新)
  18. IOT语义互操作性之本体论
  19. ubuntu 打印git邮箱_win 10配置Ubuntu子系统—可以考虑放弃VMware了
  20. 解决QT-mingw32编译“ too many sections(...)”问题

热门文章

  1. uniapp密码输入框
  2. 路由器搭建个人网站_PittMesh路由器归个人所有
  3. 网盘目录搜索系统源码+搭建教程
  4. word文档如何去掉光标
  5. 脚本之家电子书下载:https://www.jb51.net/books/
  6. 搜索广告的整体架构-子模块划分
  7. html选课系统制作,校园选课系统的制作方法
  8. DICOM中窗宽窗位含义
  9. 不可预料的压缩文件末端的解决方法
  10. 互联网下半场的基本玩法