python从一段文本中找出存在于词库的词语

有现成的库吗?

可能不是最佳答案,只是提供一个思路。

个人觉得这个问题并不需要什么库,先把词库载入,弄成列表什么的。然后再把你需要匹配的文本读入,反过来想,文本存在词库的词,也就是词库的词存在于文本中。

这样想的话,再用in就可以判断这个词在不在文本里面了,判断之后你是提取出来还是替换什么的,就看你怎么做了。

其实也可以用正则表达式暴力提取出来。

希望能帮到你

结巴分词后再匹配

和兔子的思路一样,实际上和分词里面的对stopword处理一样,可参考结巴分词中使用的whoosh库里各类

Tokenizer()

StopFilter()

代码地址

Tokenizer()

用于对需匹配文本做处理,里面很多种你选一种就行,如果对分词处理不太确定的话,可使用jieba,然后用”jieba.cut’或’jieba.cut_for_search’对文本进行分词,然后把你的词库写成列表,后面的

StopFilter()

实际上就是个for循环判断if in就行了。

这样行么

import re

text = '''python从一段文本中找出存在于词库的词语

有现成的库吗?'''

ciku = ['文本', '一段', '词语', '没有']

pattern = '|'.join(ciku)

re.findall(pattern, text)

>>>

['一段', '文本', '词语']

AC自动机 字数限制?单词忘了咋拼的了

python 词库 匹配_python从一段文本中找出存在于词库的词语相关推荐

  1. python查找字符串数量_python如何实现从字符串中找出字符1的位置以及个数的示例...

    #!/bin/env python #-*- coding:utf-8 -*- # """ 用enumerate将string中的1都找出来, 用enumerate实现: ...

  2. python找色_python实现从一组颜色中找出与给定颜色最接近颜色的方法

    本文实例讲述了python实现从一组颜色中找出与给定颜色最接近颜色的方法.分享给大家供大家参考.具体分析如下: 这段代码非常有用,可以找到指定颜色相似的颜色,比如有一组8个颜色,现在给定一个rgb格式 ...

  3. python xlsx追加数据_python 实现众多excel表格中关键数据追加项目配置库台账.xlsx...

    网上已经有很多这类的文章了,今天写这个就算是对今天的写的这个脚本的一个巩固和说明吧,话说同事每个月末都要从大量的excel表格中导出一点点数据并输出到另一个表格中,所以想啊,写个脚本自动化一点吧,不然 ...

  4. python 动态变量 excel 配置_python 实现众多excel表格中关键数据追加项目配置库台账.xlsx...

    网上已经有很多这类的文章了,今天写这个就算是对今天的写的这个脚本的一个巩固和说明吧,话说同事每个月末都要从大量的excel表格中导出一点点数据并输出到另一个表格中,所以想啊,写个脚本自动化一点吧,不然 ...

  5. python求近似值_python 已知一个字符,在一个list中找出近似值或相似值实现模糊匹配...

    已知一个元素,在一个list中找出相似的元素 使用场景: 已知一个其它来源的字符串, 它有可能是不完全与我数据库中相应的字符串匹配的,因此,我需要将其转为适合我数据库中的字符串 使用场景太绕了, 直接 ...

  6. python 已知一个字符,在一个list中找出近似值或相似值, 模糊匹配

    已知一个元素,在一个list中找出相似的元素 使用场景: 已知一个其它来源的字符串, 它有可能是不完全与我数据库中相应的字符串匹配的,因此,我需要将其转为适合我数据库中的字符串 使用场景太绕了, 直接 ...

  7. Python实现计算一段文本中每个单词出现的次数

    看实验楼的课程,有一个小练习,做了一下.要求用Python实现计算一段文本中每个单词出现的次数. sentence = 'hello world nihao world hey hello java ...

  8. javascript实现 文本过滤 找出一段文本中的所有数字/数值 并在去重后排序

    文章目录 Intro 浏览器控制台 JavaScript API测试 从一串文本中按照某种模式提取出匹配的子字符串 String.prototype.match(regexp) 数组去重 Array- ...

  9. 在一段英文字母中找出每个字母重复数量的方法(Java)

    首先需要了解下java的hashmap数据类型: hashmap是基于哈希表的Map接口的实现.hashmap有两个元素,一个是key(键名),一个是value(键值),就相当于一个字典了,和Pyth ...

最新文章

  1. Laravel安装后没有vendor文件夹
  2. Java定义接口变量为接收类型有什么好处(面向接口编程)
  3. ML之xgboostGBM:基于xgboostGBM算法对HiggsBoson数据集(Kaggle竞赛)训练(两模型性能PK)实现二分类预测
  4. 查询阜阳2021高考成绩,今年阜阳高考状元名单是谁,2021年阜阳高考状元多少分
  5. 简易实现 TextView单行文本水平触摸滑动效果
  6. C# 一个基于.NET Core3.1的开源项目帮你彻底搞懂WPF框架Prism
  7. Hadoop完全分布式集群——Hadoop 配置
  8. asymptotic (infinite-training-sample)
  9. 怎么做自媒体,这份入门攻略,建议收藏
  10. js 监听浏览器刷新操作
  11. 大神详细的ACM训练计划
  12. 背景音乐默认播放css,可以通过CSS改变背景音乐播放器的颜色吗?
  13. 2017计科01-04编译原理模拟测试一
  14. 哈利波特分院考试(HP)
  15. 使用按键精灵实现界面点击自动化
  16. 量子技术将如何颠覆未来战争形态
  17. 基于三维地图的可视化工厂优势
  18. 同一个ssh key用在多台电脑上
  19. 环境变量之java环境变量
  20. 一个帐号多设备登录的处理

热门文章

  1. 九度 1365 贝多芬第九交响曲
  2. 【iOS】苹果开发者账号续费问题
  3. 联想拯救者y7000电脑开机一直是锁屏界面,点一下就黑屏,无法进入输密码界面
  4. python汇率的转换程序_如何实现python汇率转换代码
  5. SAP中汇率取值选择逻辑分析测试
  6. vue2、vue3中自定义v-model的使用和区别
  7. 数据治理(四):数据仓库数据质量管理
  8. 某网赚游戏sign解密
  9. 家里宽带628连不上_win7系统宽带连接提示错误628的解决方法
  10. 【渝粤教育】电大中专跨境电子商务理论与实务 (12)作业 题库