python 词库 匹配_python从一段文本中找出存在于词库的词语
python从一段文本中找出存在于词库的词语
有现成的库吗?
可能不是最佳答案,只是提供一个思路。
个人觉得这个问题并不需要什么库,先把词库载入,弄成列表什么的。然后再把你需要匹配的文本读入,反过来想,文本存在词库的词,也就是词库的词存在于文本中。
这样想的话,再用in就可以判断这个词在不在文本里面了,判断之后你是提取出来还是替换什么的,就看你怎么做了。
其实也可以用正则表达式暴力提取出来。
希望能帮到你
结巴分词后再匹配
和兔子的思路一样,实际上和分词里面的对stopword处理一样,可参考结巴分词中使用的whoosh库里各类
Tokenizer()
和
StopFilter()
代码地址
Tokenizer()
用于对需匹配文本做处理,里面很多种你选一种就行,如果对分词处理不太确定的话,可使用jieba,然后用”jieba.cut’或’jieba.cut_for_search’对文本进行分词,然后把你的词库写成列表,后面的
StopFilter()
实际上就是个for循环判断if in就行了。
这样行么
import re
text = '''python从一段文本中找出存在于词库的词语
有现成的库吗?'''
ciku = ['文本', '一段', '词语', '没有']
pattern = '|'.join(ciku)
re.findall(pattern, text)
>>>
['一段', '文本', '词语']
AC自动机 字数限制?单词忘了咋拼的了
python 词库 匹配_python从一段文本中找出存在于词库的词语相关推荐
- python查找字符串数量_python如何实现从字符串中找出字符1的位置以及个数的示例...
#!/bin/env python #-*- coding:utf-8 -*- # """ 用enumerate将string中的1都找出来, 用enumerate实现: ...
- python找色_python实现从一组颜色中找出与给定颜色最接近颜色的方法
本文实例讲述了python实现从一组颜色中找出与给定颜色最接近颜色的方法.分享给大家供大家参考.具体分析如下: 这段代码非常有用,可以找到指定颜色相似的颜色,比如有一组8个颜色,现在给定一个rgb格式 ...
- python xlsx追加数据_python 实现众多excel表格中关键数据追加项目配置库台账.xlsx...
网上已经有很多这类的文章了,今天写这个就算是对今天的写的这个脚本的一个巩固和说明吧,话说同事每个月末都要从大量的excel表格中导出一点点数据并输出到另一个表格中,所以想啊,写个脚本自动化一点吧,不然 ...
- python 动态变量 excel 配置_python 实现众多excel表格中关键数据追加项目配置库台账.xlsx...
网上已经有很多这类的文章了,今天写这个就算是对今天的写的这个脚本的一个巩固和说明吧,话说同事每个月末都要从大量的excel表格中导出一点点数据并输出到另一个表格中,所以想啊,写个脚本自动化一点吧,不然 ...
- python求近似值_python 已知一个字符,在一个list中找出近似值或相似值实现模糊匹配...
已知一个元素,在一个list中找出相似的元素 使用场景: 已知一个其它来源的字符串, 它有可能是不完全与我数据库中相应的字符串匹配的,因此,我需要将其转为适合我数据库中的字符串 使用场景太绕了, 直接 ...
- python 已知一个字符,在一个list中找出近似值或相似值, 模糊匹配
已知一个元素,在一个list中找出相似的元素 使用场景: 已知一个其它来源的字符串, 它有可能是不完全与我数据库中相应的字符串匹配的,因此,我需要将其转为适合我数据库中的字符串 使用场景太绕了, 直接 ...
- Python实现计算一段文本中每个单词出现的次数
看实验楼的课程,有一个小练习,做了一下.要求用Python实现计算一段文本中每个单词出现的次数. sentence = 'hello world nihao world hey hello java ...
- javascript实现 文本过滤 找出一段文本中的所有数字/数值 并在去重后排序
文章目录 Intro 浏览器控制台 JavaScript API测试 从一串文本中按照某种模式提取出匹配的子字符串 String.prototype.match(regexp) 数组去重 Array- ...
- 在一段英文字母中找出每个字母重复数量的方法(Java)
首先需要了解下java的hashmap数据类型: hashmap是基于哈希表的Map接口的实现.hashmap有两个元素,一个是key(键名),一个是value(键值),就相当于一个字典了,和Pyth ...
最新文章
- Laravel安装后没有vendor文件夹
- Java定义接口变量为接收类型有什么好处(面向接口编程)
- ML之xgboostGBM:基于xgboostGBM算法对HiggsBoson数据集(Kaggle竞赛)训练(两模型性能PK)实现二分类预测
- 查询阜阳2021高考成绩,今年阜阳高考状元名单是谁,2021年阜阳高考状元多少分
- 简易实现 TextView单行文本水平触摸滑动效果
- C# 一个基于.NET Core3.1的开源项目帮你彻底搞懂WPF框架Prism
- Hadoop完全分布式集群——Hadoop 配置
- asymptotic (infinite-training-sample)
- 怎么做自媒体,这份入门攻略,建议收藏
- js 监听浏览器刷新操作
- 大神详细的ACM训练计划
- 背景音乐默认播放css,可以通过CSS改变背景音乐播放器的颜色吗?
- 2017计科01-04编译原理模拟测试一
- 哈利波特分院考试(HP)
- 使用按键精灵实现界面点击自动化
- 量子技术将如何颠覆未来战争形态
- 基于三维地图的可视化工厂优势
- 同一个ssh key用在多台电脑上
- 环境变量之java环境变量
- 一个帐号多设备登录的处理