发现同义词 python_python同义词替换的实现(jieba分词)
这篇文章主要介绍了python同义词替换的实现(jieba分词),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
TihuanWords.txt文档格式
注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词。
年休假 年假 年休
究竟 到底
回家场景 我回来了
代码
import jieba
def replaceSynonymWords(string1):
# 1读取同义词表,并生成一个字典。
combine_dict = {}
# synonymWords.txt是同义词表,每行是一系列同义词,用空格分割
for line in open("TihuanWords.txt", "r", encoding='utf-8'):
seperate_word = line.strip().split(" ")
num = len(seperate_word)
for i in range(1, num):
combine_dict[seperate_word[i]] = seperate_word[0]
print(seperate_word)
print(combine_dict)
# 2提升某些词的词频,使其能够被jieba识别出来
jieba.suggest_freq("年休假", tune=True)
# 3将语句切分成单词
seg_list = jieba.cut(string1, cut_all=False)
f = "/".join(seg_list).encode("utf-8")
f = f.decode("utf-8")
print(f)
# 4返回同义词替换后的句子
final_sentence = " "
for word in f.split('/'):
if word in combine_dict:
word = combine_dict[word]
final_sentence += word
else:
final_sentence += word
# print final_sentence
return final_sentence
string1 = '年休到底放几天?'
print(replaceSynonymWords(string1))
结果
以上就是本文的全部内容,希望对大家的学习有所帮助,
发现同义词 python_python同义词替换的实现(jieba分词)相关推荐
- python同义词替换(jieba分词)
python同义词替换(jieba分词) TihuanWords.txt文档格式 注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词. 年休假 年假 年休 究竟 到底 回家场景 我回来了 代 ...
- Oracle同义词以及同义词循环链错误。
同义词: 就是别名的意思.与视图类似,是一种映射关系. 是表.索引.视图的对象的别名. 创建: create public synonym table_name for user.table_name ...
- oracle怎么给表建同义词_Oracle同义词的创建与删除
用户可以在自己的模式中创建同义词,这需要具有CREATE SYNONYM这个系统权限.如果希望在其他用户的模式中创建同义词,则需要具有CREATE ANY SYNONYM这个系统权限.普通用户创建的同 ...
- python自然语言处理 分词_Python 自然语言处理(基于jieba分词和NLTK)
Python 自然语言处理(基于jieba分词和NLTK) 发布时间:2018-05-11 11:39, 浏览次数:1038 , 标签: Python jieba NLTK ----------欢迎加 ...
- Python 自然语言处理(基于jieba分词和NLTK)
----------欢迎加入学习交流QQ群:657341423 自然语言处理是人工智能的类别之一.自然语言处理主要有那些功能?我们以百度AI为例 从上述的例子可以看到,自然语言处理最基本的功能是词法分 ...
- Elasticsearch配置jieba分词分析器
jieba分词是中文里面比较好的分词器,而当前Elasticsearch官方并不支持jieba分词,但可以通过配置plugins的方式使用jieba分词器作为es的analyzer. 配置环境:- m ...
- jieba分词_从语言模型原理分析如何jieba更细粒度的分词
jieba分词是作中文分词常用的一种工具,之前也记录过源码及原理学习.但有的时候发现分词的结果并不是自己最想要的.比如分词"重庆邮电大学",使用精确模式+HMM分词结果是[&quo ...
- 自然语言处理之jieba分词
在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名.地名等需要考虑作为一个整体,比如New York).而对于中文还有其他类似形式的语言,我们需要根据来特殊处 ...
- jieba分词并做分析
Github:结巴分词地址 https://github.com/fxsjy/jieba 几种分词方法的简单使用: 一 . jieba 安装.示例 pip install jieba,jie ...
- 如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程
摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程. 工具:python,pyspark,jieba,pandas,numpy 数 ...
最新文章
- 当前目录下所有代码中查找
- earning Multi-Domain Convolutional Neural Networks for Visual Tracking
- QT 调用QWebEngineView显示网页
- python利用递归函数实现斐波那契数列_Python递归及斐波那契数列
- linux网卡流量定时记录脚本crontab与手动执行结果不一致问题处理
- 【Axure原型分享】会议管理原型模板
- Python实现网页自动截图
- 吃饭 睡觉 打豆豆!!!
- 投入产出表分析(交通经济学作业)
- python写打飞机游戏
- 华东师范大学计算机学院和软件学院,华东师大撤销计算机科学与软件工程等学院建制,成立信息学部...
- 计算机网络谢希仁第七版课后习题答案(第四章)
- jQuery 学习-样式篇(五):jQuery 设置元素的 html 结构或 text 内容
- java课题背景,办公自动化系统论文-课题研究的背景和意义及国内外发展状况.doc...
- VS CODE下 无法执行 node-gyp 命令
- MySQL开启定时任务
- SAP ABAP OOALV常用的方法
- discuz防灌水设置
- 爱贝支付 - 服务端 - nodejs实现
- 人脸识别病人就诊记录系统电子病历系统
热门文章
- 互联网+脑科学,中国脑计划的机会
- 笔记本电脑进入BIOS设置快捷键大全
- excel迷你图 vba_如何在Excel 2010中使用迷你图
- 中望3d快捷键命令大全_中望3D快捷键设置
- 批处理从入门到精通_DOS/BAT
- DSP中EALLOW,EDIS,EINT,DINT,ERTM,DRTM的作用
- Mybatis-plus最新代码生成器(3.5.1+)的使用
- 51单片机最小系统板制作
- 我们都是穷人甲乙丙丁
- Capture One使用的几个小技巧