python同义词替换(jieba分词)
python同义词替换(jieba分词)
TihuanWords.txt文档格式
注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词。
年休假 年假 年休
究竟 到底
回家场景 我回来了
代码
import jiebadef replaceSynonymWords(string1):# 1读取同义词表,并生成一个字典。combine_dict = {}# synonymWords.txt是同义词表,每行是一系列同义词,用空格分割for line in open("TihuanWords.txt", "r", encoding='utf-8'):seperate_word = line.strip().split(" ")num = len(seperate_word)for i in range(1, num):combine_dict[seperate_word[i]] = seperate_word[0]print(seperate_word)print(combine_dict)# 2提升某些词的词频,使其能够被jieba识别出来jieba.suggest_freq("年休假", tune=True)# 3将语句切分成单词seg_list = jieba.cut(string1, cut_all=False)f = "/".join(seg_list).encode("utf-8")f = f.decode("utf-8")print(f)# 4返回同义词替换后的句子final_sentence = " "for word in f.split('/'):if word in combine_dict:word = combine_dict[word]final_sentence += wordelse:final_sentence += word# print final_sentencereturn final_sentencestring1 = '年休到底放几天?'
print(replaceSynonymWords(string1))
结果
python同义词替换(jieba分词)相关推荐
- Python开发 之 Jieba分词示例
文章目录 1.唠唠叨叨 2.先看一下效果吧 3.核心代码 3.1.分词 3.2.读取Excel文件 3.3.去除数组中的\n符 4.Github源码分享 5.其它小知识 5.1.在github.com ...
- python汉字同义词替换_python同义词替换的实现(jieba分词)
TihuanWords.txt文档格式 注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词. 年休假 年假 年休 究竟 到底 回家场景 我回来了 代码 import jieba def re ...
- python自然语言处理 分词_Python 自然语言处理(基于jieba分词和NLTK)
Python 自然语言处理(基于jieba分词和NLTK) 发布时间:2018-05-11 11:39, 浏览次数:1038 , 标签: Python jieba NLTK ----------欢迎加 ...
- Python 自然语言处理(基于jieba分词和NLTK)
----------欢迎加入学习交流QQ群:657341423 自然语言处理是人工智能的类别之一.自然语言处理主要有那些功能?我们以百度AI为例 从上述的例子可以看到,自然语言处理最基本的功能是词法分 ...
- 基于Python的中英文分词基础:正则表达式和jieba分词器
基于Python的中英文分词基础:正则表达式和jieba分词器 前言介绍 英文字符串处理 Python中的str 正则表达式 Python中的正则表达式模块 re 小练习 字符串中出现频次最多的字母 ...
- Python第三方库jieba(中文分词)入门与进阶(官方文档)
jieba "结巴"中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式, ...
- python语言入门r_小结:jieba分词的Python与R语言基础用法介绍
当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 人们说话不是一个词一个词崩出来的,文章也就由句子组成.要想让机器识别美文,体会中华名族汉语的博大精深,不是不可能.但是,首先需要将其转化成其 ...
- python怎么安装jieba库-python环境jieba分词的安装
我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明 ======= 代码对 Python 2/3 均兼容 * 全自动安装:`e ...
- Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略
Py之jieba:Python包之jieba包(中文分词最好的组件)简介.安装.使用方法之详细攻略 目录 jieba简介 jieba安装 jieba使用方法 1.进行分词 jieba简介 jieba应 ...
最新文章
- 用python画皮卡丘源代码-利用Python绘制萌萌哒的皮卡丘
- 我所有的博客都在这里了,拿出来晒晒~~
- linux系统rar命令行,Linux下rar命令详解
- C#winform两个或多个panel重叠布局时如何显示一个
- redis tutorial
- 6U_ VPX_ XC7VX690T_2TMS320C6678信号处理卡
- 在html中打字如何变大,如何把字体放大 如何更改桌面与网页字体大小-电脑教程...
- html 手指状态,HTML5技术教程 手指按下和手指抬起触发事件
- 阿里云边缘云场景化商业实践
- Exception 异常
- 项目笔记——简易RPC框架(待升级)
- php7.1 rc,解决Windows上编译PHP7.1拓展的错误
- 深入理解Java Stream流水线
- Git与Bitbucket配合使用教程
- 关键词分析和查找工具
- java word 模板_java通过word模板生成word文档
- Android集成微信支付功能
- Atitit 手机号码选号 规范 流程 attilax总结 v4 s81.docx 1. Keyword关键词	2 2. 靓号的定义	2 3. 靓号的重要意义 与解决问题 为什么我们需要靓号
- SQL基础——查询基础
- 2021IDEA如何使用鼠标调节字体大小