库安装:

1.命令提示符中安装,建议使用国内地址进行安装:

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/

阿里云 http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
豆瓣(douban) http://pypi.douban.com/simple/
清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

2.Pycharm中安装库

添加国内镜像地址后搜索安装,在我上一篇文章中有讲怎么添加安装。

在Pycharm中安装及测试PaddleOCR_哒哒哒敲敲敲的博客-CSDN博客https://blog.csdn.net/m0_60321191/article/details/125388501?spm=1001.2014.3001.5501只要搜索jieba就可以

准备同义词词林:

我用的是哈工大信息检索研究中心同义词词林扩展版,官网的下载链接已经失效,站内的资源都要收费,我会上传一份,供大家免费下载。

哈工大信息检索研究中心同义词词林扩展版-Python文档类资源-CSDN文库https://download.csdn.net/download/m0_60321191/85847971

jieba库测试:

jieba库有三种分词模式

代码:

s = '这是一段基于jieba的分词测试文本'l = jieba.lcut(s, cut_all=True) #'cut_all=True'全模式,默认为False
print('全模式:',l)l = jieba.lcut(s) #精确模式
print('精确模式:', l)l = jieba.lcut_for_search(s) #搜索引擎模式
print('搜索引擎模式:', l)

结果:

全模式: ['这', '是', '一段', '基于', 'jieba', '的', '分词', '测试', '文本']
精确模式: ['这是', '一段', '基于', 'jieba', '的', '分词', '测试', '文本']
搜索引擎模式: ['这是', '一段', '基于', 'jieba', '的', '分词', '测试', '文本']

同义词替换:

代码:

import randomimport jieba# 将词林转换为一个词典
def dict(txt=r'D:\Python\同义词替换_jieba\tihuan.txt'):dict = {}# 将词林文件逐行读取for i in open(txt, 'r'):values = []s = ''# 将第9后面的文字切割好转化为字典的值for j in i[9:]:if j == ' ' or j == '\n':values.append(s)s = ''continueelse:s += jdict[i[:7]] = valuesreturn dict# 从词典中选取一个随机的同义词
def get_new_word(dict={}, word=''):# 读取词典的值for i in dict.values():# 比较要替换的词和字典值的第一个词是否相同if word == i[0]:# 如果字典中只有一个词,则输出原来的词if len(i) == 1:break# 否则输出除原来词以外的随机词else:i.remove(word)word = random.choice(i)breakelse:continuereturn word# 进行同义词替换
def repalce_words(t=''):l = jieba.lcut(t)new_l = []# 将替换后的词加到新列表中for i in l:new_l.append(get_new_word(dict(r'D:\Python\同义词替换_jieba\tihuan.txt'), i))s = ''# 读取新列表中的词for i in new_l:s += ireturn sif __name__ == '__main__':print(repalce_words('听我说谢谢你,因为有你,温暖了四季'))

输出结果:

听俺说多谢若,为有着公,温暖矣四时

总结:

测试过以后发现效果不是很理想,后来又用了synonyms,效果好一点,下一期会写synonyms的安装及使用。

基于jieba和哈工大信息检索研究中心同义词词林扩展版的同义词替换安装与测试相关推荐

  1. 同义词词林 java_基于同义词词林扩展版的词语相似度计算

    词语相似度计算 词义相似度计算在很多领域中都有广泛的应用,例如信息检索.信息抽取.文本分类.词义排歧.基于实例的机器翻译等等.国内目前主要是使用知网和同义词词林来进行词语的相似度计算. 本文主要是根据 ...

  2. python jieba库分词_Python基于jieba库进行简单分词及词云功能实现方法

    本文实例讲述了Python基于jieba库进行简单分词及词云功能实现方法.分享给大家供大家参考,具体如下: 目标: 1.导入一个文本文件 2.使用jieba对文本进行分词 3.使用wordcloud包 ...

  3. 媒体利器!最新同义词词库助力创作伪原创

    [文章标题] "激动人心!最新同义词词库发布,助力媒体创作伪原创" [文章内容] 近日,一份全新的同义词词库正式发布,为媒体行业带来了一股新的创作风潮.这个词库的独特之处在于,它能 ...

  4. NLP---LTP(哈工大社会计算与信息检索研究中心)

    介绍 语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统.LTP制定了基于XML的语言处理结果表示, ...

  5. NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情)

    NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情) 目录 输出词云图结果 输出文本统计 设计思路 实 ...

  6. Java web:基于jieba分词器(或ansj分词器)的文章关键词字符云(词云图)

    上来先丢一个展示图,吸引一下注意力(跑. 上图为对某论文用jieba分词后,计算其逆文档频率(TF-IDF)作为权重,并用echarts的字符云扩展包echarts-wordcloud画出来的字符云图 ...

  7. python去除文本停用词(jieba分词+哈工大停用词表)

    停用词表 上github搜索中文停用词就有很多版本,百度.哈工大等.(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上) ht ...

  8. springboot基于Elasticsearch6.x版本进行ES同义词、停用词(停止词)插件配置,远程词典热加载及数据库词典热加载总结,es停用词热更新,es同义词热更新

    前言:ES版本差异较大,建议跨版本的同学,可以先了解一下版本区别,建议不要跨版本使用插件或者进行项目调试. 本总结主要基于6.x版本的6.5.1(6.2.2实测可用),分词器为IK,下载地址:http ...

  9. python自然语言处理 分词_Python 自然语言处理(基于jieba分词和NLTK)

    Python 自然语言处理(基于jieba分词和NLTK) 发布时间:2018-05-11 11:39, 浏览次数:1038 , 标签: Python jieba NLTK ----------欢迎加 ...

  10. python编程玩具有哪些_python 全栈开发,Day133(玩具与玩具之间的对话,基于jieba gensim pypinyin实现的自然语言处理,打包apk)...

    先下载github代码,下面的操作,都是基于这个版本来的! 注意:由于涉及到版权问题,此附件没有图片和音乐.请参考链接,手动采集一下! 请参考链接: 一.玩具与玩具之间的对话 app消息提醒 之前实现 ...

最新文章

  1. 【Java】 LeetCode 622. 设计循环队列 (有关实现循环队列的讲解)
  2. 台式电脑不拉网线上网_用“隐形网线”让台式机快速稳定上网?强迫症有救了...
  3. jQuery-事件委托(基本概述+实例)
  4. Java 洛谷 P1426 小鱼会有危险吗
  5. 春节回来了,你收获了什么?
  6. 【Docker】在Docker中安装redis、rabbitmq
  7. es6 箭头函数 rest参数 扩展运算符
  8. 25. PE结构-PE详解之资源
  9. 初识生成器与生成器表达式 Day12
  10. Windows下C++多线程同步与互斥简单运用-转
  11. Python从2.6升级到2.7,使用pip安装module,报错:No Module named pip.log(转载)
  12. 暂停按钮_洗衣机在运转时可以按暂停吗
  13. 滑模控制学习笔记(二)
  14. 微软商店下载显示错误,win11无法下载更新的解决方法
  15. 19年12月英语六级第一套听力单词
  16. 美团优选大数据开发岗面试真题-附答案详细解析
  17. C# PDF附件生成
  18. 用正则表达式提取富文本内容(去除html,p,a等标签)
  19. 【Python机器学习】聚类算法任务,评价指标SC、DBI、ZQ等系数详解和实战演示(附源码 图文解释)
  20. 区块链的共识机制是什么?

热门文章

  1. CSS—内联样式(行内样式)、内部样式、外部样式、选择器
  2. c语言锁存器写入1,总线接口作两种用途,为何就要用到锁存器
  3. 飞行计算机配置,微软飞行模拟器配置要求一览 最低/最高PC配置详情
  4. vue filters 国家区号json数据
  5. FPGA课程设计——数字频率计
  6. 看单片机原理图-最小系统
  7. 一个开关电源PCB Layout设计流程
  8. oracle数据模型三要素,关系模型三要素
  9. 世界各主要国家及组织的大数据战略
  10. win7系统声卡驱动安装失败怎么办--win7w.com