结巴分词关键词相似度_中文文本相似度计算工具集

【磐创AI导读】：前两篇文章中我们介绍了一些机器学习不错的项目合集和深度学习入门资源合集，本篇文章将对中文文本相似度计算工具做一次汇总。喜欢我们文章的小伙伴，欢迎大家点击上方蓝字关注我们的公众号：磐创AI。另外您对我们的文章有任何的意见或是文章中的不足之处，欢迎在文末留言。

一．基本工具集

1.分词工具

jieba

结巴中文分词

https://github.com/fxsjy/jieba

HanLP

自然语言处理中文分词词性标注命名实体识别依存句法分析关键词提取新词发现短语提取自动摘要文本分类拼音简繁http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

盘古分词-开源中文分词组件

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件，拥有大量用户。作者基于之前分词组件的开发经验，结合最新的开发技术重新编写了盘古分词组件。

https://archive.codeplex.com/

pullword

Pullword-永久免费的可自定义的中文在线分词API

http://pullword.com/

BosonNLP

玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

https://bosonnlp.com/

HIT-SCIR/ltp

Language Technology Platformhttp://ltp.aihttps://github.com/HIT-SCIR/ltp

2.关键词提取

TF-IDF

技术原理：https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

TextRank

技术原理：https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-从中文文本中自动提取关键词和摘要

https://github.com/letiantian/TextRank4ZH

3. 词向量

word2vec-gensim

Topic modelling for humans - RadimŘehůřek

https://radimrehurek.com/gensim/index.html

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

4.距离计算

word2vec-gensim

Topic modelling for humans - RadimŘehůřek

https://radimrehurek.com/gensim/index.html

二．常用算法

1.中文分词+TF-IDF+word2vec+cosine 距离计算

2.doc2vec

原理介绍：https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技术实现：https://cs.stanford.edu/~quocle/paragraph_vector.pdf

3.simhash

原理介绍：http://www.cnblogs.com/maybe2030/p/5203186.html

技术实现：https://github.com/yanyiwu/simhash

三．文本相似度计算综述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文信息处理发展报告(2016)》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上论文下载地址：

http://www.tensorflownews.com/

结巴分词关键词相似度_中文文本相似度计算工具集相关推荐

使用BERT做中文文本相似度计算与文本分类
转载请注明出处,原文地址: https://terrifyzhao.github.io/2018/11/29/使用BERT做中文文本相似度计算.html 简介最近Google推出了NLP大杀器BER ...
java 知网语义相似度,基于知网语义相似度的中文文本分类研究论文笔记
基于知网语义相似度的中文文本分类研究 1.传统的文本处理大部分是根据词频和逆向文档频率将文本表示成向量空间模型,实践证明这种模型确实简单高效并且得到了广泛应用,但这种模型表示缺乏对语义的理解,忽略了词 ...
百度千言-中文文本相似度实战
文章目录百度千言-中文文本相似度实战任务1:报名比赛,下载比赛数据集并完成读取任务2:对句子对提取TFIDF以及统计特征,训练和预测任务3:加载中文词向量,自己训练中文词向量任务4:使用中文 ...
[原创]python计算中文文本相似度神器
介绍最近因为工作需要,需要使用一个功能,就是中文文本相似度的计算.属于nlp领域的一个应用吧,这里找到一个非常好的包和大家分享.这个包叫sentence-transformers. 这里给大家介绍, ...
结巴分词关键词相似度_辨别标题党--提取关键词与比较相似度
最近好几天都没有更新博客,因为网络设置崩了,然后各种扎心,最后还重装电脑,而且还有一些软件需要重新安装或者配置,所以烦了好久,搞好电脑之后,老师又布置了一个任务,个人觉得很有趣--判别学校新闻是否是标 ...
jieba结巴分词--关键词抽取_结巴中文分词原理分析2
作者:白宁超,工学硕士,现工作于四川省计算机研究院,著有<自然语言处理理论与实战>一书,作者公众号:机器学习和自然语言处理(公众号ID:datathinks) 结巴分词详解1中文分词介绍 ...
悟空分词与mysql结合_中文分词与关键词提取实践小结
本文基于题库查重需求实现过程及<NLP自然语言处理原理与实践>学习过程总结得出.定有不足之处,恳请指出. 基本概念评价指标一般,中文分词从Precision.Recall.F-scor ...
python中文相似度_基于TF-IDF、余弦相似度算法实现文本相似度算法的Python应用
基于TF-IDF算法.余弦相似度算法实现相似文本推荐--文本相似度算法,主要应用于文本聚类.相似文本推荐等场景. 设计说明使用jieba切词,设置自定义字典使用TF-IDF算法,找出文章的关键词: ...
结巴分词关键词相似度_jieba+gensim 实现相似度
相似度自然语言处理(NLP) : 大概意思就是让计算机明白一句话要表达的意思,NLP就相当于计算机在思考你说的话,让计算机知道"你是谁","你叫啥",&qu ...

结巴分词关键词相似度_中文文本相似度计算工具集

结巴分词关键词相似度_中文文本相似度计算工具集相关推荐

最新文章

热门文章