【磐创AI导读】:前两篇文章中我们介绍了一些机器学习不错的项目合集和深度学习入门资源合集,本篇文章将对中文文本相似度计算工具做一次汇总。喜欢我们文章的小伙伴,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。另外您对我们的文章有任何的意见或是文章中的不足之处,欢迎在文末留言。

一.基本工具集

1.分词工具

jieba

结巴中文分词

https://github.com/fxsjy/jieba

HanLP

自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

盘古分词-开源中文分词组件

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

https://archive.codeplex.com/

pullword

Pullword-永久免费的可自定义的中文在线分词API

http://pullword.com/

BosonNLP

玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

https://bosonnlp.com/

HIT-SCIR/ltp

Language Technology Platformhttp://ltp.aihttps://github.com/HIT-SCIR/ltp

2.关键词提取

TF-IDF

技术原理:https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

TextRank

技术原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-从中文文本中自动提取关键词和摘要

https://github.com/letiantian/TextRank4ZH

3. 词向量

word2vec-gensim

Topic modelling for humans - RadimŘehůřek

https://radimrehurek.com/gensim/index.html

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

4.距离计算

word2vec-gensim

Topic modelling for humans - RadimŘehůřek

https://radimrehurek.com/gensim/index.html

二.常用算法

1.中文分词+TF-IDF+word2vec+cosine 距离计算

2.doc2vec

原理介绍:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技术实现:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

3.simhash

原理介绍:http://www.cnblogs.com/maybe2030/p/5203186.html

技术实现:https://github.com/yanyiwu/simhash

三.文本相似度计算综述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文信息处理发展报告(2016)》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上论文下载地址:

http://www.tensorflownews.com/

结巴分词关键词相似度_中文文本相似度计算工具集相关推荐

  1. 使用BERT做中文文本相似度计算与文本分类

    转载请注明出处,原文地址: https://terrifyzhao.github.io/2018/11/29/使用BERT做中文文本相似度计算.html 简介 最近Google推出了NLP大杀器BER ...

  2. java 知网 语义 相似度,基于知网语义相似度的中文文本分类研究 论文笔记

    基于知网语义相似度的中文文本分类研究 1.传统的文本处理大部分是根据词频和逆向文档频率将文本表示成向量空间模型,实践证明这种模型确实简单高效并且得到了广泛应用,但这种模型表示缺乏对语义的理解,忽略了词 ...

  3. 百度千言-中文文本相似度实战

    文章目录 百度千言-中文文本相似度实战 任务1:报名比赛,下载比赛数据集并完成读取 任务2:对句子对提取TFIDF以及统计特征,训练和预测 任务3:加载中文词向量,自己训练中文词向量 任务4:使用中文 ...

  4. [原创]python计算中文文本相似度神器

    介绍 最近因为工作需要,需要使用一个功能,就是中文文本相似度的计算.属于nlp领域的一个应用吧,这里找到一个非常好的包和大家分享.这个包叫sentence-transformers. 这里给大家介绍, ...

  5. 结巴分词关键词相似度_辨别标题党--提取关键词与比较相似度

    最近好几天都没有更新博客,因为网络设置崩了,然后各种扎心,最后还重装电脑,而且还有一些软件需要重新安装或者配置,所以烦了好久,搞好电脑之后,老师又布置了一个任务,个人觉得很有趣--判别学校新闻是否是标 ...

  6. jieba结巴分词--关键词抽取_结巴中文分词原理分析2

    作者:白宁超,工学硕士,现工作于四川省计算机研究院,著有<自然语言处理理论与实战>一书,作者公众号:机器学习和自然语言处理(公众号ID:datathinks) 结巴分词详解1中文分词介绍 ...

  7. 悟空分词与mysql结合_中文分词与关键词提取实践小结

    本文基于题库查重需求实现过程及<NLP自然语言处理原理与实践>学习过程总结得出.定有不足之处,恳请指出. 基本概念 评价指标 一般,中文分词从Precision.Recall.F-scor ...

  8. python中文相似度_基于TF-IDF、余弦相似度算法实现文本相似度算法的Python应用

    基于TF-IDF算法.余弦相似度算法实现相似文本推荐--文本相似度算法,主要应用于文本聚类.相似文本推荐等场景. 设计说明 使用jieba切词,设置自定义字典 使用TF-IDF算法,找出文章的关键词: ...

  9. 结巴分词关键词相似度_jieba+gensim 实现相似度

    相似度 自然语言处理(NLP) : 大概意思就是 让计算机明白一句话要表达的意思,NLP就相当于计算机在思考你说的话,让计算机知道"你是谁","你叫啥",&qu ...

最新文章

  1. 机器学习领域最全综述列表!
  2. 地理坐标xy表示什么_建筑测量xy坐标的区别
  3. 1:Hello world
  4. Linux 环境下 jdk1.8 maven3.2.3 Git2.8.0 安装脚本
  5. spring react_使用Spring WebFlux构建React性REST API –第2部分
  6. 用SPFA判断是否存在负环
  7. axios.js post 后台木有数据
  8. 大白话聊聊Java并发面试问题之谈谈你对AQS的理解?
  9. lm opencv 算法_LM算法
  10. 想成为Python高手,必须看这篇爬虫原理介绍!(附29个爬虫项目)
  11. JAVA开发交互式CAD系统_用VB.NET和VC#.NET开发交互式CAD系统(源代码)
  12. Java中Switch-Case用法小结
  13. px4 Linux下环境的配置 gcc-arm装不上 OpenGL=3.1 问题
  14. 真牛皮!wsl安装位置
  15. 由矩阵运算来看初等矩阵的左乘右乘所影响到矩阵的行列变换的本质
  16. IOS8以上打开定位闪退的问题
  17. 计算机科学计数法是哪个键,卡西欧计算器中的科学计数法键如何使用?请举例!急!...
  18. Ath10k Candela Technologies
  19. 开始创业之路(MMORPG)
  20. ESP8266 AP模式

热门文章

  1. 用RDA5807M实现收音机功能
  2. 操作系统 计算机操作系统教程笔记
  3. 如何清除搜狗输入法自带的“搜狐新闻”?
  4. conda-跨用户环境复制
  5. 使用O2OA二次开发搭建企业办公平台(十五)流程开发篇:创建报销审批流程
  6. Linux File System(Linux文件系统)
  7. 第三章:计算机视觉(下)
  8. Java项目:JSP网上鞋子商城网站
  9. 数组属于一种原生类吗_瘢痕有很多种类型,你的瘢痕到底属于哪一种你知道吗?...
  10. python外星人入侵的详细_Python外星人入侵游戏(三):创建飞船类