欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!

一、基本工具集

1.分词工具

a.jieba

结巴中文分词

https://github.com/fxsjy/jieba

b.HanLP

自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁 http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

c.盘古分词-开源中文分词组件

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

https://archive.codeplex.com/

d.pullword

Pullword-永久免费的可自定义的中文在线分词API

http://pullword.com/

e.BosonNLP

玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

https://bosonnlp.com/

f.HIT-SCIR/ltp

Language Technology Platform http://ltp.ai

https://github.com/HIT-SCIR/ltp

2.关键词提取

TF-IDF

技术原理:https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

TextRank

技术原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-从中文文本中自动提取关键词和摘要

https://github.com/letiantian/TextRank4ZH

3.词向量

word2vec-gensim

Topic modelling for humans - Radim Řehůřek

https://radimrehurek.com/gensim/index.html

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

4.距离计算

word2vec-gensim

Topic modelling for humans - Radim Řehůřek

https://radimrehurek.com/gensim/index.html

二、常用算法

1.中文分词+TF-IDF+word2vec+cosine 距离计算

2.doc2vec

原理介绍:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技术实现:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

3.simhash

原理介绍:http://www.cnblogs.com/maybe2030/p/5203186.html

技术实现:https://github.com/yanyiwu/simhash

三、文本相似度计算综述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文信息处理发展报告(2016)》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上论文下载地址:

http://www.tensorflownews.com/

本篇文章出自http://www.tensorflownews.com,对深度学习感兴趣,热爱Tensorflow的小伙伴,欢迎关注我们的网站!

中文文本相似度计算工具集相关推荐

  1. 结巴分词关键词相似度_中文文本相似度计算工具集

    [磐创AI导读]:前两篇文章中我们介绍了一些机器学习不错的项目合集和深度学习入门资源合集,本篇文章将对中文文本相似度计算工具做一次汇总.喜欢我们文章的小伙伴,欢迎大家点击上方蓝字关注我们的公众号:磐创 ...

  2. 最准的中文文本相似度计算工具

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx text2vec, chinese text to vetor.(文本向量化表示工具,包括词向 ...

  3. Google开源word2vec,文本相似度计算工具

    Google开源word2vec,文本相似度计算工具 谷歌已经使用Deep Learning技术开发了许多新方法来解析语言,目前,谷歌开源了一款基于Deep Learning的学习工具--word2v ...

  4. 使用BERT做中文文本相似度计算与文本分类

    转载请注明出处,原文地址: https://terrifyzhao.github.io/2018/11/29/使用BERT做中文文本相似度计算.html 简介 最近Google推出了NLP大杀器BER ...

  5. word2vec词向量训练及中文文本类似度计算

    本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...

  6. word2vec词向量训练及中文文本相似度计算

    本文是讲述如何使用word2vec的基础教程,文章比较基础,希望对你有所帮助! 官网C语言下载地址: http://word2vec.googlecode.com/svn/trunk/ 官网Pytho ...

  7. 基于预训练词向量的文本相似度计算-word2vec, paddle

    文章目录 0. 前言 1. 余弦相似度算子 2. 示例代码并验证 3. 基于词向量的文本相似度 3.1 读取word2vec文件 3.2 定义模型 3.3 运行模型 3.4 根据分数降序排列 3.5 ...

  8. [原创]python计算中文文本相似度神器

    介绍 最近因为工作需要,需要使用一个功能,就是中文文本相似度的计算.属于nlp领域的一个应用吧,这里找到一个非常好的包和大家分享.这个包叫sentence-transformers. 这里给大家介绍, ...

  9. 基于Java的文本相似度计算

    目录 1. 前言 1.1 开发环境: 1.2 初步设想 1.3 参考资料 2. HanLP 2.1 在Java中使用HanLP库 2.2 分词函数 3. 双文本对比 3.1 步骤分解 3.2 完整代码 ...

最新文章

  1. 十个 Linux 新手管理员易犯错误
  2. 连接统计学、机器学习与自动推理的新兴交叉领域——因果科学读书会再起航...
  3. Linux美化——终端提示符
  4. pyhanlp 词性标注(正篇)
  5. 一个简单的单例模式的类
  6. 实战:采⽤Sharding-JDBC实现订单表的(两主四从) 分库分表 和 读写分离
  7. 贪心算法——字典序最小问题
  8. pdffactory 打印字体_PdfFactory Pro(PDF虚拟打印软件) 中文版分享
  9. 中国所有省市区的ip经纬度接口
  10. Verilog无符号除法器-状态机实现
  11. 给自己职业发展的建议
  12. A Pose Proposal and Refinement Network for Better 6D Object Pose Estimation
  13. UDP是全双工通信的吗
  14. 推荐一批灵活好用的管理软件
  15. 利用CC2530单片机的蜂鸣器播放音乐的代码
  16. 第一卷清晨的帝国第一百五十三章 十四年,去年夏天,今日拾阶
  17. 看看MB860等机型的CPU的排名
  18. Bighead Fighter - Boarding the Peak of the Beast
  19. qq发送编程相关的命令或代码时,被转成表情该怎么解决
  20. IO多路复用实现方式

热门文章

  1. Python中string、json、bytes的相互转换
  2. VS中CString与char型数组相互转换问题
  3. cygwin使用笔记
  4. 转发-[原创]ASR1K 在Rommon导入IOS-XE启动
  5. 【工具大道】UML的点点滴滴
  6. [Ubuntu] apt 添加第三方库
  7. 手把手教你用Python实现查找算法
  8. 怎样学操作系统?一文带你掌握核心内容
  9. 开关电源之防浪涌、防雷电路
  10. python集合常用方法_Python中集合类型(set)学习小结