前言

人与计算机的交互过程中,如果能提供人类的自然语言形式来进行交流,那么人与计算机就能更加亲密友好。而要实现这一机制就需要自然语言处理来处理,一般来说自然语言处理会涉及几个学科:计算机科学、语言学、统计学和数学等。

不同语言的自然语言处理也存在差别,对于中文来说,很多时候都无法直接套用英语自然语言处理中相对成熟的理论。有很多基础工作也是需要我们自己去做,而这包括了中文相似度。

相似度

中文相似度按照长度可以有字与字的相似度、单词与单词的相似度、句子与句子的相似度、段落与段落的相似度和文章与文章的相似度。

传统相似度的衡量计算一般可以使用编辑距离算法、余弦值法、SimHash法、n-gram法、汉明距离法、最长公共子串法、最长公共子序列法等等。

相似度计算方法总的可以归为两类,一类是基于统计的方法,一般用于句子段落这些较大粒度文本。另一类是基于语义的方法,一般用于词语或句子等较小粒度文本。

应用场景

中文相似度应用广泛,

  • 比如在信息检索中,信息检索系统中为了能召回更多与检索词语相似的结果,可以用相似度来识别相似的词语,以此提高召回率。

  • 比如在自动问答中,自动问答与检索系统主要的不同的是自动问答可以使用自然语言交互,而检索系统一般是通过关键词进行搜索。而且响应也不同,自动问答给出一个准确唯一的答案作为响应,而检索系统的响应一般有很多相关的结果。相似度在这里可以用来计算用户以自然语言的提问问句与语料库中问题的匹配程度,那么匹配度最高的那个问题对应的答案将作为响应。

  • 比如在机器翻译中,会分析语句的相似度来完成双语的翻译,能否准确定义并计算相似度将影响翻译的效果,最简单的相似性分析就是直接利用语句中每个词的语法和语义来分析,而如果要更进一步分析的话则是先分析语句的依存树,然后再计算相似度。

  • 比如在自动文摘中,在提取文摘的过程中要利用相似度对语义相似的句子进行抽取。

  • 比如NLP其他应用领域。

总结

从某种程度上来说,如果能定义一个较好的相似度计算方式,并且能有一个较好的准确性,那么基本就能解决很多NLP领域文本相关的问题。

=============广告时间===============

公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等,可能有一款适合你的胃口。

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以购买。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================

相关阅读:

谈谈谷歌word2vec的原理

如何用TensorFlow训练词向量

自然语言处理的中文文本相似度相关推荐

  1. 使用BERT做中文文本相似度计算与文本分类

    转载请注明出处,原文地址: https://terrifyzhao.github.io/2018/11/29/使用BERT做中文文本相似度计算.html 简介 最近Google推出了NLP大杀器BER ...

  2. 结巴分词关键词相似度_中文文本相似度计算工具集

    [磐创AI导读]:前两篇文章中我们介绍了一些机器学习不错的项目合集和深度学习入门资源合集,本篇文章将对中文文本相似度计算工具做一次汇总.喜欢我们文章的小伙伴,欢迎大家点击上方蓝字关注我们的公众号:磐创 ...

  3. [原创]python计算中文文本相似度神器

    介绍 最近因为工作需要,需要使用一个功能,就是中文文本相似度的计算.属于nlp领域的一个应用吧,这里找到一个非常好的包和大家分享.这个包叫sentence-transformers. 这里给大家介绍, ...

  4. 百度千言-中文文本相似度实战

    文章目录 百度千言-中文文本相似度实战 任务1:报名比赛,下载比赛数据集并完成读取 任务2:对句子对提取TFIDF以及统计特征,训练和预测 任务3:加载中文词向量,自己训练中文词向量 任务4:使用中文 ...

  5. 中文文本相似度计算工具集

    欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 一.基本工具集 1.分词工具 a.jieba 结巴中文分词 htt ...

  6. word2vec词向量训练及中文文本类似度计算

    本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...

  7. 最准的中文文本相似度计算工具

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx text2vec, chinese text to vetor.(文本向量化表示工具,包括词向 ...

  8. 『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注

    利用Python代码实现中文文本的自然语言处理,包括分词.去标点符号.去停用词.词性标注&过滤. 在刚开始的每个模块,介绍它的实现.最后会将整个文本处理过程封装成 TextProcess 类. ...

  9. 中文文本相似度检测接口

    内容查找,相似度检测,中文对比,文本相似度,查重 一.接口介绍 通过计算向量间的夹角(余弦公式),来判断文本相似度.此算法在google黑板报中<数学之美(余弦定理和新闻分类)> 有过详细 ...

最新文章

  1. 2021年大数据Spark(十三):Spark Core的RDD创建
  2. 【译】function.caller 被认为是有害的
  3. [收藏] Java 编程的动态性
  4. Android 操作系统为什么不启用swap?
  5. SpringBoot的基础
  6. 高中计算机省赛试题,西店中学计算机信息学竞赛测试试卷、答题卷和答案(一)...
  7. C# 学习之路--百度网盘爬虫设计与实现(一)
  8. 运动会管理系统论文java_java+ssh+mysql大学运动会管理系统(源码+论文+任务书+ppt)...
  9. HDU.1004 Let the Balloon Rise
  10. UnityWebform(2):自定义LifetimeManager和TypeConverter使Unity从HttpContext中取值注入WebForm页面...
  11. 表格中文字如何设置上下居中
  12. MATLAB常用的滤波函数比较:均值滤波 和 中值滤波
  13. 【最优化基础】惩罚和障碍函数
  14. 英语流利说 第39天
  15. JAVA光头之路(一)--环境变量
  16. 关于我转行嵌入式的那些事
  17. Postman模拟接口API:接收请求报文equest,响应返回固定报文response
  18. 圣墟 第一百二十九章 异类直播
  19. 如何制作一本精致的企业电子杂志App?
  20. 云原生周报 | 入门级KCNA认证即将推出,BFE Ingress Controller 正式发布

热门文章

  1. 微信支付提示支付验证签名失败
  2. 我的第一个win32窗口程序------------记录
  3. Blackadder
  4. Java并发工具CountDownLatch使用详解
  5. 新iPhone在中国卖不动!苹果认怂了,股价暴跌8%
  6. YUI 3 学习资源
  7. 等保测评之安全建设管理
  8. Shutdown定时关机器源码
  9. c语言程序补全,C语言程序设计试题
  10. 国二C语言文字选择程序选择,国二c语言考什么?