1、Levenshtein distance

表示两个字符串之间,由一个转成另一个所需的最少编辑次数,允许的操作有:替换、插入和删除

导入包:

import Levenshtein
#Levenshtein distance 两个字符串之间,由一个转成另一个所需的最少编辑次数,允许的操作有:替换、插入和删除

计算:

#Name Lexical Similarity
api_reference = "The offset argument"
candidate_api = "the offset"
leven_dis = Levenshtein.distance(api_reference,candidate_api)

2、Cosine Similarity

导入包:

代码中 tool 为自己写的分词工具,也可以用其他的分词工具,如spacy、jieba、hanlp等等

from sklearn.metrics.pairwise import cosine_similarity
#m和c向量表示的余弦相似度,word2vec生成的单词向量平均得到
from gensim.models import Word2Vec
import word2vec.Domain_Spacy_tool.Domain_Token_Spacy as tool

加载模型:

file_name为保存文件模型路径

model = Word2Vec.load(file_name)

处理:

包括分词,将一句话切割成词之后分别取出向量相加取平均

m = "The offset argument"
c = "the offset"
m_words_vec = []
c_words_vec = []
#分词,取向量相加
for i,words in enumerate(tool.word_token(m)):if i==0:temp = model[words]else:temp = temp+model[words]for i,words in enumerate(tool.word_token(c)):if i==0:temp1 = model[words]else:temp1 = temp1+model[words]#取平均
temp = temp/len(tool.word_token(m))
temp = list(temp)temp1 = temp1/len(tool.word_token(c))
temp1 = list(temp1)
all_vec = [temp,temp1]

计算:

#计算
cos_similarity = cosine_similarity(all_vec)
print(cos_similarity[0][1])

结果:

从利用gensim 训练好的word2vec模型中取出向量并计算余弦相似度,Levenshtein distance 计算相关推荐

  1. 【深度学习】120G+训练好的word2vec模型(中文词向量)

    很多人缺少大语料训练的word2vec模型,在此分享下使用268G+语料训练好的word2vec模型. 训练语料: 百度百科800w+条,26G+ 搜狐新闻400w+条,13G+ 小说:229G+ i ...

  2. 120G+训练好的word2vec模型(中文词向量)

    从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用120G+语料训练好的word2vec模型. 训练语料: 百度百科800w+条,20G+ 搜狐新闻400w+条,12G+(数据下 ...

  3. 使用gensim训练中文语料word2vec

    使用gensim训练中文语料word2vec 目录 使用gensim训练中文语料word2vec 1.项目目录结构 1.1 文件说明: 1.2 项目下载地址 2.使用jieba中文切词工具进行切词 2 ...

  4. 268G+训练好的word2vec模型(中文词向量)

    268G+训练好的word2vec模型(   从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用268G+语料训练好的word2vec模型. 查看全文 http://www.ta ...

  5. 利用Gensim训练关于英文维基百科的Word2Vec模型(Training Word2Vec Model on English Wikipedia by Gensim)

    Training Word2Vec Model on English Wikipedia by Gensim 更新:发现另一篇译文:中英文维基百科语料上的Word2Vec实验,该译文还提供了中文维基百 ...

  6. 利用colab保存模型_在Google Colab上训练您的机器学习模型中的“后门”

    利用colab保存模型 Note: This post is for educational purposes only. 注意:此职位仅用于教育目的. In this post, I would f ...

  7. word2vec——训练自己的word2vec模型

    数据集:data/souhu下面的所有文件夹的所有txt文件 代码: import os import re import sys import jieba import torch from gen ...

  8. 自然语言处理一大步,应用Word2Vec模型学习单词向量表征

    选自TowardsDataScience,作者:Suvro Banerjee,机器之心编译,参与:Pedro.张倩. 在常见的自然语言处理系统中,单词的编码是任意的,因此无法向系统提供各个符号之间可能 ...

  9. torchtext处理文本数据——使用自己的word2vec模型作为词向量建立词表(学习二)

    首先复制上一篇博客的完整代码,代码如下: 注:如果有不明白的地方请参考上一篇博客--torchtext处理文本数据--构造dataset读取文本(学习一) 数据源和解释都在上一篇博客中 from to ...

最新文章

  1. [讨论]你的女朋友值多少钱?
  2. 13.Zookeeper的java客户端API使用方法
  3. 洛谷 P1678 烦恼的高考志愿
  4. 【Redis】Redis介绍与Redis3在Window下的安装
  5. python宝石与石头_771. 宝石与石头
  6. Python3打印当前系统时间
  7. Android之SlidingMenu使用和总结
  8. org.apache.axis.ConfigurationException: No service named ldapOperate is available解决方法
  9. python的第三方库是干什么用的-quot;别人造好的轮子”,python常用第三方库——python自动办公7...
  10. javascript 正则
  11. 路由器mac地址克隆
  12. java天气预报免费接口api_免费天气API,可以获取全国范围五天内的天气预报(含完整Demo)...
  13. VMware的更新怎么这么恶心
  14. MySQL中like查询是否会使用索引
  15. 贝叶斯优化: 一种更好的超参数调优方式
  16. 西门子PLC中STL语言状态字
  17. uniapp引入阿里云短信业务
  18. 全球及中国防水卷材涂料市场十四五产能规模与需求容量调研报告2022版
  19. 时间戳转时间 二十四小时倒计时
  20. ChatGPT写的C++学习路线是怎样的

热门文章

  1. linux强制关闭程序快捷键,Linux 使用、ctrl+z或screen后台运行命令程序的方法
  2. Android事件分发原理
  3. 懂车帝新能源汽车销量分析
  4. shell 实现ping检测存活主机(多进程后台实现)
  5. lstm 文本分类_带有lstm和单词嵌入的灾难推文上的文本分类
  6. 解决更换电池引发的乐视2手机(lex620)不进系统问题
  7. 信贷反欺诈体系介绍及其策略规则应用
  8. kdj值应用口诀_KDJ指标应用口诀
  9. 一个中国方案的落地:马云的eWTP,如何让马来西亚第一个all in
  10. HDR视频色调映射算法(之五:flicker reduction TMO)