1、Levenshtein distance

表示两个字符串之间，由一个转成另一个所需的最少编辑次数，允许的操作有：替换、插入和删除

导入包：

import Levenshtein
#Levenshtein distance 两个字符串之间，由一个转成另一个所需的最少编辑次数，允许的操作有：替换、插入和删除

计算：

#Name Lexical Similarity
api_reference = "The offset argument"
candidate_api = "the offset"
leven_dis = Levenshtein.distance(api_reference,candidate_api)

2、Cosine Similarity

导入包：

代码中 tool 为自己写的分词工具，也可以用其他的分词工具，如spacy、jieba、hanlp等等

from sklearn.metrics.pairwise import cosine_similarity
#m和c向量表示的余弦相似度，word2vec生成的单词向量平均得到
from gensim.models import Word2Vec
import word2vec.Domain_Spacy_tool.Domain_Token_Spacy as tool

加载模型：

file_name为保存文件模型路径

model = Word2Vec.load(file_name)

处理：

包括分词，将一句话切割成词之后分别取出向量相加取平均

m = "The offset argument"
c = "the offset"
m_words_vec = []
c_words_vec = []
#分词，取向量相加
for i,words in enumerate(tool.word_token(m)):if i==0:temp = model[words]else:temp = temp+model[words]for i,words in enumerate(tool.word_token(c)):if i==0:temp1 = model[words]else:temp1 = temp1+model[words]#取平均
temp = temp/len(tool.word_token(m))
temp = list(temp)temp1 = temp1/len(tool.word_token(c))
temp1 = list(temp1)
all_vec = [temp,temp1]

计算：

#计算
cos_similarity = cosine_similarity(all_vec)
print(cos_similarity[0][1])

结果：

从利用gensim 训练好的word2vec模型中取出向量并计算余弦相似度，Levenshtein distance 计算相关推荐

【深度学习】120G+训练好的word2vec模型（中文词向量）
很多人缺少大语料训练的word2vec模型,在此分享下使用268G+语料训练好的word2vec模型. 训练语料: 百度百科800w+条,26G+ 搜狐新闻400w+条,13G+ 小说:229G+ i ...
120G+训练好的word2vec模型（中文词向量）
从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用120G+语料训练好的word2vec模型. 训练语料: 百度百科800w+条,20G+ 搜狐新闻400w+条,12G+(数据下 ...
使用gensim训练中文语料word2vec
使用gensim训练中文语料word2vec 目录使用gensim训练中文语料word2vec 1.项目目录结构 1.1 文件说明: 1.2 项目下载地址 2.使用jieba中文切词工具进行切词 2 ...
268G+训练好的word2vec模型（中文词向量）
268G+训练好的word2vec模型( 从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用268G+语料训练好的word2vec模型. 查看全文 http://www.ta ...
利用Gensim训练关于英文维基百科的Word2Vec模型（Training Word2Vec Model on English Wikipedia by Gensim）
Training Word2Vec Model on English Wikipedia by Gensim 更新:发现另一篇译文:中英文维基百科语料上的Word2Vec实验,该译文还提供了中文维基百 ...
利用colab保存模型_在Google Colab上训练您的机器学习模型中的“后门”
利用colab保存模型 Note: This post is for educational purposes only. 注意:此职位仅用于教育目的. In this post, I would f ...
word2vec——训练自己的word2vec模型
数据集:data/souhu下面的所有文件夹的所有txt文件代码: import os import re import sys import jieba import torch from gen ...
自然语言处理一大步，应用Word2Vec模型学习单词向量表征
选自TowardsDataScience,作者:Suvro Banerjee,机器之心编译,参与:Pedro.张倩. 在常见的自然语言处理系统中,单词的编码是任意的,因此无法向系统提供各个符号之间可能 ...
torchtext处理文本数据——使用自己的word2vec模型作为词向量建立词表（学习二）
首先复制上一篇博客的完整代码,代码如下: 注:如果有不明白的地方请参考上一篇博客--torchtext处理文本数据--构造dataset读取文本(学习一) 数据源和解释都在上一篇博客中 from to ...

从利用gensim 训练好的word2vec模型中取出向量并计算余弦相似度，Levenshtein distance 计算

1、Levenshtein distance

2、Cosine Similarity

从利用gensim 训练好的word2vec模型中取出向量并计算余弦相似度，Levenshtein distance 计算相关推荐

最新文章

热门文章