python 拼音相似度_python 計算文本的相似度

用Python計算文本的相似度

因為后期會需要用到這方面的知識，所以先提前准備准備；如何判斷網頁返回內容的相似度？

找到了幾個Python的方法和庫：

還有高大上的“TF-IDF方法”{之前在《數學之美》中看到過，但這里我就不考慮了}

下面主要記錄用不同的Python庫來計算兩段文本之間的相似度(最后要得到的就是一個百分比)：

方法一：difflib12345678910

>>>importdifflib>>>difflib.SequenceMatcher(None,'abcde','abcde').ratio()1.0>>>difflib.SequenceMatcher(None,'abcde','zbcde').ratio()0.80000000000000004>>>difflib.SequenceMatcher(None,'abcde','zyzzy').ratio()0.0

方法二：Levenshtein

import Levenshtein 報錯：ImportError: No module named Levenshtein

於是去：python-Levenshtein 下載源碼進行安裝(在http://www.lfd.uci.edu/~gohlke/pythonlibs/#python-levenshtein其實也有編譯好的exe)，第一次安裝的時候報錯：error: Unable to find vcvarsall.bat ，但其實我是裝了VS2010的，所以執行如下步驟正常安裝：

1.設置環境變量，執行：

SET VS90COMNTOOLS=%VS100COMNTOOLS%

2.再去安裝：

setup.py install

就可以正常，編譯，安裝了。123456789101112131415161718192021222324252627282930313233

$python>>>importLevenshtein>>>help(Levenshtein.ratio)ratio(...)Computesimilarityoftwostrings.ratio(string1,string2)Thesimilarityisanumberbetween0and1,it's usually equal orsomewhat higher than difflib.SequenceMatcher.ratio(), becuase it'sbasedonrealminimaleditdistance.Examples:>>>ratio('Hello world!','Holly grail!')0.58333333333333337>>>ratio('Brian','Jesus')0.0>>>help(Levenshtein.distance)distance(...)ComputeabsoluteLevenshteindistanceoftwostrings.distance(string1,string2)Examples(it's hard to spell Levenshtein correctly):>>> distance('Levenshtein', 'Lenvinsten')4>>> distance('Levenshtein', 'Levensthein')2>>> distance('Levenshtein', 'Levenshten')1>>> distance('Levenshtein', 'Levenshtein')01234567891011121314151617181920212223242526

gitclonegit://github.com/seatgeek/fuzzywuzzy.git fuzzywuzzycdfuzzywuzzypythonsetup.pyinstall>>>fromfuzzywuzzyimportfuzz>>>fromfuzzywuzzyimportprocessSimpleRatio>>>fuzz.ratio("this is a test","this is a test!")96PartialRatio>>>fuzz.partial_ratio("this is a test","this is a test!")100TokenSortRatio>>>fuzz.ratio("fuzzy wuzzy was a bear","wuzzy fuzzy was a bear")90>>>fuzz.token_sort_ratio("fuzzy wuzzy was a bear","wuzzy fuzzy was a bear")100TokenSetRatio>>>fuzz.token_sort_ratio("fuzzy was a bear","fuzzy fuzzy was a bear")84>>>fuzz.token_set_ratio("fuzzy was a bear","fuzzy fuzzy was a bear")100123456789101112131415

importdiff_match_patchtextA="the cat in the red hat"textB="the feline in the blue hat"dmp=diff_match_patch.diff_match_patch() #create a diff_match_patch objectdiffs=dmp.diff_main(textA,textB) # All 'diff' jobs start with invoking diff_main()d_value=dmp.diff_levenshtein(diffs)printd_valuemaxLenth=max(len(textA),len(textB))printfloat(d_value)/float(maxLenth)similarity=(1-float(d_value)/float(maxLenth))*100printsimilarity

上面這段代碼的思路也是先計算Levenshtein距離，然后再將其和兩字符串的最大長度相除，得到相似度(不清楚這樣和直接使用Levenshtein擴展有什么區別，畢竟那個直接是用C寫成的，速度可能還要快一些，直接一些)

python 拼音相似度_python 計算文本的相似度相关推荐

java 余弦定理_Java實現余弦定理計算文本相似度
相似度度量(Similarity),即計算個體間的相似程度,相似度度量的值越小,說明個體間相似度越小,相似度的值越大說明個體差異越大. 對於多個不同的文本或者短文本對話消息要來計算他們之間的相似度如何 ...
MOSFET SOA評估與Tj溫度的計算
SOA與Tj通常是用來評估MOSFET操作是否安全可靠的二個判斷機制,甚至當MOSFET發生損壞時,也會使用SOA與Tj來加以確認其計算結果是否在MOSFET所定義的規格之內 ~SOA(安全操作區域) ...
python余弦定理求角_python实现的文本相似度算法（余弦定理）
只对汉字进行相似度分析,以单个字为向量,然后每个字在章节中出现的次数,便是以此字向量的值.现在我们假设: 章节1中出现的字为:Z1c1,Z1c2,Z1c3,Z1c4--Z1cn:它们在章节中的个数为: ...
python 文本相似度_python实现的文本相似度算法（余弦定理）
只对汉字进行相似度分析,以单个字为向量,然后每个字在章节中出现的次数,便是以此字向量的值.现在我们假设: 章节1中出现的字为:Z1c1,Z1c2,Z1c3,Z1c4--Z1cn:它们在章节中的个数为: ...
python 拼音姓名排序_Python一秒将全部中文姓名转为拼音！
有时在处理文件时候,我们需要将中文姓名转换为拼音,或者是转换为拼音首字母,本文将介绍三种Python实现的方法,最后给一个批量操作的代码案例! 一.xpinyin 开门见山,Python中文字转拼音可 ...
python两条曲线图片相似度_Python比较两个图片相似度的方法
本文实例讲述了Python比较两个图片相似度的方法.分享给大家供大家参考.具体分析如下: 这段代码实用pil模块比较两个图片的相似度,根据实际实用,代码虽短但效果不错,还是非常靠谱的,前提是图片要大一 ...
python二十四点_Python秒算24点，行还是不行？
周末闲来无事,看到隔壁家的老王在和隔壁家的媳妇玩24点,就进屋看了看.发现老王是真不行啊,那不行,这也不行. 就连个24点都玩不过他媳妇,给他媳妇气的,啥都不能满足,这不能,那也不能. 我坐下来和他媳 ...
python输出箭头代码_python matplotlib 注释文本箭头简单代码示例
注释文本箭头结果展示: 完整代码示例: import numpy as np import matplotlib.pyplot as plt fig,ax = plt.subplots(figsiz ...
python情感分析中文_Python有趣|中文文本情感分析
前言前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理数据情况这里的数据为大众点评上的评论数 ...

python 拼音相似度_python 計算文本的相似度

python 拼音相似度_python 計算文本的相似度相关推荐

最新文章

热门文章