一,算法介绍

在CS124课程的第一周提到 求解两个字符串相似度的算法---Minimum Edit Distance(最短编辑距离)算法。该算法在NLP(自然语言处理)中也会用到。

如何定义相似度呢?任给两个字符串X 和Y,使用以下三种操作将 字符串X 变到 字符串Y  :①插入(Insert)操作;②删除操作(delete);③替换操作(substitute)

比如 字符串X="intention" ,  字符串Y="execution"。从字符串X 转换成 字符串Y 如下图所示:

定义:插入操作的代价为1,删除操作的代价为1,替换操作的代价为2(称为: Levenshtein distance)。那么,"intention"  变成  "execution" 执行了三次替换,一次删除,一次插入。因此,总代价为8

而这个代价又称为编辑距离, 用之来 衡量 两个字符串的相似程度。显然,若两个字符串越相似,则从一个字符串变到另一个字符串所需要的 “操作” 步骤 就越少。

二,动态规则求解最短编辑距离

为什么能用动态规划来求解呢?ⓐ该问题可以分解成若干个子问题;ⓑ子问题之间具有重叠性(可“查表”),具体可参考一些动态规划的示例1,示例2.

假设字符串X的长度为n,字符串Y的长度为m,用d[n][m] 表示 字符串X 转换成 字符串Y 的最短编辑距离

定义 d[i][j] 表示 字符串X的子串X[1...i]   转换成 字符串Y 的子串 Y[1...j] 的最短编辑距离(这里的 下标从1开始,不从0开始),有如下动态规划公式:

要想从 长度为 i 的源字符串X 转换成 长度为 j 的目标字符串Y,有三种方式:

①先将 源字符串X 的前 i-1 个字符 X[1...i-1] 转换成 目标字符串Y[1...j], 然后再 删除字符串X 的第 i 个字符source[i]

②先将 源字符串X[1...j] 转换成 目标字符串Y[1...j-1] ,然后再 插入字符串Y的第 j 个字符 target[j]

③先将 源字符串X[1...i-1] 转换成 目标字符串Y[1...j-1],然后 源字符串中的 第 i 个字符X[i] 替换为 目标字符串的第 j 个字符 Y[j]

为什么 只有上述三种方式呢?

因为我们是将 源问题 的求解,分解成若干个子问题的求解,子问题的规模比原问题要小1。源问题 X[1...i]  转换成 Y[1...j]  。比如,子问题是:先将X[1...i-1] 转换成 Y[1...j] ,...

结合前面定义的 操作代价(删除和插入操作代价为1,替换操作为2),就是下面这个公式:

解释一下为什么 if source[i]=target[j]时,替换的 代价为0呢?if source[i]=target[j] 表明 字符串X 的第 i 个字符串 和 字符串Y的第 j 个字符是相同的

要想将 X[1...i] 转换成 Y[1...j] ,对于第三种转换方式:先将 源字符串X[1...i-1] 转换成 目标字符串Y[1...j-1] ,既然:字符串X 的第 i 个字符串 和 字符串Y的第 j 个字符是相同的,那就相当于“自己替换自己”,或者说是 不需要替换操作了嘛。这也是下面代码实现逻辑:

if (source.charAt(i-1) == target.charAt(j-1)) {

dp[i][j]= dp[i - 1][j - 1];

三,代码实现

伪代码描述如下:

JAVA实现:

1 public classMinimumEditDistance {2

3 public static voidmain(String[] args) {4 MinimumEditDistance med = newMinimumEditDistance();5 String source = "execution";6 String target = "intention";7 int result =med.similarDegree(source, target);8 System.out.println(result);9 }10

11 public intsimilarDegree(String source, String target) {12 if(source == null || target == null)13 throw new IllegalArgumentException("illegal input String");14

15 int sourceLen =source.length();16 int targetLen =target.length();17

18 int[][] dp = new int[sourceLen + 1][targetLen +1];19 //init

20 dp[0][0] = 0;21 for(int i = 1; i <= sourceLen; i++)22 dp[i][0] =i;23 for(int i = 1; i <= targetLen; i++)24 dp[0][i] =i;25

26 for(int i = 1; i <= sourceLen; i++) {27 for(int j = 1; j <= targetLen; j++) {28 if (source.charAt(i-1) == target.charAt(j-1)) {29 dp[i][j] = dp[i - 1][j - 1];30 }else{31 int insert = dp[i][j - 1] + 1;//source[0,i] to target[0,j-1] then insert target[j]

32 int delete = dp[i - 1][j] + 1;//source[0,i-1] to target[0,j] then delete source[i]

33 int substitute = dp[i - 1][j - 1] + 2;//source[0,i-1] to target[0,j-1] then substitute(source[i] by target[j])

34

35 int min =min(insert, delete, substitute);36 dp[i][j] =min;37 }38 }39 }40 returndp[sourceLen][targetLen];41 }42

43 private int min(int insert, int delete, intsubstitute) {44 int tmp = insert < delete ?insert:delete;45 int min = tmp < substitute ?tmp:substitute;46 returnmin;47 }48 }

参考:Stanford CS124课程

原文:http://www.cnblogs.com/hapjin/p/7467035.html

最短编辑距离 python_最短编辑距离算法实现相关推荐

  1. 最短增广路Isap算法 网络流

    最短增广路 请先理解 bfs的求增广路的算法,再来学习Isap算法 最短增广路Isap算法 图片来源 <趣学算法>人民邮电出版社 陈小玉 /* 最短可增广路:重贴标签算法Isap 算法设计 ...

  2. Python_机器学习_算法_第4章_4.决策树算法

    Python_机器学习_算法_第4章_4.决策树算法 文章目录 Python_机器学习_算法_第4章_4.决策树算法 决策树算法 学习目标 4.1 决策树算法简介 学习目标 小结 4.2 决策树分类原 ...

  3. python_强化学习算法DQN_玩五子棋游戏

    本文公开一个基于强化学习算法DQN的五子棋游戏自动下棋算法源码,并对思路进行讲解. 完整代码和预训练模型(Saver文件夹)地址: python_强化学习算法DQN_玩五子棋游戏 一个基于CNN构成的 ...

  4. Python_机器学习_算法_第1章_K-近邻算法

    Python_机器学习_算法_第1章_K-近邻算法 文章目录 Python_机器学习_算法_第1章_K-近邻算法 K-近邻算法 学习目标 1.1 K-近邻算法简介 学习目标 1 什么是K-近邻算法 1 ...

  5. 最大公共字符串,最大公共子序列,编辑距离,myers等算法

    1 前言 这个4个算法比较相似,并且有以下相同点和不同点 2 异同点 以str1 = "ABCDEF" , str2="ZABCDZE" 为例 相同点: 1.都 ...

  6. 编辑距离及最小编辑距离算法(转)----动态规划

    编辑距离概念描述: 编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符. 例如 ...

  7. USACO 3.1 Agri-Net 最短网络 (最小生成树)(克鲁斯卡尔算法)

    题意 农民约翰被选为他们镇的镇长!他其中一个竞选承诺就是在镇上建立起互联网,并连接到所有的农场.当然,他需要你的帮助.约翰已经给他的农场安排了一条高速的网络线路,他想把这条线路共享给其他农场.为了用最 ...

  8. 高德地图之路线规划 多点路线规划路线最短原则之二 TSP算法

    经过这段时间的使用和研究,我发现点和点之间的最短路线并不是最优的.针对所有点的组合可能, 得到的最短路线才是最好的(也就是TSP方法),然后再结合点对点之间的距离进行比较,得到的才是相对最优方案. 举 ...

  9. python 编辑距离_最小编辑距离python

    1 什么是编辑距离 在计算文本的相似性时,经常会用到编辑距离(Levenshtein距离),其指两个字符串之间,由一个字符串转成另一个所需的最少编辑操作次数.在字符串形式上来说,编辑距离越小,那么两个 ...

最新文章

  1. apache 2.4.12 + tomcat 7.0.61 + jk connectors 1.2.40实现tomcat负载均衡集群
  2. 重要更新 | 谷歌发布 TensorFlow 1.4,迁移Keras,支持分布式训练
  3. 「翻译」SAP零售预测和补货–简要概述
  4. 一致性hash算法_分布式寻址算法
  5. 获取ip地址解析归属地
  6. MySQL 参数autoReconnect=true 解决8小时连接失效(转)
  7. Ajax里的onreadystatechange的作用
  8. ubuntu16.04安装,使用redis布隆过滤器示例
  9. 小程序入门学习16--上传小程序至github
  10. LeetCode解题思路—区间合并
  11. 惯量比多少合适_惯量比折算问题
  12. 判断矩形相似C语言,C++判断矩形相交的方法
  13. 艾美智能影库服务器ip,华语视听,家庭影院,发烧音响,智能家居,私人影院,声学装修,专业音箱-艾美影库 MS-300...
  14. 图片识别出处_搜图神器!你还在问图片的出处吗?
  15. Android ALSA音频系统架构分析(1)----从Loopback了解Audio
  16. XMLHttpRequest cannot load 的解决方法
  17. 能出声的计算机软件,​聊聊DAW、VST、MaxMSP Jitter之类 和一切计算机上能出声的东西...
  18. gbase8a rowid功能测试
  19. 全球与中国事件追踪软件市场深度研究分析报告
  20. 保存准考证电脑快捷键

热门文章

  1. string substring的用法_夯实Java基础系列3:一文搞懂String常见面试题,从基础到实战...
  2. token验证_java基于token的身份验证?读完之后,大部分程序员收藏了...
  3. vue 根据后台数据 判断显示_【开源】el-admin 后台管理系统,v1.9 发布
  4. mockito 外部接口_【IDEA开发SpringBoot2.0】使用Mockito进行常规接口测试#05
  5. 如何正确有效表达:对不起,我们已经尽力了?
  6. java xslt 2,使用xsl:for-each-group进行XSLT 2.0分组
  7. 上市13年,AI平台收入还能暴增131%,这家老牌AI公司正在“反杀”
  8. 仅需2张图,AI便可生成完整运动过程
  9. 不用高温也能搓出一颗玻璃球?Science最新研究让低温注塑玻璃成为可能
  10. 腾讯微视AI新技术曝光:斩获VCR榜单第一