8.动态规划(1)——字符串的编辑距离
动态规划的算法题往往都是各大公司笔试题的常客。在不少算法类的微信公众号中,关于“动态规划”的文章屡见不鲜,都在试图用最浅显易懂的文字来描述讲解动态规划,甚至有的用漫画来解释,认真读每一篇公众号推送的文章实际上都能读得懂,都能对动态规划有一个大概了解。
什么是动态规划?通俗地理解来说,一个问题的解决办法一看就知道(穷举),但不能一个一个数啊,你得找到最优的解决办法,换句话说题目中就会出现类似“最多”、“最少”,“一共有多少种”等提法,这些题理论上都能使用动态规划的思想来求解。动态规划与分治方法类似,都是通过组合子问题的解来求解原问题,但它对每个子问题只求解一次,将其保存在表格中,无需重新计算,通常用于求解最优化问题——《算法导论》。
编辑距离(Edit Distance),在本文指的是Levenshtein距离,也就是字符串S1通过插入、修改、删除三种操作最少能变换成字符串S2的次数。例如:S1 = abc,S2 = abf,编辑距离d = 1(只需将c修改为f)。在本文中将利用动态规划的算法思想对字符串的编辑距离求解。
定义:S1、S2表示两个字符串,S1(i)表示S1的第一个字符,d[i, j]表示S1的第i个前缀到S2的第j个前缀(例如:S1 = ”abc”,S2 = ”def”,求解S1到S2的编辑距离为d[3, 3])。
- 若S1 = ”abc”, S2 = ”dec”,此时它们的编辑距离为d[3, 3] = 2,观察两个字符串的最后一个字符是相同的,也就是说S1(3) = S2(3)不需要做任何变换,故S1 = ”abc”, S2 = ”dec” <= > S1’ = ”ab”, S2’ = ”de”,即当S1[i] = S[j]时,d[i, j] = d[i-1,j -1]。得到公式:d[i, j] = d[i - 1, j - 1] (S1[i] = S2[j])
- 上面一条得出了当S1[i] = S2[j]的计算公式,显然还有另一种情况就是S1[i] ≠ S2[j],若S1 = ”abc”, S2 = ”def”。S1变换到S2的过程可以“修改”,但还可以通过“插入”、“删除”使得S1变换为S2。
1)在S1字符串末位插入字符“f”,此时S1 = ”abcf”,S2 = ”def”,此时即S1[i] = S2[j]的情况,S1变换为S2的编辑距离为d[4, 3] = d[3, 2]。所以得出d[i, j]=d[i, j - 1] + 1。(+1是因为S1新增了”f”)
2)在S2字符串末位插入字符“c”,此时S1 = ”abc”,S2 = ”defc”,此时即S1[i] = S[j]的情况,S1变换为S2的编辑距离为d[3, 4] = d[2, 3]。所以得出d[i, j]=d[i - 1, j] + 1,实际上这是对S1做了删除。(+1是因为S2新增了”c”)
3)将S1字符串末位字符修改为”f”,此时S1 = ”abf”,S2 = ”def”,此时即S1[i] = S[j]的情况,S1变换为S2的编辑距离为d[3, 3] = d[2, 2]。所以得出d[i, j] = d[i – 1, j - 1] + 1。(+1是因为S1修改了“c”)
综上,得出递推公式:
=>
不妨用表格表示出动态规划对S1=”abc”,S2=“def”的求解过程。
可以看出红色方块即是最终所求的编辑距离,整个求解过程就是填满这个表——二维数组。下面是Java、Python分别对字符串编辑距离的动态规划求解。
Java
1 package com.algorithm.dynamicprogramming; 2 3 /** 4 * 动态规划——字符串的编辑距离 5 * s1 = "abc", s2 = "def" 6 * 计算公式: 7 * | 0 i = 0, j = 0 8 * | j i = 0, j > 0 9 * d[i,j] = | i i > 0, j = 0 10 * | min(d[i,j-1]+1, d[i-1,j]+1, d[i-1,j-1]) s1(i) = s2(j) 11 * | min(d[i,j-1]+1, d[i-1,j]+1, d[i-1,j-1]+1) s1(i) ≠ s2(j) 12 * 定义二维数组[4][4]: 13 * d e f d e f 14 * |x|x|x|x| |0|1|2|3| 15 * a |x|x|x|x| => a |1|1|2|3| => 编辑距离d = [3][3] = 3 16 * b |x|x|x|x| b |2|2|2|3| 17 * c |x|x|x|x| c |3|3|3|3| 18 * 19 * Created by yulinfeng on 6/29/17. 20 */ 21 public class Levenshtein { 22 23 public static void main(String[] args) { 24 String s1 = "abc"; 25 String s2 = "def"; 26 int editDistance = levenshtein(s1, s2); 27 System.out.println("s1=" + s1 + "与s2=" + s2 + "的编辑距离为:" + editDistance); 28 } 29 30 /** 31 * 编辑距离求解 32 * @param s1 字符串s1 33 * @param s2 字符串s2 34 * @return 编辑距离 35 */ 36 private static int levenshtein(String s1, String s2) { 37 int i = 0; //s1字符串中的字符下标 38 int j = 0; //s2字符串中的字符下标 39 char s1i = 0; //s1字符串第i个字符 40 char s2j = 0; //s2字符串第j个字符 41 int m = s1.length(); //s1字符串长度 42 int n = s2.length(); //s2字符串长度 43 if (m == 0) { //s1字符串长度为0,此时的编辑距离就是s2字符串长度 44 return n; 45 } 46 if (n == 0) { 47 return m; //s2字符串长度为0,此时的编辑距离就是s1字符串长度 48 } 49 int[][] solutionMatrix = new int[m + 1][n + 1]; //求解矩阵 50 /** 51 * d e f 52 * |0|x|x|x| 53 * a |1|x|x|x| 54 * b |2|x|x|x| 55 * c |3|x|x|x| 56 */ 57 for (i = 0; i < m + 1; i++) { 58 solutionMatrix[i][0] = i; 59 } 60 /** 61 * d e f 62 * |0|1|2|3| 63 * a |x|x|x|x| 64 * b |x|x|x|x| 65 * c |x|x|x|x| 66 */ 67 for (j = 0; j < n + 1; j++) { 68 solutionMatrix[0][j] = j; 69 } 70 /** 71 * 上面两个操作后,求解矩阵变为 72 * d e f 73 * |0|1|2|3| 74 * a |1|x|x|x| 75 * b |2|x|x|x| 76 * c |3|x|x|x| 77 * 接下来就是填充剩余表格 78 */ 79 for (i = 1; i < m + 1; i++) { //i = 1,j = 1, 2, 3,以行开始填充 80 s1i = s1.charAt(i - 1); 81 for (j = 1; j < n + 1; j++) { 82 s2j = s2.charAt(j - 1); 83 int flag = (s1i == s2j) ? 0 : 1; //根据公式,如果s1[i] = s2[j],则d[i,j]=d[i-1,j-1],如果s1[i] ≠ s2[j],则其中一个公式为d[i,j]=d[i-1,j-1]+1 84 solutionMatrix[i][j] = min(solutionMatrix[i][j-1] + 1, solutionMatrix[i-1][j] + 1, solutionMatrix[i-1][j-1] + flag); 85 } 86 } 87 return solutionMatrix[m][n]; 88 } 89 90 /** 91 * 根据公式求解编辑距离 92 * @param insert s1插入操作 93 * @param delete s1删除操作 94 * @param edit s1修改操作 95 * @return 编辑距离 96 */ 97 private static int min(int insert, int delete, int edit) { 98 int tmp = insert < delete ? insert : delete; 99 return tmp < edit ? tmp : edit; 100 } 101 }
Python3
1 ''' 2 动态规划——字符串的编辑距离 3 s1 = "abc", s2 = "def" 4 计算公式: 5 | 0 i = 0, j = 0 6 | j i = 0, j > 0 7 d[i,j] = | i i > 0, j = 0 8 | min(d[i,j-1]+1, d[i-1,j]+1, d[i-1,j-1]) s1(i) = s2(j) 9 | min(d[i,j-1]+1, d[i-1,j]+1, d[i-1,j-1]+1) s1(i) ≠ s2(j) 10 定义二维数组[4][4]: 11 d e f d e f 12 |x|x|x|x| |0|1|2|3| 13 a |x|x|x|x| => a |1|1|2|3| => 编辑距离d = [4][4] = 3 14 b |x|x|x|x| b |2|2|2|3| 15 c |x|x|x|x| c |3|3|3|3| 16 ''' 17 def levenshtein(s1, s2): 18 i = 0 #s1字符串中的字符下标 19 j = 0 #s2字符串中的字符下标 20 s1i = "" #s1字符串第i个字符 21 s2j = "" #s2字符串第j个字符 22 m = len(s1) #s1字符串长度 23 n = len(s2) #s2字符串长度 24 if m == 0: 25 return n #s1字符串长度为0,此时的编辑距离就是s2字符串长度 26 if n == 0: 27 return m #s2字符串长度为0,此时的编辑距离就是s1字符串长度 28 solutionMatrix = [[0 for col in range(n + 1)] for row in range(m + 1)] #长为m+1,宽为n+1的矩阵 29 ''' 30 d e f 31 |0|x|x|x| 32 a |1|x|x|x| 33 b |2|x|x|x| 34 c |3|x|x|x| 35 ''' 36 for i in range(m + 1): 37 solutionMatrix[i][0] = i 38 ''' 39 d e f 40 |0|1|2|3| 41 a |x|x|x|x| 42 b |x|x|x|x| 43 c |x|x|x|x| 44 45 ''' 46 for j in range(n + 1): 47 solutionMatrix[0][j] = j 48 ''' 49 上面两个操作后,求解矩阵变为 50 d e f 51 |0|1|2|3| 52 a |1|x|x|x| 53 b |2|x|x|x| 54 c |3|x|x|x| 55 接下来就是填充剩余表格 56 ''' 57 for x in range(1, m + 1): 58 s1i = s1[x - 1] 59 for y in range(1, n + 1): 60 s2j = s2[y - 1] 61 flag = 0 if s1i == s2j else 1 62 solutionMatrix[x][y] = min(solutionMatrix[x][y-1] + 1, solutionMatrix[x-1][y] + 1, solutionMatrix[x-1][y-1] + flag) 63 64 return solutionMatrix[m][n] 65 66 def min(insert, delete, edit): 67 tmp = insert if insert < delete else delete 68 return tmp if tmp < edit else edit 69 70 s1 = "abc" 71 s2 = "def" 72 distance = levenshtein(s1, s2) 73 print(distance)
转载于:https://www.cnblogs.com/yulinfeng/p/7096882.html
8.动态规划(1)——字符串的编辑距离相关推荐
- python距离向量路由算法_python算法练习——动态规划与字符串的编辑距离
动态规划与字符串的编辑距离 动态规划 动态规划(dynamic programming)是解决多阶段决策问题常用的最优化理论,该理论由美国数学家Bellman等人在1957年提出,用于研究多阶段决策过 ...
- 动态规划之字符串最短编辑距离
题目描述 给定两个字符串A和B,现在要将A经过若干操作变为B,可进行的操作有: 删除–将字符串A中的某个字符删除. 插入–在字符串A的某个位置插入某个字符. 替换–将字符串A中的某个字符替换为另一个字 ...
- 算法——动态规划算法求解字符串的编辑距离
当有人让你用递归算法求解斐波那契数列以及字符串的编辑距离时,所设的陷阱都是一致的(递归调用时的重复计算),解决方案也是一致的(引入备忘录概念).观察树形的层级调用关系,我们可以发现动态规划隐式地嵌入了 ...
- 递归c语言字符串最小编辑距离,算法设计与分析-编辑距离问题
一.实践题目 设A和B是2个字符串.要用最少的字符操作将字符串A转换为字符串B.这里所说的字符操作包括 (1)删除一个字符: (2)插入一个字符: (3)将一个字符改为另一个字符. 将字符串A变换为字 ...
- 【动态规划】字符串类型动态规划
这里总结一下字符串类型的动态规划问题,一般涉及最值问题,方案数问题都可以使用动态规划来解决 最短编辑距离 这个问题显然是一个最优解问题,对于最优解问题我们可以考虑动态规划解题,因此我们得先考虑子问题, ...
- 刷题笔记之十一 (计算字符串的编辑距离+微信红包+年终奖+迷宫问题+星际密码+数根)
目录 1. 计算字符串的编辑距离 2. 微信红包 3. 双向链表修改,比如插入新的结点,一定要画图 4. 一颗完全二叉树第六层有9个叶结点(根为第一层),则结点个数最多有109 5. 将N条长度均为M ...
- python--计算两个中文字符串的编辑距离
#计算两个中文字符串的编辑距离 def levenshtein(string1,string2):if len(string1) > len(string2):string1,string2 = ...
- 动态规划经典题之编辑距离
文章目录 题目 解题思路 (1)基本过程 (2)动态规划-递归 (3)动态规划-dp table 代码 题目 leetCode72:编辑距离 编辑距离算法是一个非常实用的算法,它的作用是求出把一个字符 ...
- 经典动态规划问题:最短编辑距离算法的原理及实现
编辑距离的定义 编辑距离(Edit Distance)最常用的定义就是Levenstein距离,是由俄国科学家Vladimir Levenshtein于1965年提出的,所以编辑距离一般又称Leven ...
最新文章
- 绿色信托任重道远 应建立补偿机制?
- spark 集群单词统计_最近Kafka这么火,聊一聊Kafka:Kafka与Spark的集成
- Algorithm:C++语言实现之队列相关算法(最短路径条数问题、拓扑排序)
- jquery设置表单元素只读_jquery设置元素readonly与disabled属性
- 英语语法最终珍藏版笔记-18what 从句的小结
- Windows 8.1 新增控件之 Hyperlink
- numpy+matplotlib绘制正弦曲线
- Override Fuction 调用——到底使用的是谁的函数
- 快速搭建企业级邮件系统iRedMail+Mysql+Postfix+php
- flutter框架优缺点_小程序框架全面测评
- Node-ES6模块化
- 说出来你可能不信,内核这家伙在内存的使用上给自己开了个小灶!
- python抓取彩票数据_编写python爬虫采集彩票网站数据,将数据写入mongodb数据库...
- Python 京东抢购茅台脚本(亲测可用),github脚本24小时内删除
- 【Python】爬虫入门级实战讲解:爬取商城的商品名称及价格
- 大拇指全程报导苹果发布会2014.9.9
- win10系统脚本批处理开启和停止服务器,批处理命令一键彻底关闭WIN10自动更新...
- 清华大学张亚勤对话朱民:颠覆认知的AI时代及产业机遇
- android修改虚拟内存(方法)
- php学生考勤管理毕业设计源码080900
热门文章
- css3 transform实现水平和垂直居中
- Altium Designer导入pcb原件之后都是绿的
- VBA_Excel_教程:过程,函数
- 《Code:The Hidden Language Of Computer Hardware and Software》 ——笔记
- 用 JA Transmenu 模块做多级弹出菜单
- WEB框架研究笔记一(准备)
- 华南理工网络计算机基础知识,2019年华南理工大学网络教育计算机基础随堂练习题第一章.docx...
- 台式电脑键盘字母乱了_电脑键盘上的一个不起眼的按键,特别实用却被粗心的人忽略...
- mexw32与mexw64
- 怎么解决python Non-ASCII character错误