原文地址:http://www.cnblogs.com/huangxincheng/archive/2012/11/11/2765633.html

这篇我们看看最长公共子序列的另一个版本,求字符串相似度(编辑距离),我也说过了,这是一个非常实用的算法,在DNA对比,网

页聚类等方面都有用武之地。

一:概念

对于两个字符串A和B,通过基本的增删改将字符串A改成B,或者将B改成A,在改变的过程中我们使用的最少步骤称之为“编辑距离”。

比如如下的字符串:我们通过种种操作,痉挛之后编辑距离为3,不知道你看出来了没有?

二:解析

可能大家觉得有点复杂,不好理解,我们试着把这个大问题拆分掉,将"字符串 vs 字符串“,分解成”字符 vs 字符串“,再分解

成”字符 vs 字符“。

<1> ”字符“vs”字符“

这种情况是最简单的了,比如”A“与”B“的编辑距离很显然是1。

<2> ”字符”vs"字符串"

”A“改成”AB“的编辑距离为1,“A”与“ABA”的编辑距离为2。

<3>“字符串”vs“字符串”

“ABA”和“BBA”的编辑距离为1,仔细发现我们可以得出如下结论,”ABA“是由23个子序列与”BBA“字符串求的的编辑距离集

合中取出的最小编辑距离,也就是说在这种情况下我们出现了重复计算的问题,我在求子序列”AB“和”BBA"的编辑距离时,我是由

子序列”A“和”BBA“与”B“和”BBA“之间的编辑距离中选出一个最小值,然而序列A和序列B早之前我已经计算过了,这种重复计算

的问题有点像”斐波那契”,正好满足“动态规划”中的最优子结构和重叠子问题,所以我们决定采用动态规划来解决。

三:公式

跟“最长公共子序列”一样,我们采用一个二维数组来保存字符串X和Y当前的位置的最小编辑距离。

现有两个序列X={x1,x2,x3,...xi},Y={y1,y2,y3,....,yi},

设一个C[i,j]: 保存Xi与Yj的当前最小的LD。

①: 当 X= Yi 时,则C[i,j]=C[i-1,j-1];

②:当 X!= Y时, 则C[i,j]=Min{C[i-1,j-1],C[i-1,j],C[i,j-1]};

最终我们的C[i,j]一直保存着最小的LD。

四:代码

 1 using System;
 2
 3 namespace ConsoleApplication2
 4 {
 5     public class Program
 6     {
 7         static int[,] martix;
 8
 9         static string str1 = string.Empty;
10
11         static string str2 = string.Empty;
12
13         static void Main(string[] args)
14         {
15             while (true)
16             {
17                 str1 = Console.ReadLine();
18
19                 str2 = Console.ReadLine();
20
21                 martix = new int[str1.Length + 1, str2.Length + 1];
22
23                 Console.WriteLine("字符串 {0} 和 {1} 的编辑距离为:{2}\n", str1, str2, LD());
24             }
25         }
26
27         /// <summary>
28         /// 计算字符串的编辑距离
29         /// </summary>
30         /// <returns></returns>
31         public static int LD()
32         {
33             //初始化边界值(忽略计算时的边界情况)
34             for (int i = 0; i <= str1.Length; i++)
35             {
36                 martix[i, 0] = i;
37             }
38
39             for (int j = 0; j <= str2.Length; j++)
40             {
41                 martix[0, j] = j;
42             }
43
44             //矩阵的 X 坐标
45             for (int i = 1; i <= str1.Length; i++)
46             {
47                 //矩阵的 Y 坐标
48                 for (int j = 1; j <= str2.Length; j++)
49                 {
50                     //相等情况
51                     if (str1[i - 1] == str2[j - 1])
52                     {
53                         martix[i, j] = martix[i - 1, j - 1];
54                     }
55                     else
56                     {
57                         //取“左前方”,“上方”,“左方“的最小值
58                         var temp1 = Math.Min(martix[i - 1, j], martix[i, j - 1]);
59
60                         //获取最小值
61                         var min = Math.Min(temp1, martix[i - 1, j - 1]);
62
63                         martix[i, j] = min + 1;
64                     }
65                 }
66             }
67
68             //返回字符串的编辑距离
69             return martix[str1.Length, str2.Length];
70         }
71     }
72 }

经典算法题每日演练——第五题 字符串相似度相关推荐

  1. 经典算法题每日演练——第六题 协同推荐SlopeOne 算法

    原文:经典算法题每日演练--第六题 协同推荐SlopeOne 算法 相信大家对如下的Category都很熟悉,很多网站都有类似如下的功能,"商品推荐","猜你喜欢&quo ...

  2. 经典算法题每日演练——第十题 树状数组

    原文:经典算法题每日演练--第十题 树状数组 有一种数据结构是神奇的,神秘的,它展现了位运算与数组结合的神奇魅力,太牛逼的,它就是树状数组,这种数据结构不是神人是发现不了的. 一:概序 假如我现在有个 ...

  3. 经典算法题每日演练——第七题 KMP算法

    原文:经典算法题每日演练--第七题 KMP算法 在大学的时候,应该在数据结构里面都看过kmp算法吧,不知道有多少老师对该算法是一笔带过的,至少我们以前是的, 确实kmp算法还是有点饶人的,如果说红黑树 ...

  4. 经典算法题每日演练——第三题 猴子吃桃

    猴子第一天摘下若干个桃子,当即吃了一半,还不过瘾就多吃了一个.第二天早上又将剩下的桃子吃了一半,还是不过瘾又多 吃了一个.以后每天都吃前一天剩下的一半再加一个.到第10天刚好剩一个.问猴子第一天摘了多 ...

  5. 经典算法题每日演练——第十一题 Bitmap算法

    在所有具有性能优化的数据结构中,我想大家使用最多的就是hash表,是的,在具有定位查找上具有O(1)的常量时间,多么的简洁优美, 但是在特定的场合下: ①:对10亿个不重复的整数进行排序. ②:找出1 ...

  6. 经典算法题每日演练——第二十一题 十字链表

    上一篇我们看了矩阵的顺序存储,这篇我们再看看一种链式存储方法"十字链表",当然目的都是一样,压缩空间. 一:概念 既然要用链表节点来模拟矩阵中的非零元素,肯定需要如下5个元素(ro ...

  7. 经典算法题每日演练——第二十二题 奇偶排序

    原文:经典算法题每日演练--第二十二题 奇偶排序 这个专题因为各种原因好久没有继续下去了,MM吧...你懂的,嘿嘿,不过还得继续写下去,好长时间不写,有些东西有点生疏了, 这篇就从简单一点的一个&qu ...

  8. 经典算法题每日演练——第十九题 双端队列

    经典算法题每日演练--第十九题 双端队列 原文:经典算法题每日演练--第十九题 双端队列 话说大学的时候老师说妹子比工作重要~,工作可以再换,妹子这个...所以...这两个月也就一直忙着Fall in ...

  9. 经典算法题每日演练——第一题 百钱买百鸡

    经典算法题每日演练--第一题 百钱买百鸡 原文:经典算法题每日演练--第一题 百钱买百鸡 百钱买百鸡的问题算是一套非常经典的不定方程的问题,题目很简单:公鸡5文钱一只,母鸡3文钱一只,小鸡3只一文钱, ...

最新文章

  1. 开源BTS产品中存在多处漏洞,攻击者或可劫持手机通讯基站
  2. Visual Studio 2019更新到16.2.1
  3. python 复制文件夹
  4. Oracle索引失效问题
  5. python一行没写完用什么隔离_完全隔离的Python环境
  6. 5. SQL Server数据库性能监控 - 当前请求
  7. java spring 过滤器_spring中过滤器与拦截器的区别
  8. 35. 脱壳篇-UPX和WinUpack压缩壳的使用和脱法
  9. 计蒜课挑战难题:罗马数字转换成整数
  10. 问题解决:form表单的button按钮问题
  11. Dell服务器RAID常用管理命令总结
  12. WEBPACK+ES6+REACT入门(1/7)-创建webpack4.x项目
  13. 行为树BT设计与实现
  14. ssm医院挂号就诊预约系统毕业设计源码250853
  15. QChartView绘制可缩放和平移的图表QChart(此例子为折线图)
  16. 计算机文档的标志不见了,我的文档图标不见了怎么办【解决方法】
  17. python for data analysis 操作usagov_bitly_data示例
  18. 为什么加泪滴,Allegro如何加泪滴?
  19. 在Windows上使用Cygwin源码安装tig
  20. 阿里云时空数据库实战:数据入库与导出

热门文章

  1. 七种常见的排序算法总结
  2. 无线安全攻防--启程
  3. Hadoop2.6.0安装教程_单机/伪分布式配置
  4. android自定义阴影的卡片布局,CardView卡片布局的简单使用
  5. totalcmd简单教程--help详解
  6. 路由器开发相关知识总结 —— 以太网PHY芯片
  7. PostgreSQL 13新特性之二: 支持异构分区表逻辑复制。
  8. 711页的黄海广老师的《机器学习》课件合集.pdf
  9. matlab处理大量数据
  10. slow post ddos tools torshammer (win32可执行下载)