1、先科普下最长公共子序列 & 最长公共子串的区别:

找两个字符串的最长公共子串,这个子串要求在原字符串中是连续的。而最长公共子序列则并不要求连续。

2、最长公共子串

其实这是一个序贯决策问题,可以用动态规划来求解。我们采用一个二维矩阵来记录中间的结果。这个二维矩阵怎么构造呢?直接举个例子吧:"bab"和"caba"(当然我们现在一眼就可以看出来最长公共子串是"ba"或"ab")

b  a  b

c  0  0  0

a  0  1  0

b  1  0  1

a  0  1  0

我们看矩阵的斜对角线最长的那个就能找出最长公共子串。

不过在二维矩阵上找最长的由1组成的斜对角线也是件麻烦费时的事,下面改进:当要在矩阵是填1时让它等于其左上角元素加1。

b  a  b

c  0  0  0

a  0  1  0

b  1  0  2

a  0  2  0

这样矩阵中的最大元素就是 最长公共子串的长度。

在构造这个二维矩阵的过程中由于得出矩阵的某一行后其上一行就没用了,所以实际上在程序中可以用一维数组来代替这个矩阵。

2.1 代码如下:

ref:

LCS的Java算法---考虑可能有多个相同的最长公共子串

最大子序列、最长递增子序列、最长公共子串、最长公共子序列、字符串编辑距离

2.2 其实 awk 写起来也很容易:

2.3 perl的。。。真心没看懂。。。

3、最长公共子序列

REF:

字符串最大公共子序列以及最大公共子串问题

动态规划算法解最长公共子序列LCS问题

在做OJ题目的时候,经常会用到字符串的处理。例如,比较二个字符串相似度。这篇文章介绍一下求两个字符串的最长公共子序列。

一个字符串的子序列,是指从该字符串中去掉任意多个字符后剩下的字符在不改变顺序的情况下组成的新字符串。

最长公共子序列,是指多个字符串可具有的长度最大的公共的子序列。

(1)递归方法求最长公共子序列的长度

1)设有字符串a[0...n],b[0...m],下面就是递推公式。

当数组a和b对应位置字符相同时,则直接求解下一个位置;当不同时取两种情况中的较大数值。

2)代码如下:

#include

#include

char a[30],b[30];

int lena,lenb;

int LCS(int,int);  ///两个参数分别表示数组a的下标和数组b的下标

int main()

{

strcpy(a,"ABCBDAB");

strcpy(b,"BDCABA");

lena=strlen(a);

lenb=strlen(b);

printf("%d\n",LCS(0,0));

return 0;

}

int LCS(int i,int j)

{

if(i>=lena || j>=lenb)

return 0;

if(a[i]==b[j])

return 1+LCS(i+1,j+1);

else

return LCS(i+1,j)>LCS(i,j+1)? LCS(i+1,j):LCS(i,j+1);

}

用递归的方法优点是编程简单,容易理解。缺点是效率不高,有大量的重复执行递归调用,而且只能求出最大公共子序列的长度,求不出具体的最大公共子序列。

(2)动态规划求最长公共子序列的长度

动态规划采用二维数组来标识中间计算结果,避免重复的计算来提高效率。

1)最长公共子序列的长度的动态规划方程

设有字符串a[0...n],b[0...m],下面就是递推公式。字符串a对应的是二维数组num的行,字符串b对应的是二维数组num的列。

另外,采用二维数组flag来记录下标i和j的走向。数字"1"表示,斜向下;数字"2"表示,水平向右;数字"3"表示,竖直向下。这样便于以后的求解最长公共子序列。

(2)求解公共子序列代码

#include

#include

char a[500],b[500];

char num[501][501]; ///记录中间结果的数组

char flag[501][501]; ///标记数组,用于标识下标的走向,构造出公共子序列

void LCS(); ///动态规划求解

void getLCS(); ///采用倒推方式求最长公共子序列

int main()

{

int i;

strcpy(a,"ABCBDAB");

strcpy(b,"BDCABA");

memset(num,0,sizeof(num));

memset(flag,0,sizeof(flag));

LCS();

printf("%d\n",num[strlen(a)][strlen(b)]);

getLCS();

return 0;

}

void LCS()

{

int i,j;

for(i=1;i<=strlen(a);i++)

{

for(j=1;j<=strlen(b);j++)

{

if(a[i-1]==b[j-1]) ///注意这里的下标是i-1与j-1

{

num[i][j]=num[i-1][j-1]+1;

flag[i][j]=1; ///斜向下标记

}

else if(num[i][j-1]>num[i-1][j])

{

num[i][j]=num[i][j-1];

flag[i][j]=2; ///向右标记

}

else

{

num[i][j]=num[i-1][j];

flag[i][j]=3; ///向下标记

}

}

}

}

void getLCS()

{

char res[500];

int i=strlen(a);

int j=strlen(b);

int k=0; ///用于保存结果的数组标志位

while(i>0 && j>0)

{

if(flag[i][j]==1) ///如果是斜向下标记

{

res[k]=a[i-1];

k++;

i--;

j--;

}

else if(flag[i][j]==2) ///如果是斜向右标记

j--;

else if(flag[i][j]==3) ///如果是斜向下标记

i--;

}

for(i=k-1;i>=0;i--)

printf("%c",res[i]);

}

(3)图示

1.概念

编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括:(1)将一个字符替换成另一个字符,(2)插入一个字符,(3)删除一个字符。

相似度,等于“编辑距离+1”的倒数。

2.分析

设有字符串a[0...n],b[0...m]。

(1)当a[i]=b[j]时,说明这时候不需要编辑操作。编辑距离保持,即f(i,j)=f(i-1,j-1)

(2)当a[i]!=b[j]时,可以有三种编辑操作。

其中删除和插入操作,只对一个下标i或者j产生影响。如在下图中,当前匹配到(t1,t2)处,如果采用删除'g',只改变t1的下标。

其中替换操作,会对2个下标都产生影响。如在下图中,当前匹配到(t1,t2)处,如果将'g'替换成'm',则下次就需要执行(t1+1,t2+1)处。

所以可以推导出下面就是递推公式。

3.用递归求解代码

#include

#include

char *a="abcgh";

char *b="aecdgh";

int min(int t1,int t2,int t3) ///求三个数的最小值

{

int min;

min=t1

min=min

return min;

}

int calculate(int i,int enda,int j,int endb)

{

int t1,t2,t3;

if(i>enda) ///i指示超过a[]的范围时

{

if(j>endb)

return 0;

else

return endb-j+1;

}

if(j>endb) ///j指示超过b[]的范围时

{

if(i>enda)

return 0;

else

return enda-i+1;

}

if(*(a+i) == *(b+j)) ///如果两个相等,则直接求下一个位置

return calculate(i+1,enda,j+1,endb);

else

{

t1=calculate(i+1,enda,j,endb); ///删除a[i]或在b中插入a[i]

t2=calculate(i,enda,j+1,endb); ///删除b[j]或在a中插入b[j]

t3=calculate(i+1,enda,j+1,endb); ///替换

return 1+min(t1,t2,t3);

}

}

int main()

{

int dis=calculate(0,strlen(a)-1,0,strlen(b)-1);

printf("dis=%d",dis);

return 1;

}

4.用动态规划求解代码

#include

#include

#define MAX 1000

int dp[MAX][MAX]; ///dp[i][j]表示当前a[0..i-1]与b[0..j-1]的编辑距离

char *a="agbgd";

char *b="ggd";

int min(int t1,int t2,int t3) ///求三个数的最小值

{

int min;

min=t1

min=min

return min;

}

int main()

{

int i,j;

int lena=strlen(a),lenb=strlen(b);

memset(dp,0,sizeof(dp));

for(i=0;i<=lena;i++) ///a作为行,当b为空串时

dp[0][i]=i;

for(i=0;i<=lenb;i++) ///b作为列,当a为空串时

dp[i][0]=i;

for(i=1;i<=lena;i++)

{

for(j=1;j<=lenb;j++)

{

if(*(a+i)==*(b+j)) ///相等时

dp[i][j]=dp[i-1][j-1];

else

dp[i][j]=1+min(dp[i-1][j],dp[i][j-1],dp[i-1][j-1]); ///不相等时,取三种可能操作的最小数值+1

}

}

printf("编辑距离为:dis=%d\n",dp[lena][lenb]);

return ;

}

来源:http://blog.csdn.net/cangchen/article/details/45045541

最长公共子序列算法 java_转【算法之动态规划(三)】动态规划算法之:最长公共子序列 最长公共子串(LCS)字符串相似度算法...相关推荐

  1. 一种中文字符串相似度算法

    一种中文字符串相似度算法 概要 标记距离相似算法 扩展 概要 给定一个字符串a,在字符串列表B中找到与a最相似字符串b,或者让列表B按与a相似度排序.本文提出一种算法来较好的解决这个问题.并且该算法很 ...

  2. 最长公共子串LCS (Longest Common Subsequence) 算法

    三个方法都有所借鉴,但代码部分是自己试着写出来的,虽然最后的运行结果都是正确的,但此过程中难免会有考虑不周全的地方,如发现代码某些地方有误,欢迎指正.同时有新的想法,也可以提出! 采用顺序结构存储串, ...

  3. 字符串相似度算法(编辑距离算法)

    编辑距离算法 前言 原理 公式 例子 实现 后记 前言 比较两个字符串的相似度,通常我们会使用编辑距离算法来实现. 下面是常用字符串相似度计算的方法: 字符串相似度的几种度量方法 原理 最小编辑距离的 ...

  4. 计算字符串相似度算法—Levenshtein

    什么是Levenshtein Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删 ...

  5. 字符串相似度算法——Levenshtein Distance算法

    Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一 ...

  6. A*寻路算法的探寻与改良(三)

    A*寻路算法的探寻与改良(三) by:田宇轩                                        第三分:这部分内容基于树.查找算法等对A*算法的执行效率进行了改良,想了解细 ...

  7. 数组字符串那些经典算法:最大子序列和,最长递增子序列,最长公共子串,最长公共子序列,字符串编辑距离,最长不重复子串,最长回文子串 (转)...

    作者:寒小阳 时间:2013年9月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/11969497. 声明:版权所有,转载请注明出处,谢谢 ...

  8. Rabin-Karp算法 java_第 2 章 字符串

    第 2 章 字符串 字符串处理是算法领域里非常重要的内容,其中有些是关于文字处理的,比如语法检查,有些则关于子字符串(子串):或者更笼统地说,是关于模式(pattern)查找的.随着生物信息学的发展, ...

  9. 啊哈 算法 Java_《啊哈!算法》.啊哈磊.高清版.pdf

    这不过是一本有趣的算法书而已.和别的算法书比较,如果硬要说它有什么特点的话,那就是你能看懂它.这是一本充满智慧和趣味的算法入门书.没有枯燥的描述,没有难懂的公式,一切以实际应用为出发点,通过幽默的语言 ...

最新文章

  1. 让人又爱又恨的Mysql多表查询
  2. VIM之Project 项目管理工具
  3. Ubuntu下安装tilix终端仿真器
  4. 我经常访问的技术网站
  5. Java基础学习之(二)—对象与类的方法参数
  6. DHML+XML+CSS 技术汇总
  7. UI界面视觉设计之字体要素--安卓-ios-网页常用字体
  8. 【转载】超级弹丸论破2再见绝望学园攻略
  9. MySQL | 六个最常用的 MySQL 数据库监控工
  10. 网站交互式公安备案详细流程
  11. 电脑图片格式怎么批量转换jpg?几个小妙招轻松转换
  12. 用自己打工挣的钱,他创办广告公司,总资产已达3000多万
  13. cocos creator麻将教程系列(二)—— 达达麻将的底层通讯express框架与socketio
  14. linux bootrom ftp,H3C交换机通过以太口应用ftp方式升级bootrom软件
  15. czl蒻蒟的OI之路14、15
  16. 接近8000字的Spring/Spring常用注解总结
  17. 动态社区网络前沿研究
  18. 突破!Matlab国产替代品Truffer官宣取得实质进步
  19. 儿童php钢板,儿童尺桡骨双骨折:弹性髓内钉还是钢板?
  20. 嵌入式STM32入门之STM32基础串口通信

热门文章

  1. UVA10689 Yet another Number Sequence【数列+矩阵快速幂】
  2. UVA11582 Colossal Fibonacci Numbers!【快速模幂+数列模除】
  3. π-Algorithmist分类题目(1)
  4. 51Nod-1083 矩阵取数问题【DP】
  5. CCF201612-1 中间数(解法三)(100分)(废除!!!)
  6. 直线分割平面问题(数学归纳法)
  7. 从随机数生成到随机采样的C++实现
  8. python软件下载安装-【Python下载】Python安装 v3.8.1 官方版-七喜软件园
  9. python在线编辑器-在线python编辑器
  10. python编程入门课 视频-Python入门到精通视频教程下载[21课程全]