文本比较算法Ⅸ——Primal-Dual算法

　研究文本比较算法有一段时间。看到Primal-Dual算法，作为不同的求LCS算法，介绍如下。

　　原文在《An almost-linear time and linear space algorithm for the longest common subsequence problem》

　　比较文本：

　　A=a₁a₂a₃……a_m

　　B=b₁b₂b₃……b_n

　　定义集合P={(i,j)|a_i=b_j}

　　则P={p₁,p₂,……,p_l} p_k表示(i_k,j_k)，1≤k≤l

　　定义三个比较运算符

　　①“∠”

　　p_x∠p_y 当且仅当 i_x<i_y,j_x<j_y

　　②“⊿”

　　p_x⊿p_y 当且仅当 i_x≤i_y,j_x≥j_y

　　③“≦”

　　p_x≦p_y 要么p_x∠p_y, 要么p_x⊿p_y

　　接下来，我们用例子阐述算法

　　　　A：481234781

　　　　B：4411327431

　　第一步：先求出集合P

　　　　P={P₁=(1,1),P₂=(1,2),P₃=(1,8),P₄=(3,3),P₅=(3,4),P₆=(3,10),P₇=(4,6),P₈=(5,5),

　　　　　　P₉=(5,9),P₁₀=(6,1),P₁₁=(6,2),P₁₂=(6,8),P₁₃=(7,7),P₁₄=(9,3),P₁₅=(9,4),P₁₆=(9,10)}

　　第二步：对集合P中的元素按照比较运算符≦排序，得到排序序列

　　　　p₃≦p₂≦p₁≦p₆≦p₅≦p₄≦p₇≦p₉≦p₈≦p₁₂≦p₁₁≦p₁₀≦p₁₃≦p₁₆≦p₁₅≦p₁₄

　　第三步：对集合P中的元素进行分组

　　　　在排序序列中，从头开始找出按照比较运算符⊿排序的子序列，可以得到

　　　　　　p₃⊿p₂⊿p₁⊿p₁₀

　　　　把这4个元素从队列中抽出来，组成C₁组。则剩下的序列为

　　　　　　p₆≦p₅≦p₄≦p₇≦p₉≦p₈≦p₁₂≦p₁₁≦p₁₃≦p₁₆≦p₁₅≦p₁₄

　　　　再从头开始找出按照比较运算符⊿排序的子序列，可以得到

　　　　　　P₆⊿p₅⊿p₄⊿p₁₁

　　　　把这4个元素从队列中抽出来，组成C₂组。则剩下的队列为

　　　　　　p₇≦p₉≦p₈≦p₁₂≦p₁₃≦p₁₆≦p₁₅≦p₁₄

　　　　再从头开始找出按照比较运算符⊿排序的子序列，可以得到

　　　　　　p₇⊿p₈⊿p₁₅⊿p₁₄

　　　　把这4个元素从队列中抽出来，组成C₃组。则剩下的队列为

　　　　　　p₉≦p₁₂≦p₁₃≦p₁₆

　　　　再从头开始找出按照比较运算符⊿排序的子序列，可以得到

　　　　　　p₉⊿p₁₂⊿p₁₃

　　　　把这三个元素从队列中抽出来，组成C₄组。则剩下的队列为

　　　　　　p₁₆

　　　　最后一个元素p₁₆组成C₅组

　　　　将上面的分组组成如下表格

C₁

C₂

C₃

C₄

C₅

p₃

p₂

p₁

p₁₀

p₆

p₅

p₄

p₁₁

p₇

p₈

p₁₅

p₁₄

p₉

p₁₂

p₁₃

p₁₆

　　第四步：填充上面表格的L行，填充的依据如下

　　1、 C₁组全部填充0

　　2、后面组的每个元素都是填充，在排序序列中比自身靠前的，同时又是前一组中最后的元素

　　排序序列：p₃≦p₂≦p₁≦p₆≦p₅≦p₄≦p₇≦p₉≦p₈≦p₁₂≦p₁₁≦p₁₀≦p₁₃≦p₁₆≦p₁₅≦p₁₄

　　例如：p₆元素

　　　　在C₁组中排在p₆前的元素有3个，分别是p₃、p₂、p₁。P₁是3个当中最后一个。

　　　　故 p₆下填充p₁ 。

　　例如：p₉元素

　　　　在C₃组中排在p₉前的元素只有1个，是p₇。

　　　　故 p₉下填充p₇ 。

填充后的表格

C₁

C₂

C₃

C₄

C₅

p₃

p₂

p₁

p₁₀

p₆

p₅

p₄

p₁₁

p₇

p₈

p₁₅

p₁₄

p₉

p₁₂

p₁₃

p₁₆

p₁

p₄

p₁₁

p₇

p₈

p₁₃

　　最后一步：回溯LCS字符串

　　先从C₅中p₁₆找起，p₁₆对应p₁₃，再从p₁₃找寻，p₁₃对应p₈。依次类推

　　p₁₆→p₁₃→p₈→p₄→p₁

　　　　则(9,10)→(7,7)→(5,5)→(3,3)→(1,1)

　　　　故LCS字符串为

　　　　a₁a₃a₅a₇a₉=b₁b₃b₅b₇b₁₀=41371

　　此时最佳匹配为

　　　　A：48123478_1

　　　　B：4411327431　　

　　算法完成

　　这个算法能够找到至少一个LCS（注意，不一定能找到全部LCS，LCS不一定是唯一的）。但是，这个算法的空间占用为P的元素的个数，但是P的元素个数是O(n²)的。故本算法对于找最佳匹配不是一个好算法。不过对于开拓思路还是有用的，原来还可以这样算LCS。

本文转自万仓一黍博客园博客，原文链接：http://www.cnblogs.com/grenet/archive/2011/03/17/1987172.html，如需转载请自行联系原作者

文本比较算法Ⅸ——Primal-Dual算法相关推荐

三维等值面提取算法（Dual Contouring）
上一篇介绍了Marching Cubes算法,Marching Cubes算法是三维重建算法中的经典算法,算法主要思想是检测与等值面相交的体素单元并计算交点的坐标,然后对不同的相交情况利用查找表在体素 ...
文本比较算法Ⅱ——Needleman/Wunsch算法
在"文本比较算法Ⅰ--LD算法"中介绍了基于编辑距离的文本比较算法--LD算法. 本文介绍基于最长公共子串的文本比较算法--Needleman/Wunsch算法. 还是以实例说明: ...
EIGRP DUAL算法
1.EIGRP使用DUAL算法,规则为:存在FS(次优路由AD<继承路由FD),当Sucssor判断为down后,调用FS:当没有FS时,该路由进入active状态,并向所有邻居发出query. ...
条件随机场(CRF) - 4 - 学习方法和预测算法(维特比算法)
声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了 ...
SURF算法与SIFT算法的性能比较——图像特征点检测与提取算法分析
图像特征点提取算法的算法研究(SURF和SIFT算法) 1. 摘要计算机视觉中,很大一部分研究集中在图像特征提取和特征生成算法上.对图像的优化,不同于一般数学问题的优化方法,图像的优化是对像素点,在 ...
数据结构与算法（5）字符串（BF算法、KMP算法及KMP算法优化）
目录一.BF算法(暴力算法) 二.KMP算法三.KMP算法优化一.BF算法(暴力算法) 一个一个往后匹配,匹配失败继续从母串下一个和头(子串的头)往后继续匹配. 虽然简单,但是需要较多的时间复杂 ...
标准K-means算法的缺陷、K-mean++初始化算法、初始化算法步骤、Kmeans++算法实现
标准K-means算法的缺陷.K-mean++初始化算法.初始化算法步骤.Kmeans++算法实现目录标准K-means算法的缺陷.K-mean&
Apriori算法、FP-Growth算法、顺序分析、PrefixSpan算法
Apriori算法.FP-Growth算法.顺序分析.PrefixSpan算法目录 Apriori算法.FP-Growth算法.顺序分析.PrefixSpan算法 Apriori算法 FP-Grow ...
Java-JVM虚拟机内存垃圾回收机制gc入门：引用类型，对象标记算法，回收算法，常见的 garbage collector
文章目录 GC的优缺点引用的四种类型对象标记算法引用计数法可达性分析法回收算法标记-清除算法(Mark-Sweep) 复制算法标记-整理算法(Mark-Compact) 分代收集算法常 ...
「AI科技」机器学习算法之K-means算法原理及缺点改进思路
https://www.toutiao.com/a6641916717624721933/ 2019-01-03 08:00:00 K-means算法是使用得最为广泛的一个算法,本文将介绍K-mean ...

文本比较算法Ⅸ——Primal-Dual算法

文本比较算法Ⅸ——Primal-Dual算法相关推荐

最新文章

热门文章