几个冷门字符串算法的学习笔记（最小表示法，exKMP，Lyndon Word）

所有下标均从1开始

最小表示法

给定一个串，求字典序最小的循环同构。

我们把串复制一遍接在后面，然后求出[1,N][1,N][1,N]开始的长为NNN的子串中最小的

先设i=1,j=2i=1,j=2i=1,j=2

然后暴力找出iii和jjj往后匹配的第一个不同的位置，记为i+ki+ki+k和j+kj+kj+k

如果Si+k<Sj+kS_{i+k}<S_{j+k}Si+k<Sj+k,说明iii比jjj优，所以jjj不是最优解；然后发现i+1i+1i+1比j+1j+1j+1优，所以j+1j+1j+1不是最优解……这样可以让jjj直接跳到j+k+1j+k+1j+k+1。

Si+k>Sj+kS_{i+k}>S_{j+k}Si+k>Sj+k同理

如果i=ji=ji=j，随便让一个+1+1+1即可

两个指针都不能超过NNN，一个超过之后另一个就是答案

因为所有位置都会被遍历，而最优解一定不会被丢掉，所以正确性可以保证。

复杂度显然是O(N)O(N)O(N)

模板题

#include <iostream>
#include <cstdio>
#include <cstring>
using namespace std;
char s[10005];
int main()
{int T;scanf("%d",&T);while (T--){scanf("%s",s);int n=strlen(s);int i=0,j=1;while (i<n&&j<n)for (int k=0;;k++){if (s[(i+k)%n]!=s[(j+k)%n]){if (s[(i+k)%n]>s[(j+k)%n])i+=k+1;else j+=k+1;if (i==j) j++;break;}if (k==n) goto end;}end:printf("%d\n",min(i,j)+1);}return 0;
}

(远古代码，和上面讲的略有不同，仅供参考)

扩展KMP

官方名称应该叫Z算法，不知道为啥传到国内就变成扩展KMP了

但实际上思想和manacher很像所以应该叫扩展马拉车

解决的问题是给两个串S,TS,TS,T,求 TTT的每个后缀和SSS 的最长公共前缀

先把SSS接在TTT后面，中间加个#之类的东西把这个串记为AAA

然后设pip_ipi表示AAA的从iii开始的后缀和TTT（也可以是AAA）的最长公共前缀

并且设公共前缀扩展到的最右位置为mxmxmx,取到这个最大值的iii为xxx

然后iii从222开始遍历（因为p1p_1p1没有意义还会把算法搞砸）

如果i<mxi<mxi<mx

因为上下橙色位置相同，所以pi=pi−x+1p_i=p_{i-x+1}pi=pi−x+1，当然要和mx−i+1mx-i+1mx−i+1取min⁡\minmin

如果i≥mxi \geq mxi≥mx，不管

然后暴力扩展，更新mxmxmx,没了

复杂度显然O(∣S∣+∣T∣)O(|S|+|T|)O(∣S∣+∣T∣)

模板题

#include <iostream>
#include <cstdio>
#include <cstring>
#include <cctype>
#define MAXN 200005
using namespace std;
char s[MAXN],t[MAXN];
int p[MAXN];
int main()
{scanf("%s%s",t+1,s+1);int m=strlen(s+1);strcat(s+1,"#");strcat(s+1,t+1);int n=strlen(s+1);for (int i=2,x=0,mx=0;i<=n;i++){p[i]=i<=mx? min(p[i-x+1],mx-i+1):0;while (s[i+p[i]]==s[p[i]+1]) ++p[i];if (i+p[i]-1>mx) x=i,mx=i+p[i]-1;}for (int i=1;i<=n;i++)if (s[i]=='#') puts("");else printf("%d ",i>1? p[i]:m);return 0;
}

Lyndon Word

定义：一个串是Lyndon Word（以下简称LW），当且仅当它本身是自己字典序最小的后缀

下文字符串的比较均为字典序，+为字符串拼接

性质1 两个LW u,vu,vu,v,如果u<vu<vu<v,那么u+vu+vu+v是LW

对于vvv的后缀，它比vvv大，所以一定不是最小的；

对于vvv,因为u<vu<vu<v,所以u+v<vu+v<vu+v<v

对于(u的后缀)+v(u的后缀)+v(u的后缀)+v,因为u<(u的后缀)u<(u的后缀)u<(u的后缀),所以u+v<(u的后缀)+vu+v<(u的后缀)+vu+v<(u的后缀)+v

所以u+vu+vu+v是最小的

所以LW可以递归定义：

单个字符是LW
多个字典序递增的LW顺次拼接后是LW

性质2 一个LW将最后一个字符变大后仍是LW

只有最后一个只包含一个字符的后缀变大，前面大小关系不变

性质3 任意字符串SSS存在且仅存在一种分解方式S=s1+s2+...+snS=s_1+s_2+...+s_nS=s1+s2+...+sn,使得所有sis_isi均为LW且单调不增

证明是不可能的，这辈子都是不可能的

把性质3中的分解称为Lyndon分解

接下来要讲的就是线性求Lyndon分解的Duval算法

首先三个指针i,j,ki,j,ki,j,k，表示iii以前的分解已经固定,现在处理第kkk个字符,jjj一会儿说

即[1,i)[1,i)[1,i)为s1+s2+...+sns_1+s_2+...+s_ns1+s2+...+sn,其中sis_isi为LW且单调不增

[i,k)[i,k)[i,k)为t+t+...+t+t1t+t+...+t+t_1t+t+...+t+t1,其中ttt是LW，t1t_1t1是ttt的可空前缀

也就是一个LW不断循环，最后一个循环节可以不完整。注意这不一定是[i,k)[i,k)[i,k)的Lyndon分解，因为t1t_1t1不一定是LW

别问为啥，问就是归纳法

现在把SkS_kSk加在后面，如果要继续循环，应该加的是Sk−循环节长度S_{k-循环节长度}Sk−循环节长度，我们把这个kkk应该跟的位置记为jjj

如果Sj=SkS_j=S_kSj=Sk，说明循环正常，继续往后

如果Sj<SkS_j<S_kSj<Sk，根据性质1，最后一个不完整的循环节t1t_1t1加上SkS_kSk是个LW并且比前面的ttt都大，不断向前合并发现整段都是LW。所以将[i,k][i,k][i,k]一长串合并成新的ttt，即令j=ij=ij=i

如果Sj>SkS_j>S_kSj>Sk 不管t1t_1t1和SkS_kSk大小关系，反正后面怎么加怎么都会小于ttt,所以没ttt啥事了，把所有ttt固定下来，t1t_1t1作为新的循环节。然后t1t_1t1这个地方，我们之前以为它会进入循环，然而它没有，这里面漏了一些信息，所以需要从t1t_1t1的开头重新分解

模板题

#include <iostream>
#include <cstdio>
#include <cstring>
#include <cctype>
#define MAXN (1<<20)+5
using namespace std;
char s[MAXN];
int main()
{scanf("%s",s+1);int n=strlen(s+1);for (int i=1;i<=n;){int j=i,k=i+1;while (s[j]<=s[k]){if (s[j]==s[k]) ++j;else j=i;++k;}while (i<=j){printf("%d ",i+k-j-1);i+=k-j;}}return 0;
}

我华灯宴呢