Trie树讲解（例题：ACWING 835，ACWING 143）

Trie树又称为字典树，这个数据结构的意义是高效地存储和查询字符串。我们先来看一下它的思想。

关于树的定义

为了方便我们后面的理解，我先把后面会用到的一些名词介绍一下。
（有时输入法会把结点和节点打错，故以下的“节点”如无特殊说明，都可看作是“结点”）
孩子结点：一个结点的子树的根结点就是该结点的孩子结点。
父亲结点：一个结点如果有孩子结点，那么它就是它的孩子结点的父亲结点。
兄弟结点：与该结点同父亲的结点称为该结点的兄弟结点。
堂兄弟结点：同一层次非同父亲的结点
祖先节点和子孙结点：如果存在一条从结点X到结点Y的从上至下的路径，那么称结点X是结点Y的祖先结点，结点Y是结点X的子孙结点。注意：自己是自己的祖先结点，也是自己的子孙结点。

Trie树的思想

假设给定一个字符串，我们要存储这个字符串。Trie树的算法是，从根节点开始，向它的孩子结点不停查找，如果第i层（设根节点为第0层，从第1层开始存储）有字符串的第i个字母结点，且这个结点是前一个字母的孩子结点，那么我们直接选择这个结点继续向下查找；如果第i层没有字符串的第i个字母结点，那么我们就在这一层创建一个结点来存储这个字母。以此类推，直到遍历完整个字符串，这时我们在遍历停止的这个结点做一个标记，统计值+1，代表这个字符串已经存储进Trie树里了，如果之前树里已经存储过该字符串，那么该字符串的统计值就会大于1。

如果我们要查找一个字符串，和存储字符串的操作基本相同。同样是从根节点开始向下一层一层地查找，如果第i层没有字符串的第i个字母结点，直接返回查找失败；如果有的话就继续向该结点的孩子结点查找，直到遍历完字符串，这时我们返回该终止结点的统计值，也就是该字符串在给定集合中出现的次数。
画个图来演示一下：
假如说有如下字符串：
abcde
acd
我们先存abcde：

第一步，我们先查找根节点的孩子结点，看是否有‘a’，结果没有，所以我们在根节点的下一层创建一个结点，存储‘a’。
第二步到第五步同理。一直到存储‘e’结点时，我们发现我们已经遍历完了整个字符串abcde，于是，我们在e这个结点上记录它的统计值，表示这个字符串在该Trie树里记录了几次。由于e这个结点之前从未被记录过，所以它目前的统计值是0+1=1，代表abcde这个字符串在集合里一共只出现了一次。

然后我们存储acd：

第一步，我们从根节点向它的孩子结点查找，发现‘a’结点已经存在了，那我们直接选择这个a结点，继续向下；
第二步，我们在a结点的下一层发现，只有b，没有c，所以我们要创建一个c结点，并顺着c结点继续向下。
第三步，我们发现c结点的孩子结点里什么都没有，所以我们创建一个d结点。这时，acd已遍历完毕，于是我们把d结点的统计值+1。

至此，关于abcde acd集合的Trie树就建立完成了。
值得注意的是，有两个结点存储了特殊的信息，那就是给定字符串在该集合中出现的次数，我在下图中用红笔标记出来。

这就是Trie树的全部思想了。可以看出来，它有两个主要操作：插入和查找，对应的代码如下：

const int N=100010;
int idx,son[N][26],cnt[N];
char str[N],c;
void myInsert(char *str)
{int p=0;for(int i=0;str[i];i++){int u=str[i]-'a';if(!son[p][u])son[p][u]=++idx;p=son[p][u];}cnt[p]++;
}
int query(char *str)
{int p=0;for(int i=0;str[i];i++){int u=str[i]-'a';if(!son[p][u])return 0;p=son[p][u];}return cnt[p];
}

其中，cnt数组就是我们刚才提到的，存储“统计值”的数组，idx起到一个指引的作用，表示我们当前用到的结点位置；son[p][u]中的p代表当前结点的父亲结点位置，u代表当前正在查询的字符串中的字符，son[p][u]的值代表该结点的位置，如果该结点不存在，则值为0。

下面我们来看一道题巩固一下：

Trie字符串统计
维护一个字符串集合，支持两种操作：

“I x”向集合中插入一个字符串x；
“Q x”询问一个字符串在集合中出现了多少次。
共有N个操作，输入的字符串总长度不超过 105105，字符串仅包含小写英文字母。

输入格式

第一行包含整数N，表示操作数。

接下来N行，每行包含一个操作指令，指令为”I x”或”Q x”中的一种。

输出格式

对于每个询问指令”Q x”，都要输出一个整数作为结果，表示x在集合中出现的次数。

每个结果占一行。

数据范围

1≤N≤2∗1041≤N≤2∗104

输入样例：

5
I abc
Q abc
Q ab
I ab
Q ab
输出样例：

1
0
1

AC代码如下：

#include <bits/stdc++.h>
using namespace std;
const int N=100010;
int idx,son[N][26],cnt[N];
char str[N],c;
void myInsert(char *str)
{int p=0;for(int i=0;str[i];i++){int u=str[i]-'a';if(!son[p][u])son[p][u]=++idx;p=son[p][u];}cnt[p]++;
}
int query(char *str)
{int p=0;for(int i=0;str[i];i++){int u=str[i]-'a';if(!son[p][u])return 0;p=son[p][u];}return cnt[p];
}
int main()
{ios::sync_with_stdio(false);cin.tie(0);cout.tie(0);int n;cin>>n;while(n--){cin>>c>>str;if(c=='I'){myInsert(str);}if(c=='Q'){cout<<query(str)<<'\n';}}return 0;
}

ACWING143 最大异或对
在给定的 N 个整数 A1，A2……AN 中选出两个进行 xor（异或）运算，得到的结果最大是多少？

输入格式
第一行输入一个整数 N。

第二行输入 N 个整数 A1～AN。

输出格式
输出一个整数表示答案。

数据范围
1≤N≤105,
0≤Ai<231
输入样例：
3
1 2 3
输出样例：
3

思想：
这道题的目的是为了说明一件事情：Trie树不仅可以处理字符串，也可以处理二进制的数。而计算机中的数据类型都可以转化为二进制数，因此，Trie树理论上可以处理所有数据类型。

我们先来看看输入样例：
1：二进制是01
2：二进制是10
3：二进制是11
从直观上来看，三者异或，值最大的结果一定是11。
那么如何用Trie树来处理这个问题呢？
存储数据的方法和经典Trie树一样，这里不再赘述。值得一提的是，因为是二进制数，所以son数组的第二维空间只要有2就够了（0和1）；并且存储要从最高位开始存储，原因我们后面再说。

我们重点说一下查找函数。

在这道题中，我们的目的是找出最大异或对，这就要求1所在的位数要尽可能高，在此基础上1的个数要尽可能多（100也比011要好，因为前者虽然1的个数小于后者）

这就要求我们从最高位开始查找（如果最高位是1，肯定优先采纳），所以我们的存储和查找都要从最高位开始。

查找核心思想：
我们从根结点开始查找，如果发现有和该结点数值相反（0相反是1,1相反是0），那就代表二者最终异或结果一定是1；如果没有的话，那么该位运算的最终结果就是该结点的数值本身。

这样我们就清楚了基本的思想，具体代码如下：

#include <bits/stdc++.h>
using namespace std;
const int N = 100010, M = N * 31;
int son[M][2], idx;
void myInsert(int x)
{int p = 0, u;for(int i = 30; i >= 0; i--){u = x >> i & 1;if(!son[p][u])son[p][u] = ++idx;p = son[p][u];}
}
int query(int x)
{int p = 0, res = 0, u;for(int i = 30; i >= 0; i--){u = x >> i & 1;if(son[p][!u]){p = son[p][!u];res = res * 2 + 1;}else{p = son[p][u];res = res * 2;}}return res;
}
int main()
{ios::sync_with_stdio(false);cin.tie(0);cout.tie(0);int n, res = 0, num;cin >> n;while(n--){cin >> num;myInsert(num);res = max(res, query(num));}cout << res << '\n';return 0;
}