数据结构笔记第六章查找技术

查找技术

在计算机科学中定义为:在一些(有序的/无序的)数据元素中，通过一定的方法找出与给定关键字相同的数据元素的过程叫做查找。也就是根据给定的某个值，在查找表中确定一个关键字等于给定值的记录或数据元素。
线性表的查找技术
顺序查找
顺序查找是按照序列原有顺序对数组进行遍历比较查询的基本查找算法。
基本原理:
对于任意一个序列以及一个给定的元素，将给定元素与序列中元素依次比较，直到找出与给定关键字相同的元素，或者将序列中的元素与其都比较完为止。

#include<stdio.h>
int Sequence_search(int *a,int n, int key);int main()
{int a[10];int i = 1;int key = 0;int n = 0;int return_number;printf("Please Enter how many you want to input numbers！\n");scanf("%d", &n);printf("Please Enter %d numbers!\n", n);for(; i <= n; i++){scanf("%d", &a[i]);}printf("Please Input the search number!\n");scanf("%d", &key);return_number = Sequence_search(a, n, key);if(return_number != 0){printf("查找成功!\n");printf("查找的数的位序是%d\n", return_number);}else{printf("查找失败,未找到该数!\n");}}int Sequence_search(int *a, int n, int key)
{a[0] = key;int i = n;for(; i >= 0; i--){if(a[i] == key){return i;}}return 0;}***折半查找***
二分查找又称折半查找，优点是比较次数少，查找速度快，平均性能好，占用系统内存较少;其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功;否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步查找前一子表，否则进一步查找后一子表。重复以上过程，直到找到满足条件的记录，使查找成功，或直到子表不存在为止，此时查找不成功。``

void binarySearch(int *arr,int length,int key) {

//数组左端
int left = 0;
//数组右端
int right = length - 1;
//中间
int mid;//在左右指针交换之前，查找还没结束
while (left <= right) {//更新中间的值mid = (left + right) / 2;//查找成功if (arr[mid] == key) {cout << "find it and its index is " << mid;return;}//若还没有找到，改变左右区间继续寻找if (arr[mid] < key)left = mid + 1;if (arr[mid] > key)right = mid - 1;}cout << "cannot find it" << endl;
return;

}

***树表的查找技术
二叉排序树***
二叉排序树（Binary Sort Tree）或者是一棵空树；或者是具有下列性质的二叉树： （1）若左子树不空，则左子树上所有结点的值均小于它的根结点的值； （2）若右子树不空，则右子树上所有结点的值均大于它的根结点的值； （3）左、右子树也分别为二叉排序树；
若根结点的关键字值等于查找的关键字，成功。否则，若小于根结点的关键字值，递归查左子树。若大于根结点的关键字值，递归查右子树。若子树为空，查找不成功。插入算法：首先执行查找算法，找出被插结点的父亲结点。判断被插结点是其父亲结点的左、右儿子。将被插结点作为叶子结点插入。若二叉树为空。则首先单独生成根结点。注意：新插入的结点总是叶子结点。void InsertBST(t，key)//在二叉排序树中插入查找关键字key{if(t==NULL){t=new BiTree;t->lchild=t->rchild=NULL;t->data=key;return; }if(keydata ) InsertBST(t->lchild,key);else InsertBST (t->rchild, key );}void CreateBiTree(tree,d【 】,n）//n个数据在数组d中，tree为二叉排序树根{tree=NULL;for(i=0;i InsertBST(tree,d);}
***平衡二叉树***
平衡二叉搜索树(Self-balancing binary search tree)又被称为AVL树(有别于AVL算法)，且具有以下性质:它是一 棵空树或它的左右两个子树的高度差的绝对值不超过1，并且左右两个子树都是一棵平衡二叉树。平衡二叉树的常用实现方法有红黑树、AVL、替罪羊树、Treap、伸展树等。 最小二叉平衡树的节点总数的公式如下 F(n)=F(n-1)+F(n-2)+1 这个类似于一个递归的数列，可以参考Fibonacci(斐波那契)数列，1是根节点，F(n-1)是左子树的节点数量，F(n-2)是右子树的节点数量。
***红黑树***
红黑树是一种自平衡二叉查找树，是在计算机科学中用到的一种数据结构，典型的用途是实现关联数组。它是在1972年由Rudolf Bayer发明的，他称之为"对称二叉B树"，它现代的名字是在 Leo J. Guibas 和 Robert Sedgewick 于1978年写的一篇论文中获得的。它是复杂的，但它的操作有着良好的最坏情况运行时间，并且在实践中是高效的: 它可以在O(log n)时间内做查找，插入和删除，这里的n是树中元素的数目。***AVL***
AVL是最先发明的自平衡二叉查找树算法。在AVL中任何节点的两个儿子子树的高度最大差别为一，所以它也被称为高度平衡树，n个结点的AVL树最大深度约1.44log2n。查找、插入和删除在平均和最坏情况下都是O(log n)。增加和删除可能需要通过一次或多次树旋转来重新平衡这个树。***Treap***
Treap是一棵二叉排序树，它的左子树和右子树分别是一个Treap，和一般的二叉排序树不同的是，Treap纪录一个额外的数据，就是优先级。Treap在以关键码构成二叉排序树的同时，还满足堆的性质(在这里我们假设节点的优先级大于该节点的孩子的优先级)。但是这里要注意的是Treap和二叉堆有一点不同，就是二叉堆必须是完全二叉树，而Treap并不一定是。***伸展树***
伸展树(Splay Tree)是一种二叉排序树，它能在O(log n)内完成插入、查找和删除操作。它由Daniel Sleator和Robert Tarjan创造。它的优势在于不需要记录用于平衡树的冗余信息。在伸展树上的一般操作都基于伸展操作。***SBT***
Size Balanced Tree(简称SBT)是一自平衡二叉查找树，是在计算机科学中用到的一种数据结构。它是由中国广东中山纪念中学的陈启峰发明的。陈启峰于2006年底完成论文《Size Balanced Tree》，并在2007年的全国青少年信息学奥林匹克竞赛冬令营中发表。由于SBT的拼写很容易找到中文谐音，它常被中国的信息学竞赛选手和ACM/ICPC选手们戏称为"傻B树"、"Super BT"等。相比红黑树、AVL树等自平衡二叉查找树，SBT更易于实现。据陈启峰在论文中称，SBT是"目前为止速度最快的高级二叉搜索树"。SBT能在O(log n)的时间内完成所有二叉搜索树(BST)的相关操作，而与普通二叉搜索树相比，SBT仅仅加入了简洁的核心操作Maintain。由于SBT赖以保持平衡的是size域而不是其他"无用"的域，它可以很方便地实现动态顺序统计中的select和rank操作。
***散列表***
散列表(Hash table，也叫哈希表)，是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。给定表M，存在函数f(key)，对任意给定的关键字值key，代入函数后若能得到包含该关键字的记录在表中的地址，则称表M为哈希(Hash)表，函数f(key)为哈希(Hash) 函数。
***基本概念***
若关键字为k，则其值存放在f(k)的存储位置上。由此，不需比较便可直接取得所查记录。称这个对应关系f为散列函数，按这个思想建立的表为散列表。
对不同的关键字可能得到同一散列地址，即k1≠k2，而f(k1)=f(k2)，这种现象称为碰撞(英语:Collision)。具有相同函数值的关键字对该散列函数来说称做同义词。综上所述，根据散列函数f(k)和处理碰撞的方法将一组关键字映射到一个有限的连续的地址集(区间)上，并以关键字在地址集中的"像"作为记录在表中的存储位置，这种表便称为散列表，这一映射过程称为散列造表或散列，所得的存储位置称散列地址。
若对于关键字集合中的任一个关键字，经散列函数映象到地址集合中任何一个地址的概率是相等的，则称此类散列函数为均匀散列函数(Uniform Hash function)，这就是使关键字经过散列函数得到一个"随机的地址"，从而减少碰撞。1. 直接寻址法:取关键字或关键字的某个线性函数值为散列地址。即H(key)=key或H(key) = a·key + b，其中a和b为常数(这种散列函数叫做自身函数)。若其中H(key)中已经有值了，就往下一个找，直到H(key)中没有值了，就放进去。2. 数字分析法:分析一组数据，比如一组员工的出生年月日，这时我们发现出生年月日的前几位数字大体相同，这样的话，出现冲突的几率就会很大，但是我们发现年月日的后几位表示月份和具体日期的数字差别很大，如果用后面的数字来构成散列地址，则冲突的几率会明显降低。因此数字分析法就是找出数字的规律，尽可能利用这些数据来构造冲突几率较低的散列地址。3. 平方取中法:当无法确定关键字中哪几位分布较均匀时，可以先求出关键字的平方值，然后按需要取平方值的中间几位作为哈希地址。这是因为:平方后中间几位和关键字中每一位都相关，故不同关键字会以较高的概率产生不同的哈希地址。4. 折叠法:将关键字分割成位数相同的几部分，最后一部分位数可以不同，然后取这几部分的叠加和(去除进位)作为散列地址。数位叠加可以有移位叠加和间界叠加两种方法。移位叠加是将分割后的每一部分的最低位对齐，然后相加;间界叠加是从一端向另一端沿分割界来回折叠，然后对齐相加。4. 随机数法:选择一随机函数，取关键字的随机值作为散列地址，通常用于关键字长度不同的场合。5. 除留余数法:取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即 H(key) = key MOD p,p<=m。不仅可以对关键字直接取模，也可在折叠、平方取中等运算之后取模。对p的选择很重要，一般取素数或m，若p选的不好，容易产生同义词。
查找性能
散列表的查找过程基本上和造表过程相同。一些关键码可通过散列函数转换的地址直接找到，另一些关键码在散列函数得到的地址上产生了冲突，需要按处理冲突的方法进行查找。在介绍的三种处理冲突的方法中，产生冲突后的查找仍然是给定值与关键码进行比较的过程。所以，对散列表查找效率的量度，依然用平均查找长度来衡量。查找过程中，关键码的比较次数，取决于产生冲突的多少，产生的冲突少，查找效率就高，产生的冲突多，查找效率就低。因此，影响产生冲突多少的因素，也就是影响查找效率的因素。影响产生冲突多少有以下三个因素:1. 散列函数是否均匀;2. 处理冲突的方法;3. 散列表的装填因子。散列表的装填因子定义为:α= 填入表中的元素个数 / 散列表的长度α是散列表装满程度的标志因子。由于表长是定值，α与"填入表中的元素个数"成正比，所以，α越大，填入表中的元素较多，产生冲突的可能性就越大;α越小，填入表中的元素较少，产生冲突的可能性就越小。实际上，散列表的平均查找长度是装填因子α的函数，只是不同处理冲突的方法有不同的函数。了解了hash基本定义，就不能不提到一些著名的hash算法，MD5 和 SHA-1 可以说是目前应用最广泛的Hash算法，而它们都是以 MD4 为基础设计的。那么他们都是什么意思呢?这里简单说一下:⑴ MD4MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年设计的，MD 是 Message Digest 的缩写。它适用在32位字长的处理器上用高速软件实现--它是基于 32 位操作数的位操作来实现的。⑵ MD5MD5(RFC 1321)是 Rivest 于1991年对MD4的改进版本。它对输入仍以512位分组，其输出是4个32位字的级联，与 MD4 相同。MD5比MD4来得复杂，并且速度较之要慢一点，但更安全，在抗分析和抗差分方面表现更好⑶ SHA-1 及其他SHA1是由NIST NSA设计为同DSA一起使用的，它对长度小于264的输入，产生长度为160bit的散列值，因此抗穷举(brute-force)性更好。SHA-1 设计时基于和MD4相同原理，并且模仿了该算法。那么这些Hash算法到底有什么用呢?Hash算法在信息安全方面的应用主要体现在以下的3个方面:⑴ 文件校验我们比较熟悉的校验算法有奇偶校验和CRC校验，这2种校验并没有抗数据篡改的能力，它们一定程度上能检测出数据传输中的信道误码，但却不能防止对数据的恶意破坏。MD5 Hash算法的"数字指纹"特性，使它成为目前应用最广泛的一种文件完整性校验和(Checksum)算法，不少Unix系统有提供计算md5 checksum的命令。⑵ 数字签名Hash 算法也是现代密码体系中的一个重要组成部分。由于非对称算法的运算速度较慢，所以在数字签名协议中，单向散列函数扮演了一个重要的角色。对 Hash 值，又称"数字摘要"进行数字签名，在统计上可以认为与对文件本身进行数字签名是等效的。而且这样的协议还有其他的优点。⑶ 鉴权协议如下的鉴权协议又被称作挑战--认证模式:在传输信道是可被侦听，但不可被篡改的情况下，这是一种简单而安全的方法。MD5、SHA1的破解2004年8月17日，在美国加州圣芭芭拉召开的国际密码大会上，山东大学王小云教授在国际会议上首次宣布了她及她的研究小组的研究成果--对MD5、HAVAL-128、MD4和RIPEMD等四个著名密码算法的破译结果。2005年2月宣布破解SHA-1密码。

数据结构笔记第六章查找技术相关推荐

【算法基础】数据结构导论第六章-查找.pptx
上课的课件分享,适合教学用. 文末提供下载已发布: 数据结构导论第一章-绪论数据结构导论第二章-线性表数据结构导论第三章-栈.队列和数组数据结构导论第四章-树数据结构导论第五章-图本文参考 ...
数据结构笔记——第七章查找
目录 7 查找 7.1 查找的基本概念 7.2 顺序查找和折半查找 7.2.1 顺序查找 7.2.2 折半查找 7.2.3 分块查找 7.3 B树和B+树 7.3.1 B树 7.3.2 B树的插入删除 ...
天勤数据结构笔记——第六章树与二叉树（代码）
二叉树的链式存储结构 typedef struct BTNode{char data;struct BTNode *lchild;struct BTNode *rchild; }BTNode; 先序遍 ...
天勤数据结构笔记——第六章树与二叉树（大题）
1.基础题 (1)略 (2)采用层次遍历,visit(q); 改为 count++; void level(BTNode *p,int &count){count=0;int front=re ...
2022天勤考研数据结构笔记第2章线性表
2022天勤考研数据结构笔记第2章线性表(更新中) 第2章线性表 2.1 结构体定义 2.2 顺序表 2.3 单链表 2.4 双链表 2.5 循环链表 2.6 逆置问题(408重要考点) 第2章 ...
深入理解 C 指针阅读笔记 -- 第六章
Chapter6.h #ifndef __CHAPTER_6_ #define __CHAPTER_6_/*<深入理解C指针>学习笔记 -- 第六章*/typedef struct __p ...
Unix原理与应用学习笔记----第六章文件的基本属性2
Unix原理与应用学习笔记----第六章文件的基本属性2 改变文件权限命令:chmod 提示:文件或目录创建后,就被赋予一组默认的权限.所有的用户都有读,只有文件的所有者才有写. 相对权限设置 Ch ...
《Go语言圣经》学习笔记第六章方法
<Go语言圣经>学习笔记第六章方法目录方法声明基于指针对象的方法通过嵌入结构体来扩展类型方法值和方法表达式示例:Bit数组封装注:学习<Go语言圣经>笔记, ...
《疯狂Java讲义》学习笔记第六章面向对象（下）
<疯狂Java讲义>学习笔记第六章面向对象(下) 6.1包装类基本数据类型包装类 byte Byte short Short int Integer long Long char ...

数据结构笔记第六章查找技术

查找技术

数据结构笔记第六章查找技术相关推荐

最新文章

热门文章

数据结构笔记 第六章 查找技术

查找技术

数据结构笔记 第六章 查找技术相关推荐

最新文章

热门文章

数据结构笔记第六章查找技术

数据结构笔记第六章查找技术相关推荐