数据结构与算法:算法简介

雪柯

大工生物信息 提笔为写给奋进之人

已关注

你说呢

shenwei356

等 70 人赞同了该文章

引用自算法图解,作者[美] Aditya Bhargava 译袁国忠
特别备注:本书非原创,但部分内容自己会再进行解释,以便更容易理解,重点部分会加粗

1.1 引言

算法是一组完成任务的指令。任何代码片段都可视为算法,但本书只介绍比较有趣的部分。 本书介绍的算法要么速度快,要么能解决有趣的问题,要么兼而有之。下面是书中一些重要内容。

  • 第1章讨论二分查找,并演示算法如何能够提高代码的速度。在一个示例中,算法将需要 执行的步骤从40亿个减少到了32个!
  • GPS设备使用图算法来计算前往目的地的最短路径,这将在第6、7和8章介绍。
  • 你可使用动态规划来编写下国际跳棋的AI算法,这将在第9章讨论。 对于每种算法,本书都将首先进行描述并提供示例,再使用大O表示法讨论其运行时间,最 后探索它可以解决的其他问题。

1.1.1 性能方面

好消息是,本书介绍的每种算法都很可能有使用你喜欢的语言编写的实现,因此你无需自己动手编写每种算法的代码!但如果你不明白其优缺点,这些实现将毫无用处。在本书中,你将学习比较不同算法的优缺点:该使用合并排序算法还是快速排序算法,或者该使用数组还是链表。 仅仅改用不同的数据结构就可能让结果大不相同。

1.1.2 问题解决技巧

你将学习至今都没有掌握的问题解决技巧,例如:

  • 如果你喜欢开发电子游戏,可使用图算法编写跟踪用户的AI系统;
  • 你将学习使用K最近邻算法编写推荐系统;
  • 有些问题在有限的时间内是不可解的!书中讨论NP完全问题的部分将告诉你,如何识别这样的问题以及如何设计找到近似答案的算法。

总而言之,读完本书后,你将熟悉一些使用最为广泛的算法。利用这些新学到的知识,你可 学习更具体的AI算法、数据库算法等,还可在工作中迎接更严峻的挑战。

图片引自算法图解

注解:通读全书后,本书对于数理知识的要求并不高

1.2 二分查找

假设要在电话簿中找一个名字以K打头的人,(现在谁还用电话簿!) 可以从头开始翻页,直到进入以K打头的部分。但你很可能不这样做,而 是从中间开始,因为你知道以K打头的名字在电话簿中间。 又假设要在字典中找一个以O打头的单词,你也将从中间附近开始。

现在假设你登录Facebook。当你这样做时,Facebook必须核实你是 否有其网站的账户,因此必须在其数据库中查找你的用户名。如果你的 用户名为karlmageddon,Facebook可从以A打头的部分开始查找,但更合 乎逻辑的做法是从中间开始查找。

这是一个查找问题,在前述所有情况下,都可使用同一种算法来解 决问题,这种算法就是二分查找

图片引自算法图解

图片引自算法图解

二分查找是一种算法,其输入是一个有序的元素列表(必须有序的原因稍后解释)。如果要 查找的元素包含在列表中,二分查找返回其位置;否则返回null。 下图是一个例子。

图片引自算法图解

下面的示例说明了二分查找的工作原理。我随便想一个1~100的数字。

图片引自算法图解

你的目标是以最少的次数猜到这个数字。你每次猜测后,我会说小了、大了或对了。 假设你从1开始依次往上猜,猜测过程会是这样。

图片引自算法图解

这是简单查找,更准确的说法是傻找。每次猜测都只能排除一个数字。如果我想的数字是99, 你得猜99次才能猜到!

1.2.1 更佳的查找方式

下面是一种更佳的猜法。从50开始

图片引自算法图解

小了,但排除了一半的数字!至此,你知道1~50都小了。接下来,你猜75。

大了,那余下的数字又排除了一半!使用二分查找时,你猜测的是中间的数字,从而每次都 将余下的数字排除一半。接下来,你猜63(50和75中间的数字)。

这就是二分查找,你学习了第一种算法!每次猜测排除的数字个数如下。

图片引自算法图解

不管我心里想的是哪个数字,你在7次之内都能猜到,因为每次猜测都将排除很多数字! 假设你要在字典中查找一个单词,而该字典包含240000个单词, 你认为每种查找最多需要多少步? 如果要查找的单词位于字典末尾,使用简单查找将需要240000步。使用二分查找时,每次 排除一半单词,直到最后只剩下一个单词。

因此,使用二分查找只需18步——少多了!一般而言,对于包含n个元素的列表,用二分查 找最多需要log2n步,而简单查找最多需要n步。

图片引自算法图解

图片引自算法图解

图片引自算法图解

下面来看看如何编写执行二分查找的Python代码。这里的代码示例使用了数组。如果你不熟悉数组,也不用担心,下一章就会介绍。你只需知道,可将一系列元素存储在一系列相邻的桶(bucket),即数组中。这些桶从0开始编号:第一个桶的位置为#0,第二个桶为#1,第三个桶为#2, 以此类推。

函数binary_search接受一个有序数组和一个元素。如果指定的元素包含在数组中,这个 函数将返回其位置。你将跟踪要在其中查找的数组部分——开始时为整个数组。

图片引自算法图解

如果猜的数字大了,就修改high。完整的代码如下。

##python 3.6.3
##二分法
def binary_search(list, item): #一个有序数组和一个元素low = 0   #最低的索引high=len(list)-1while low <= high:     ##定义了一个范围,当范围小到中间没有元素的时候,就停止mid = int((low + high)/2)guess = list[mid]if guess == item: return[mid]  #类似于printif guess > item:high = mid - 1else: low = mid + 1   return[None]
my_list = [1, 3, 5, 7, 9] ##打算寻找3这个元素print(binary_search(my_list, 3))  #输出索引的位置
print(binary_search(my_list, 7))

注:代码部分有不理解的可以评论区回复

1.2.2 运行时间

每次介绍算法时,我都将讨论其运行时间。一般而言,应选择效率最高的算 法,以最大限度地减少运行时间或占用空间。

回到前面的二分查找。使用它可节省多少时间呢?简单查找逐个地检查数 字,如果列表包含100个数字,最多需要猜100次。如果列表包含40亿个数字,最 多需要猜40亿次。换言之,最多需要猜测的次数与列表长度相同,这被称为线性 时间(linear time)。 二分查找则不同。如果列表包含100个元素,最多要猜7次;如果列表包含40亿个数字,最多需猜32次。厉害吧?二分查找的运行时间为对数时间(或log时间)。下表总结了我们发现的情况。

图片引自算法图解

1.3 大O表示法

大O表示法是一种特殊的表示法,指出了算法的速度有多快。谁在乎呢?实际上,你经常要 使用别人编写的算法,在这种情况下,知道这些算法的速度大有裨益。本节将介绍大O表示法是 什么,并使用它列出一些最常见的算法运行时间。

1.3.1 算法的运行时间以不同的速度增加

Bob要为NASA编写一个查找算法,这个算法在火箭即将登陆月球前开始执行,帮助计算着陆地点。

这个示例表明,两种算法的运行时间呈现不同的增速。Bob需要做 出决定,是使用简单查找还是二分查找。使用的算法必须快速而准确。 一方面,二分查找的速度更快。Bob必须在10秒钟内找出着陆地点,否 则火箭将偏离方向。另一方面,简单查找算法编写起来更容易,因此出 现bug的可能性更小。Bob可不希望引导火箭着陆的代码中有bug!为确保万无一失,Bob决定计算两种算法在列表包含100个元素的情况下需要的时间。

假设检查一个元素需要1毫秒。使用简单查找时,Bob必须检查100个元素,因此需要100毫秒 才能查找完毕。而使用二分查找时,只需检查7个元素(log2100大约为7),因此需要7毫秒就能查 找完毕。然而,实际要查找的列表可能包含10亿个元素,在这种情况下,简单查找需要多长时间 呢?二分查找又需要多长时间呢?请务必找出这两个问题的答案,再接着往下读。

Bob使用包含10亿个元素的列表运行二分查找,运行时间为30毫秒(log21 000 000 000大约为 30)。他心里想,二分查找的速度大约为简单查找的15倍,因为列表包含100个元素时,简单查找 需要100毫秒,而二分查找需要7毫秒。因此,列表包含10亿个元素时,简单查找需要30 × 15 = 450 毫秒,完全符合在10秒内查找完毕的要求。Bob决定使用简单查找。这是正确的选择吗?

不是。实际上,Bob错了,而且错得离谱。列表包含10亿个元素时,简单查找需要10亿毫秒, 相当于11天!为什么会这样呢?因为二分查找和简单查找的运行时间的增速不同。

图片引自算法图解

也就是说,随着元素数量的增加,二分查找需要的额外时间并不多, 而简单查找需要的额外时间却很多。因此,随着列表的增长,二分查找 的速度比简单查找快得多。Bob以为二分查找速度为简单查找的15倍, 这不对:列表包含10亿个元素时,为3300万倍。有鉴于此,仅知道算法 需要多长时间才能运行完毕还不够,还需知道运行时间如何随列表增长 而增加。这正是大O表示法的用武之地。

大O表示法指出了算法有多快。例如,假设列表包含n个元素。简 单查找需要检查每个元素,因此需要执行n次操作。使用大O表示法, 这个运行时间为O(n)。单位秒呢?没有——大O表示法指的并非以秒为单位的速度。大O表示法让你能够比较操作数,它指出了算法运行时间的增速。

注:大O表示法代表的是算法的增速,记住二分法是O(logn),后面会经常用到

再来看一个例子。为检查长度为n的列表,二分查找需要执行log n次操作。使用大O表示法, 这个运行时间怎么表示呢?O(logn)。一般而言,大O表示法像下面这样。

图片引自算法图解

这指出了算法需要执行的操作数。之所以称为大O表示法,是因为操作数前有个大O。这听 起来像笑话,但事实如此!

下面来看一些例子,看看你能否确定这些算法的运行时间。

1.3.2 理解不同的大O运行时间

下面的示例,你在家里使用纸和笔就能完成。假设你要画一个网格,它包含16个格子。

图片引自算法图解

注:先思考一下,再看下面的答案 思考下:简单查找和二分查找可不可以,简单查找是一个一个画,二分呢?想没想起来小时候我们折纸,是不是很快能够获得更多的方块

图片引自算法图解

画16个格子需要16步。这种算法的运行时间是多少?

注:运行时间O(n)=16

图片引自算法图解

你每折一次,绘制出的格子数都翻倍,因此4步就能“绘制”出16个格子。这种算法的运行 时间是多少呢?请搞清楚这两种算法的运行时间之后,再接着往下读。

答案如下:算法1的运行时间为O(n),算法2的运行时间为O(log n)。

1.3.3 大O表示法指出了最糟情况下的运行时间

假设你使用简单查找在电话簿中找人。你知道,简单查找的运行时间为O(n),这意味着在最 糟情况下,必须查看电话簿中的每个条目。如果要查找的是Adit——电话簿中的第一个人,一次就能找到,无需查看每个条目。考虑到一次就找到了Adit,请问这种算法的运行时间是O(n)还是 O(1)呢? 简单查找的运行时间总是为O(n)。查找Adit时,一次就找到了,这是最佳的情形,但大O表 示法说的是最糟的情形。因此,你可以说,在最糟情况下,必须查看电话簿中的每个条目,对应的运行时间为O(n)。这是一个保证——你知道简单查找的运行时间不可能超过O(n)。

注:这个概念很重要,最糟糕的情况和平均情况,后面会有平均情况的讲解

1.3.4 一些常见的大 O运行时间

下面按从快到慢的顺序列出了你经常会遇到的5种大O运行时间。

  1. O(log n),也叫对数时间,这样的算法包括二分查找。
  2. O(n),也叫线性时间,这样的算法包括简单查找。
  3. O(n * log n),这样的算法包括第4章将介绍的快速排序——一种速度较快的排序算法。
  4. O(n^2),这样的算法包括第2章将介绍的选择排序——一种速度较慢的排序算法。
  5. O(n!),这样的算法包括接下来将介绍的旅行商问题的解决方案——一种非常慢的算法。

假设你要绘制一个包含16格的网格,且有5种不同的算法可供选择,这些算法的运行时间如 上所示。如果你选择第一种算法,绘制该网格所需的操作数将为4(log 16 = 4)。假设你每秒可执行10次操作,那么绘制该网格需要0.4秒。如果要绘制一个包含1024格的网格呢?这需要执行10 (log 1024 = 10)次操作,换言之,绘制这样的网格需要1秒。这是使用第一种算法的情况。

第二种算法更慢,其运行时间为O(n)。即要绘制16个格子,需要执行16次操作;要绘制1024 个格子,需要执行1024次操作。执行这些操作需要多少秒呢?

图片引自算法图解

还有其他的运行时间,但这5种是最常见的。这里做了简化,实际上,并不能如此干净利索地将大O运行时间转换为操作数,但就目前而言,这种准确度足够了。等你学习其他一些算法后,第4章将回过头来再次讨论大O表示法。当前,我们获得的主要启示如下。

  • 算法的速度指的并非时间,而是操作数的增速。
  • 谈论算法的速度时,我们说的是随着输入的增加,其运行时间将以什么样的速度增加。
  • 算法的运行时间用大O表示法表示。
  • O(logn)比O(n)快,当需要搜索的元素越多时,前者比后者快得越多。

1.3.5 旅行商

阅读前一节时,你可能认为根本就没有运行时间为O(n!)的算法。让我来证明你错了!下面就是一个运行时间极长的算法。这个算法要解决的是计算机科学领域非常著名的旅行商问题,其 计算时间增加得非常快,而有些非常聪明的人都认为没有改进空间。

图片引自算法图解

图片引自算法图解

对于每种顺序,他都计算总旅程,再挑选出旅程最短的路线。5个城市有120种不同的排列方 式。因此,在涉及5个城市时,解决这个问题需要执行120次操作。涉及6个城市时,需要执行720 次操作(有720种不同的排列方式)。涉及7个城市时,需要执行5040次操作!

图片引自算法图解

推而广之,涉及n个城市时,需要执行n!(n的阶乘)次操作才能计算出结果。因此运行时间 为O(n!),即阶乘时间。除非涉及的城市数很少,否则需要执行非常多的操作。如果涉及的城市 数超过100,根本就不能在合理的时间内计算出结果——等你计算出结果,太阳都没了。 这种算法很糟糕!Opus应使用别的算法,可他别无选择。这是计算机科学领域待解的问题之 一。对于这个问题,目前还没有找到更快的算法,有些很聪明的人认为这个问题根本就没有更巧妙的算法。面对这个问题,我们能做的只是去找出近似答案,更详细的信息请参阅第10章。

最后需要指出的一点是,高水平的读者可研究一下二叉树,这在最后一章做了简要的介绍。

注:旅行商问题实际是一个NP完全问题,这个后面还会讲

1.4 小结

  • 二分查找的速度比简单查找快得多。
  • O(log n)比O(n)快。需要搜索的元素越多,前者比后者就快得越多。
  • 算法运行时间并不以秒为单位。
  • 算法运行时间是从其增速的角度度量的。
  • 算法运行时间用大O表示法表示。

问题思考时间?

1、假设有一个包含258个名字的有序列表,你要使用二分查找在其中查找一个名字,请问最多需要几步才能找到? (最多=最糟糕)

2、在电话簿中根据电话号码找人(使用大O表示法给出运行时间。)

关于数组、链表和选择排序的预告:

数组和链表:两种数据结构,区别在于数组查找方便(精髓:数组有索引),链表插入和删除方便(精髓:链表每一个元素会包含下一个元素的地址

选择排序:8个人按照身高从高到底排队,如果是选择排序的话,第一次从8个人中找最高的,第二次从7个人找最高,以此类推。操作是8+7+6+……+1,如果推广到n,就是n*(n+1)/2。在大O表示法中会忽略常数,所以运行时间为O(n^2),因为这个常数的问题,后面你可能会有疑惑,有些用大O表示法运行时间一致的算法,但是确有大小之分。记住这个常数问题!

数据结构与算法:算法简介相关推荐

  1. DL之YoloV2:Yolo V2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

    DL之YoloV2:Yolo V2算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 目录 Yolo V2算法的简介(论文介绍) 1.YOLOV2的特点.改进.优缺点 2.实验结果 3.不 ...

  2. DS之MDS:MDS(Multidimensional Scaling)多维尺度降维算法的简介、使用方法、案例应用之详细攻略

    DS之MDS:MDS(Multidimensional Scaling)多维尺度降维算法的简介.使用方法.案例应用之详细攻略 目录 MDS的简介 MDS(Multidimensional Scalin ...

  3. 【从蛋壳到满天飞】JS 数据结构解析和算法实现-AVL树(一)

    前言 [从蛋壳到满天飞]JS 数据结构解析和算法实现,全部文章大概的内容如下: Arrays(数组).Stacks(栈).Queues(队列).LinkedList(链表).Recursion(递归思 ...

  4. 时间序列挖掘-DTW加速算法FastDTW简介

    本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处. 关于DTW算法的简介请见我的上一篇博客:时间序列挖掘 ...

  5. python数据结构推荐书-「算法与数据结构」从入门到进阶吐血整理推荐书单

    推荐一下「算法与数据结构」从入门到进阶的书单. 一.入门系列 这些书籍通过图片.打比方等通俗易懂的方法来讲述,让你能达到懂一些基础算法,线性表,堆栈,队列,树,图,DP算法,背包问题等,不要求会实现, ...

  6. 【从蛋壳到满天飞】JS 数据结构解析和算法实现-哈希表

    前言 [从蛋壳到满天飞]JS 数据结构解析和算法实现,全部文章大概的内容如下: Arrays(数组).Stacks(栈).Queues(队列).LinkedList(链表).Recursion(递归思 ...

  7. CV之FD之HOG:图像检测之基于HOG算法、简介、代码实现(计算图像相似度)之详细攻略

    CV之FD之HOG:图像检测之基于HOG算法.简介.代码实现(计算图像相似度)之详细攻略 图像检测之基于HOG算法.简介.代码实现(计算图像相似度)之详细攻略 相关文章:CV之FD之HOG:图像检测之 ...

  8. DL之DilatedConvolutions:Dilated Convolutions(膨胀卷积/扩张卷积)算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

    DL之DilatedConvolutions:Dilated Convolutions(膨胀卷积/扩张卷积)算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 目录 Dilated Con ...

  9. DL之ShuffleNetV2:ShuffleNetV2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

    DL之ShuffleNetV2:ShuffleNetV2算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 目录 ShuffleNetV2算法的简介(论文介绍) 1.论文特点 2.基于硬件 ...

  10. DL之ShuffleNet:ShuffleNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

    DL之ShuffleNet:ShuffleNet算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 相关文章 DL之ShuffleNet:ShuffleNet算法的简介(论文介绍).架构详 ...

最新文章

  1. android debug database 源码解析
  2. hdu 1879 继续通畅工程(最小生成树)
  3. swagger2maven依赖_Maven + SpringMVC项目集成Swagger
  4. openoffice使用总结001---版本匹配问题unknown document format for file: E:\apache-tomcat-8.5.23\webapps\ZcnsDms\
  5. gin 打linux环境包问题解决
  6. lintcode 订单
  7. 【LeetCode】Day3-Excel表列名称
  8. NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度
  9. 计算机第一次月考试题,计算机基础第一次月考试题.doc
  10. 基于机器学习的DDos攻击检测
  11. 详细介绍MVC与Django的MVT模式
  12. 西安c语言培训班培训,零基础学c语言难吗 西安C语言培训班传授学习技巧
  13. Django基于admin的stark组件创建(一)
  14. 【Jquery选择器】
  15. android 百度 全景图,百度地图全景图
  16. iphone13是双卡双待吗?
  17. 华为堪称最大黑洞!清华大学/北京大学的学生,毕业后都去哪了?
  18. Appium+Eclipse+夜神模拟器 实现QQ打电话功能
  19. LaTeX学习日记(持续更新)
  20. 机器学习算法——线性回归的详细介绍 及 利用sklearn包实现线性回归模型

热门文章

  1. 2022年人才引进,哪些高校待遇高?
  2. 上帝视角任意切换:三维重建和图像渲染是怎么结合的?
  3. 双目图像超分辨:现状、挑战与展望
  4. 重置管理员密码linux,grafana重置管理员密码
  5. 3D相机D2C对齐的方法
  6. 机器学习入门书籍、课程推荐
  7. 数据可视化 | Seaborn
  8. php接口 汉字出错 空,php接口开发时,数据解析失败问题,字符转义,编码问题(示例代码)...
  9. 在线作图|2分钟绘制一张环状热图
  10. R语言与数据分析(12)向量