学大数据要学哪些算法_大数据学习之不得不知的八大算法

算法一：快速排序法

快速排序是由东尼 · 霍尔所发展的一种排序算法。在平均状况下，排序 n 个项目要Ο(n log n) 次比较。在最坏状况下则需要Ο(n2) 次比较，但这种状况并不常见。

事实上，快速排序通常明显比其他Ο(n log n) 算法更快，因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来。快速排序使用分治法(Divide and conquer)策略来把一个串行(list)分为两个子串行(sub-lists)。

算法步骤

从数列中挑出一个元素，称为 “基准”(pivot)，

重新排序数列，所有元素比基准值小的摆放在基准前面，所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后，该基准就处于数列的中间位置。这个称为分区(partition)操作。

递归地(recursive)把小于基准值元素的子数列和大于基准值元素的子数列排序。

递归的最底部情形，是数列的大小是零或一，也就是永远都已经被排序好了。虽然一直递归下去，但是这个算法总会退出，因为在每次的迭代(iteration)中，它至少会把一个元素摆到它最后的位置去。

算法二：堆排序算法

堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构，并同时满足堆积的性质：即子结点的键值或索引总是小于(或者大于)它的父节点。堆排序的平均时间复杂度为Ο(nlogn) 。

算法步骤

创建一个堆 H[0..n-1]

把堆首(最大值)和堆尾互换

把堆的尺寸缩小 1，并调用 shift_down(0), 目的是把新的数组顶端数据调整到相应位置

重复步骤 2，直到堆的尺寸为 1

算法三：归并排序

归并排序(Merge sort，台湾译作：合并排序)是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。

算法步骤

申请空间，使其大小为两个已经排序序列之和，该空间用来存放合并后的序列

设定两个指针，最初位置分别为两个已经排序序列的起始位置

比较两个指针所指向的元素，选择相对小的元素放入到合并空间，并移动指针到下一位置

重复步骤 3 直到某一指针达到序列尾

将另一序列剩下的所有元素直接复制到合并序列尾

算法四：二分查找算法

二分查找算法是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始，如果中间元素正好是要查找的元素，则搜素过程结束。

如果某一特定元素大于或者小于中间元素，则在数组大于或小于中间元素的那一半中查找，而且跟开始一样从中间元素开始比较。如果在某一步骤数组为空，则代表找不到。这种搜索算法每一次比较都使搜索范围缩小一半。折半搜索每次把搜索区域减少一半，时间复杂度为Ο(logn)

算法五：BFPRT(线性排查)

BFPRT 算法解决的问题十分经典，即从某 n 个元素的序列中选出第 k 大(第 k 小)的元素，通过巧妙的分析，BFPRT 可以保证在最坏情况下仍为线性时间复杂度。该算法的思想与快速排序思想相似，当然，为使得算法在最坏情况下，依然能达到 o(n) 的时间复杂度，五位算法作者做了精妙的处理。

算法步骤

将 n 个元素每 5 个一组，分成 n/5(上界) 组。

取出每一组的中位数，任意排序方法，比如插入排序。

递归的调用 selection 算法查找上一步中所有中位数的中位数，设为 x，偶数个中位数的情况下设定为选取中间小的一个。

用 x 来分割数组，设小于等于 x 的个数为 k，大于 x 的个数即为 n-k。

若 i==k，返回 x；若 ik，在大于 x 的元素中递归查找第 i-k 小的元素。终止条件：n=1 时，返回的即是 i 小元素。

算法六：DFS(深度优先搜索)

深度优先搜索算法(Depth-First-Search)，是搜索算法的一种。它沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点 v 的所有边都己被探寻过，搜索将回溯到发现节点 v 的那条边的起始节点。

这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。DFS 属于盲目搜索。

深度优先搜索是图论中的经典算法，利用深度优先搜索算法可以产生目标图的相应拓扑排序表，利用拓扑排序表可以方便的解决很多相关的图论问题，如最大路径问题等等。一般用堆数据结构来辅助实现 DFS 算法。

算法步骤：

访问顶点 v；

依次从 v 的未被访问的邻接点出发，对图进行深度优先遍历；直至图中和 v 有路径相通的顶点都被访问；

若此时图中尚有顶点未被访问，则从一个未被访问的顶点出发，重新进行深度优先遍历，直到图中所有顶点均被访问过为止。

上述描述可能比较抽象，举个实例：

DFS 在访问图中某一起始顶点 v 后，由 v 出发，访问它的任一邻接顶点 w1；再从 w1 出发，访问与 w1 邻接但还没有访问过的顶点 w2；然后再从 w2 出发，进行类似的访问，… 如此进行下去，直至到达所有的邻接顶点都被访问过的顶点 u 为止。

接着，退回一步，退到前一次刚访问过的顶点，看是否还有其它没有被访问的邻接顶点。如果有，则访问此顶点，之后再从此顶点出发，进行与前述类似的访问；如果没有，就再退回一步进行搜索。重复上述过程，直到连通图中所有顶点都被访问过为止。

算法七：BFS(广度优先搜索

广度优先搜索算法(Breadth-First-Search)，是一种图形搜索算法。简单的说，BFS 是从根节点开始，沿着树 (图) 的宽度遍历树 (图) 的节点。如果所有节点均被访问，则算法中止。BFS 同样属于盲目搜索。一般用队列数据结构来辅助实现 BFS 算法。

算法步骤

首先将根节点放入队列中。

从队列中取出第一个节点，并检验它是否为目标。如果找到目标，则结束搜寻并回传结果。否则将它所有尚未检验过的直接子节点加入队列中。

若队列为空，表示整张图都检查过了——亦即图中没有欲搜寻的目标。结束搜寻并回传 “找不到目标”。

重复步骤 2。

算法八：Dijkstra

戴克斯特拉算法(Dijkstra’s algorithm)是由荷兰计算机科学家艾兹赫尔 · 戴克斯特拉提出。迪科斯彻算法使用了广度优先搜索解决非负权有向图的单源最短路径问题，算法最终得到一个最短路径树。该算法常用于路由算法或者作为其他图算法的一个子模块。

该算法的输入包含了一个有权重的有向图 G，以及 G 中的一个来源顶点 S。我们以 V 表示 G 中所有顶点的集合。每一个图中的边，都是两个顶点所形成的有序元素对。(u, v) 表示从顶点 u 到 v 有路径相连。我们以 E 表示 G 中所有边的集合，而边的权重则由权重函数 w: E → [0, ∞] 定义。

因此，w(u, v) 就是从顶点 u 到顶点 v 的非负权重(weight)。边的权重可以想像成两个顶点之间的距离。任两点间路径的权重，就是该路径上所有边的权重总和。已知有 V 中有顶点 s 及 t，Dijkstra 算法可以找到 s 到 t 的最低权重路径 (例如，最短路径)。

这个算法也可以在一个图中，找到从一个顶点 s 到任何其他顶点的最短路径。对于不含负权的有向图，Dijkstra 算法是目前已知的最快的单源最短路径算法。

算法步骤

初始时令 S={V0},T={其余顶点}，T 中顶点对应的距离值，若存在，d(V0,Vi) 为弧上的权值，若不存在，d(V0,Vi) 为∞ 。

从 T 中选取一个其距离值为最小的顶点 W 且不在 S 中，加入 S

对其余 T 中顶点的距离值进行修改：若加进 W 作中间顶点，从 V0 到 Vi 的距离值缩短，则修改此距离值，重复上述步骤 2、3，直到 S 中包含所有顶点，即 W=Vi 为止

学大数据要学哪些算法_大数据学习之不得不知的八大算法相关推荐

数据透视表字段交叉_删除数据透视表的计算字段的宏
数据透视表字段交叉 Have you ever recorded a macro to remove pivot table calculated fields? Just turn on the ...
学大数据要学哪些算法_大数据专业是学什么？
01 大数据技术专业属于交叉学科:以统计学.数学.计算机为三大支撑性学科:生物.医学.环境科学.经济学.社会学.管理学为应用拓展性学科.还需要学习数据采集.分析.处理软件,学习数学建模软件及计算机编程 ...
学大数据要学哪些算法_大数据分析都有哪些常见的算法
随着互联网的不断发展,大数据分析算法让众多企业在用户分析上获得了很大的突破.今天,我们就一起来了解一下,数据分析领域常见的算法都有哪些. 1.线性回归线性回归可能是统计学和机器学习中知名和易理解的算 ...
数据相关的在职研究生_大数据在职研究生都学什么？
大数据采集与管理在职研究生专业是从大数据应用的数据管理.系统开发.海量数据分析与挖掘等层面系统地帮助学生掌握大数据应用中的各种典型问题的解决办法的专业. 大数据在职研究生专业将从大数据应用的三个主要层 ...
大数据算法_大数据时代，机器学习算法该如何升级？
文 /杨晓宁随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注.由于大数据的海量.复杂多样.变化快的特性,对于大数据环境下的应用问题,传统的小数据上的机器学习算法很多已不再适用.因此,研究大 ...
大数据产品开发流程规范_大数据开发流程规范化（最新数据流图及相关数据技术分析）...
大数据的开发过程,如图1-1所示. 图 1-1大数据开发通用步骤图上图只是一个简化后的步骤和流程,实际开发中,有的步骤可能不需要,有的还需要增加步骤,有的流程可能更复杂,因具体情况而定. 下面以Go ...
python大数据运维工程师待遇_大数据开发、运维、数据分析分别是干什么的？哪个薪资最高？...
玩转大数据首先要明确自己将要学习的方向,没有人能一下子吃透大数据里面所有的东西. 在大数据的世界里面主要有三个学习方向,大数据开发师.大数据运维师.大数据架构师. 哪个好?我不知道你所说的哪个好?指的 ...
python大数据运维常用脚本_大数据岗位要求之大数据运维
继续介绍大数据系列岗位要求,大数据运维可能是"技术含量最高"的职位之一,这里说的大数据运维主要是指hadoop生态体系方面的运维,在一些小公司或者传统行业的大公司也会使用oracl ...
大数据产品开发流程规范_大数据技术思想入门(三)：分布式文件存储的流程
如果你不喜欢阅读文字的话,可以选择滑到最后看视频讲解哟~~~ 进程和 RPC 在上一篇文章中,我们讲解了要解决好大数据集的存储问题,需要引入一个主从结构的集群,其中,主服务器用于存储元数据,从服务 ...

学大数据要学哪些算法_大数据学习之不得不知的八大算法

学大数据要学哪些算法_大数据学习之不得不知的八大算法相关推荐

最新文章

热门文章