Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。从Apache官方博客中得知,Flink已于近日升级成为Apache基金会的顶级项目。Flink项目的副总裁对此评论到:

\\

Flink能够成为基金会的顶级项目,自己感到非常高兴。自己认为社区的驱动将是Flink成长的最好保证。Flink逐渐的成长以及众多新人加入该社区真是一件大好事。

\\

从Flink官网得知,其具有如下主要特征:

\\

1. 快速

\\

Flink利用基于内存的数据流并将迭代处理算法深度集成到了系统的运行时中,这就使得系统能够以极快的速度来处理数据密集型和迭代任务。

\\

2. 可靠性和扩展性

\\

当服务器内存被耗尽时,Flink也能够很好的运行,这是因为Flink包含自己的内存管理组件、序列化框架和类型推理引擎。

\\

3. 表现力

\\

利用Java或者Scala语言能够编写出漂亮、类型安全和可为核心的代码,并能够在集群上运行所写程序。开发者可以在无需额外处理就使用Java和Scala数据类型

\\

4. 易用性

\\

在无需进行任何配置的情况下,Flink内置的优化器就能够以最高效的方式在各种环境中执行程序。此外,Flink只需要三个命令就可以运行在Hadoop的新MapReduce框架Yarn上,

\\

5. 完全兼容Hadoop

\\

Flink支持所有的Hadoop所有的输入/输出格式和数据类型,这就使得开发者无需做任何修改就能够利用Flink运行历史遗留的MapReduce操作

\\

Flink主要包括基于Java和Scala的用于批量和基于流数据分析的API、优化器和具有自定义内存管理功能的分布式运行时等,其主要架构如下:

\\

\\

更多关于Flink的相关信息,请读者登录其托管在GitHub的主页和其官网查看。另外,开源的大数据分析平台除了Flink外,还包括Apache推出Google Dremel的开源版本Apache Drill(2014年12月份升级成为Apache基金会的顶级项目)、来自NSA(美国国家安全局)Apache Nifi(2014年12月份贡献给Apache基金会)、来自Cloudera公司开发的实时分析系统Impala(受Google Dremel启发)、加州伯克利大学AMPLab开发的大数据分析系统Shark 、Facebook开源的分布式SQL查询引擎Presto、Hortonworks开源的实时且类SQL的即时查询系统Stinger等等。

\


感谢郭蕾对本文的审校。

\

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

大数据分析引擎Apache Flink升级成为Apache顶级项目相关推荐

  1. 图文详解 DBMS 数据库管理系统三层架构体系(三级模式)《ClickHouse 实战:企业级大数据分析引擎》...

    引文 计算机科学领域的所有问题,都可以通过添加一层中间层来解决.通过在用户和计算机中间添加一层逻辑层(概念模型层),于是就有了"数据库的三级模式":数据库在三个级别 (层次)上进行 ...

  2. 从零到一搭建大数据分析引擎HIVE

    从零到一搭建大数据分析引擎HIVE 1.集群的规划 2.安装步骤 1.下载hive安装包 2.利用docker安装mysql 3.修改hive的配置文件 4.增加hive-site.xml配置文件 5 ...

  3. DBMS 数据库管理系统的三级模式架构《ClickHouse 实战:企业级大数据分析引擎》...

    引文 计算机科学领域的所有问题,都可以通过添加一层中间层来解决.通过在用户和计算机中间添加一层逻辑层(概念模型层),于是就有了"数据库的三级模式":数据库在三个级别 (层次)上进行 ...

  4. clickhouse hadoop_大数据分析之解决Hadoop的短板,实时大数据分析引擎ClickHouse解析...

    本篇文章探讨了大数据分析之解决Hadoop的短板,实时大数据分析引擎ClickHouse解析,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入. 一.背景 提到大数据不得不提Hado ...

  5. SaCa DataViz 企业版 | 高性能大数据分析引擎

    SaCa DataViz 企业版 | 高性能大数据分析引擎 秦翠 大数据时代,随着企业业务的发展与信息化建设的成熟,企业内逐渐积累了海量的业务数据,这些数量庞大.晦涩难懂的数据背后蕴含着巨大的商业价值 ...

  6. Impala:新一代开源大数据分析引擎--转载

    原文地址:http://www.parallellabs.com/2013/08/25/impala-big-data-analytics/ 文 / 耿益锋 陈冠诚 大数据处理是云计算中非常重要的问题 ...

  7. Apache Flink 为什么能够成为新一代大数据计算引擎?

    众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会.如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速 ...

  8. 新一代大数据处理引擎 Apache Flink

    这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河,也以内存为赌注,赢得了 ...

  9. 阿里云大学Apache Flink大数据学习笔记

    之前有看过一些基础的大数据课程,现在又回来发现这里的课程更新还是蛮快的,讲的内容干货也很多,继续学习一下,下面是一些主要内容说明. 地址:https://developer.aliyun.com/le ...

最新文章

  1. React文档(六)state和生命周期
  2. qtdesigner 组件全吗_百度营销工具有哪些?带你了解百度全链路营销
  3. SAP用户权限控制大解析及权限进阶分析
  4. STEAM 97%好评,体验堪比《杀戮尖塔》,为什么玩家说这是2020年上半年最超值的游戏?
  5. mysql将备份的数据导入_成功将MySQL的大型数据导入导出和备份(转载)
  6. T-SQL :SQL Server 定义数据完整性 5大约束
  7. Android系统的智能指针(轻量级指针、强指针和弱指针)的实现原理分析(3)...
  8. SASS简介及使用方法
  9. python中的引用怎么理解_Python函数通过引用调用
  10. [Hands On ML] 4. 训练模型
  11. redis数据持久化到mysql_redis 数据持久化的几种方式
  12. 关于用C#编写ActiveX控件1
  13. 斯坦福大学机器学习相关网站——Andrew Ng
  14. C++ Merge sort(归并排序)
  15. LOJ10068 秘密的牛奶运输
  16. Oracle和MySQL新增只有查询权限用户
  17. 企业宣传类PPT模板
  18. [C语言]static关键字--#define 定义常量和宏--初识指针--初识C语言(四)
  19. Gitlab用户在组中有五种权限:Guest、Reporter、Developer、Master、Owner
  20. Activity的生命周期及Intent

热门文章

  1. 明明有印象却找不到,APP内搜索为什么这么难用?
  2. jvm初体验:堆溢出处理
  3. Linux-CentOS上一些快捷键的使用
  4. java基础 super 子类调用父类
  5. iOS NSNumber转化NSString之description
  6. border-radius 移动之伤
  7. SpringMVC+Spring4.0+Hibernate 简单的整合
  8. C++11标准之右值引用(ravalue reference)
  9. OpenCV中矩阵的归一化
  10. .NET图像处理包 DotImage