除Hadoop外的9个大数据技术:

1.Apache Flink

2.Apache Samza3.Google Cloud Data Flow4.StreamSets5.Tensor Flow6.Apache NiFi7.Druid8.LinkedIn WhereHows9.Microsoft Cognitive Services

Hadoop是大数据领域最流行的技术,但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9个大数据技术也是必须要了解的。

1.Apache Flink

是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。

这是一种由社区驱动的分布式大数据分析开源框架,类似于Apache Hadoop和Apache Spark。它的引擎可借助数据流和内存中(in-memory)处理与迭代操作改善性能。目前Apache Flink已成为一个顶级项目(Top Level Project,TLP),于2014年4月被纳入Apache孵化器,目前在全球范围内有很多贡献者。

Flink受到了MPP数据库技术(Declaratives、Query Optimizer、Parallel in-memory、out-of-core 算法)和Hadoop MapReduce技术(Massive scale out, User Defined functions, Schema on Read)的启发,有很多独特功能(Streaming, Iterations, Dataflow, General API)。大数据学习群410391744零基础到实战在线直播免费公开课,内有专业解答老师,学习交流,才能更快进步

2.Apache Samza:

是一个开源、分布式的流处理框架,它使用开源分布式消息处理系统Apache Kafka来实现消息服务,并使用资源管理器Apache Hadoop Yarn实现容错处理、处理器隔离、安全性和资源管理。

该技术由LinkedIn开发,最初目的是为了解决Apache Kafka在扩展能力方面存在的问题,包含诸如Simple API、Managed state、Fault Tolerant、Durable messaging、Scalable、Extensible,以及Processor Isolation等功能。

Samza的代码可作为Yarn作业运行,还可以实施StreamTask接口,借此定义process()调用。StreamTask可以在任务实例内部运行,其本身也位于一个Yarn容器内。

3.Cloud Dataflow:

Dataflow是一种原生的Google Cloud数据处理服务,是一种构建、管理和优化复杂数据流水线的方法,用于构建移动应用,调试、追踪和监控产品级云应用。它采用了Google内部的技术Flume和MillWhell,其中Flume用于数据的高效并行化处理,而MillWhell则用于互联网级别的带有很好容错机制的流处理。

该技术提供了简单的编程模型,可用于批处理和流式数据的处理任务。该技术提供的数据流管理服务可控制数据处理作业的执行,数据处理作业可使用Data Flow SDK(Apache Beam)创建。

Google Data Flow为数据相关的任务提供了管理、监视和安全能力。Sources和Sink可在管线中抽象地执行读写操作,管线封装而成的整个计算序列可以接受外部来源的某些输入数据,通过对数据进行转换生成一定的输出数据。

4.StreamSets:

StreamSets是一种专门针对传输中数据进行过优化的数据处理平台,提供了可视化数据流创建模型,通过开源的方式发行。该技术可部署在内部环境或云中,提供了丰富的监视和管理界面。

数据收集器可使用数据管线实时地流式传输并处理数据,管线描述了数据从源头到最终目标的流动方式,可包含来源、目标,以及处理程序。数据收集器的生命周期可通过管理控制台进行控制。

5.TensorFlow:

是继DistBelief之后的第二代机器学习系统。TensorFlow源自Google旗下的Google Brain项目,主要目标在于为Google全公司的不同产品和服务应用各种类型的神经网络机器学习能力。

支持分布式计算的TensorFlow能够使用户在自己的机器学习基础结构中训练分布式模型。该系统以高性能的gRPC数据库为支撑,与最近发布的Google云机器学习系统互补,使用户能够利用Google云平台,对TensorFlow模型进行训练并提供服务。

这是一种开源软件库,可使用数据流图谱(data flow graph)进行数值运算,这种技术已被包括DeepDream、RankBrain、Smart Replyused在内的各种Google项目所使用。

数据流图谱使用由节点(Node)和边缘(Edge)组成的有向图(Directed graph)描述数值运算。图谱中的节点代表数值运算,边缘代表负责在节点之间进行通信的多维数据阵列(张量,Tensor)。边缘还描述了节点之间的输入/输出关系。“TensorFlow”这个名称蕴含了张量在图谱上流动的含义。

6.Druid:

Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析,诞生于2011年,包含诸如驱动交互式数据应用程序,多租户:大量并发用户,扩展能力:每天上万亿事件,次秒级查询,实时分析等功能。Druid还包含一些特殊的重要功能,例如低延迟数据摄入、快速聚合、任意切割能力、高可用性、近似计算与精确计算等。

创建Druid的最初意图主要是为了解决查询延迟问题,当时试图使用Hadoop来实现交互式查询分析,但是很难满足实时分析的需要。而Druid提供了以交互方式访问数据的能力,并权衡了查询的灵活性和性能而采取了特殊的存储格式。

该技术还提供了其他实用功能,例如实时节点、历史节点、Broker节点、Coordinator节点、使用基于JSON查询语言的索引服务。了解详情

7.Apache NiFi:

Apache NiFi是一套强大可靠的数据处理和分发系统,可用于对数据的流转和转换创建有向图。借助该系统可以用图形界面创建、监视、控制数据流,有丰富的配置选项可供使用,可在运行时修改数据流,动态创建数据分区。此外还可以对数据在整个系统内的流动进行数据起源跟踪。通过开发自定义组件,还可轻松对其进行扩展。

Apache NiFi的运转离不开诸如FlowFile、Processor,以及Connection等概念。

8.LinkedIn WhereHows:

WhereHows提供带元数据搜索的企业编录(Enterprise catalog),可以让您了解数据存储在哪里,是如何保存到那里的。该工具可提供协作、数据血统分析等功能,并可连接至多种数据源和提取、加载和转换(ETL)工具。

该工具为数据发现提供了Web界面,支持API的后端服务器负责控制元数据的爬网(Crawling)以及与其他系统的集成。

9.Microsoft Cognitive Services:

该技术源自Project Oxford和Bing,提供了22种认知计算API,主要分类包括:视觉、语音、语言、知识,以及搜索。该技术已集成于Cortana Intelligence Suite。

这是一种开源技术,提供了22种不同的认知计算REST API,并为开发者提供了适用于Windows、IOS、Android以及Python的SDK。

转载于:https://www.cnblogs.com/dashjunih/p/11002898.html

知道 Hardtop 就够了?这九项必备技术你也必须掌握!相关推荐

  1. Gartner 2021年云安全技术成熟度曲线中的四项必备技术

    安全部门领导者可以评估并使用Gartner技术成熟度曲线中的新兴技术,来确保云计算的安全. 云的采用在疫情之前就已开始升温.Gartner预测到今年年底,公有云的部署数量将超过私有数据中心的工作负载. ...

  2. 引用 提高开发水平的几项必备技术

    很好的一篇文章!!!(偶遇此文,英雄所见略同!) 本文列出了当今计算机软件开发和应用领域最重要十种关键技术排名,如果你想保证你现在以及未来的几年不失业,那么你最好跟上这些技术的发展.虽然你不必对这十种 ...

  3. JDK 18 / Java 18 正式发布:九项 JDK 增强

    点击"终码一生",关注,置顶公众号 每日技术干货,第一时间送达! 近日,Oracle 官方发布了 JDK 18 /Java 18 正式版.在性能.稳定性和安全性上面,Java 18 ...

  4. 在近期,美众议院为何密集提出了15项新兴技术法案?

    来源:资本实验室 近期,美国众议院能源和商业委员会及消费者保护与商业小组委员会密集提出了15项与新兴技术相关的法案议程.这些法案开宗明义,建立了明确的目标:确保美国在新兴技术领域的领导地位,以在全球竞 ...

  5. 计算机技术的未来突破,中科院正式宣布!又一项重要技术迎突破,未来15年都会领先美国?...

    声明:原创不易,禁止搬运,违者必究! 技术强才能中国强 我国由原来的落后国家,如今依然摘掉了这个标签.我国在各个领域都获得领先的地位,这要源于我国科研团队的功劳. 一个国家掌握了核心的技术,那么将会直 ...

  6. 关于2018年 九大改变世界的技术趋势

    原作者:Bernard Marr 编译:数据观 https://www.shujuguan.cn/ 简介:Bernard Marr 是大数据布道者,著名科技作家,顶级商业数据专家.下面是他撰文的&qu ...

  7. 索尼也要造车了!将成立新公司进军电动汽车市场;采埃孚推出移动出行领域多项先进技术 | 美通社头条...

    要闻摘要:IBM公布2022年云计算三大预测.爱彼迎公布今冬三大旅行趋势.2022 CES:索尼正式进军电动汽车市场:采埃孚推出移动出行领域多项先进技术:戴尔外星人家族发布笔记本及外设:科唯怡展示创新 ...

  8. 美国拟将14项关键技术列入出口管制清单 商务部回应

    中新网1月17日电 针对美拟将14项关键技术列入出口管制清单,商务部新闻发言人高峰表示,中方认为科技发展成果应该得到有效保护,同时也应该让世界各国人民共享. 资料图:商务部新闻发言人高峰.中新社记者 ...

  9. 数据产品必备技术知识:机器学习及常见算法,看这一篇就够了

    大家都知道,产品经理需要懂技术,很多面试官都偏好有技术背景的同学,毕竟产品经理经常要和开发同学相爱相杀.当然也不是一定要求能够精通,但是至少不要让这块成为沟通的障碍,懂点技术,实际工作中也能少被开发同 ...

最新文章

  1. 2019小程序没必要做了_2019微信小程序的发展前景怎么样?有必要开发微信小程序吗?...
  2. #每日一题:小数第n位(数论/模拟)
  3. vue 前端显示图片加token_前端Vue3.0:从0到1手把手撸码搭建管理后台系统
  4. [css] 行内元素可以设置padding和margin吗?
  5. java中的saturn_Saturn分布式调度平台系列:高屋建瓴之设计原理简析
  6. 数据分析职场路上有困惑?不妨花几分钟来看看...
  7. Wannafly Winter Camp 2019 Day4 G 置置置换 (oeis/DP)
  8. I/O error on GET request for http://userservice/user/point/update: userservice; nested exception
  9. 【JavaMailWeb】用户注册通过邮箱激活案例
  10. 使用Java SE8 Streams 处理数据,Part 2
  11. 自己搭建FRP服务器,速度不错!
  12. 【ps合成】给男票做个Q版大头像
  13. Tomcat 输入http://localhost:8080网页打不开
  14. html设置手机为数字,用数字4636设置手机网络类型的方法步骤
  15. 如何用MySQL创建一个数据库
  16. 公司用了 6 年的Spring Boot 部署方案!打包 + Shell 脚本详解,稳的一批!
  17. Spark算子综合案例
  18. 微信小程序wx.showToast的总结
  19. SQL-查询没有学全所有课的同学,显示(学号、姓名)
  20. 完成 新闻界面+一个注册界面(根据群内截图做出 相同(大体一致)的界面 ) 压缩包内有完成后的素材:样式截图3张+新闻文本txt+一个新闻页图片 注意1:在新闻界面 点击 注册用户 后跳转

热门文章

  1. ansible roles和django项目的整合
  2. flink介绍:有界流和无界流
  3. docker-compose部署nginx,挂载外置配置文件及项目
  4. Go gin其他数据类型渲染
  5. eureka客户端获取服务列表时间间隔配置
  6. Linux nohup 和 命令
  7. Adapter适配器设计模式
  8. python3.6安装tesserocr
  9. linux下的几种进程间通信方式的特点
  10. 基于vue和vuex的todos效果展示及源码分享