1. Apache Kafka

挑战:①收集海量数据;②分析。

分析包括:用户行为数据、应用程序的性能跟踪、以日志形式显示的动态数据、事件信息…

kafka可处理实时信息并很快地将其路由到多个消费者。提供了生产者之间信息的无缝集成,不需阻塞消费,生产者不需关心消费者是谁。

它是一个开源的、分布式的、分区的和基于复制 日志提交的发布-订阅消息传递系统。

①持久性消息传递: 保证消息不丢失,提供O(1)常量时间性能的磁盘设计,支持大容量存储(TB)。信息持久化到硬盘,且在集群中复制,以防数据丢失;
高吞吐量: 每秒处理数百MB的读和写操作;
分布式: 以集群为中心,在kafka服务器上进行消息分区(在每个分区维护ordering semantics),并在集群上分发消费。集群可弹性、透明地增长,而不需停机;
多客户端: 支持简单集成来自不同平台的客户端(Java、NET、PHP、Ruby、Python);
实时: 由生产者线程生成的消息对消费者线程立即可见(该特性对基于事件的系统非常重要,eg.复杂事件处理(CEP)系统)

提供了一种实时的发布-订阅解决方案,还支持Hadoop中的并行数据加载。

在生产方面,有不同类型的生产者: eg.
①前端web应用程序生成的日志;
②生成web分析日志的生产者代理;
③生成转换日志的生产者适配器;
④生成调用跟踪日志的生产者服务。

在消费方面: eg.
①离线消费者,正在使用消息并将其存储在Hadoop或传统数据仓库,用于离线分析;
②接近实时的消费者,正在消费信息并将其存储在NoSQL(eg.HBase或Cassandra),用于近实时分析;
③像Spark或Storm,可在内存中过滤消息,为相关组触发警报事件。

2. Why do we need Kafka?

数据通常包括用户活动、事件登录、页面访问、点击、社交网络活动,如“赞”、“分享”和“评论”、操作
和系统指标(由于高吞吐量(每秒数百万条消息),所以通常由日志记录&传统日志聚合解决方案处理——面向离线分析eg.hadoop)
对构建实时处理系统非常局限。

实时分析包括:
①基于搜索的相关性、基于受欢迎程度、共同发生或情感分析的建议、向大众投放广告、从垃圾邮件或未经授权的数据抓取、发送高温警报的设备传感器、任何异常的用户行为或应用程序的黑客行为。

从生产系统收集的这些多组数据的实时使用情况,由于收集和处理的数据量大而成为一个挑战。

kafka目标是通过提供一种机制来统一线下和线上处理:
Hadoop系统中的并行负载以及在一组机器上的分区实时消耗的能力(处理流式数据很有用)。
从架构的角度来看,它更接近于传统的消息传递系统,如ActiveMQ或RabitMQ。

参考:Learning Apache Kafka Second Edition

学习Apache Kafka相关推荐

  1. Apache Kafka Consumer 消费者集

    1.目标 在我们的上一篇文章中,我们讨论了Kafka Producer.今天,我们将讨论Kafka Consumer.首先,我们将看到什么是Kafka Consumer和Kafka Consumer的 ...

  2. Apache Kafka教程--Kafka新手入门

    Apache Kafka教程–Kafka新手入门 Kafka Assistant 是一款 Kafka GUI 管理工具--管理Broker,Topic,Group.查看消费详情.监控服务器状态.支持多 ...

  3. Spring Boot 和Apache Kafka的集成

    点击上方蓝色"方志朋",选择"设为星标" 回复"666"获取独家整理的学习资料! 1. 引言 Apache Kafka 是一个分布式的.容错 ...

  4. grpc_模型服务:流处理与使用Java,gRPC,Apache Kafka,TensorFlow的RPC / REST

    grpc 机器学习/深度学习模型可以通过不同的方式进行预测. 我的首选方法是将分析模型直接部署到流处理应用程序(如Kafka Streams或KSQL )中. 您可以例如使用TensorFlow fo ...

  5. kafka教程_2018年机器学习趋势与Apache Kafka生态系统结合

    kafka教程 在慕尼黑举行的OOP 2018大会上,我介绍了有关使用Apache Kafka生态系统和诸如TensorFlow,DeepLearning4J或H2O之类的深度学习框架构建可扩展,关键 ...

  6. apache kafka技术分享系列(目录索引)--转载

    原文地址:http://blog.csdn.net/lizhitao/article/details/39499283 kafka开发与管理: 1)apache kafka消息服务 2)kafak安装 ...

  7. Apache kafka 工作原理介绍

    消息队列 消息队列技术是分布式应用间交换信息的一种技术.消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走.通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置.或在继续执行 ...

  8. 大数据开发hadoop核心的分布式消息系统:Apache Kafka 你知道吗

    简介 Apache Kafka是分布式发布-订阅消息系统.它最初由LinkedIn公司开发,之后成为Apache项目的一部分.Kafka是一种快速.可扩展的.设计内在就是分布式的,分区的和可复制的提交 ...

  9. kafka grpc_模型服务:流处理与使用Java,gRPC,Apache Kafka,TensorFlow的RPC / REST

    kafka grpc 机器学习/深度学习模型可以通过不同的方式进行预测. 我的首选方法是将分析模型直接部署到流处理应用程序(如Kafka Streams或KSQL )中. 您可以例如使用TensorF ...

最新文章

  1. 测试SAP云平台上的Redis数据库服务
  2. SAP CRM服务订单状态和SAP S/4生产订单状态
  3. 计算机基础 课程简介,课程简介及计算机基础知识课件.ppt
  4. gulpfile笔记
  5. linux mariadb 图形化,linux 初学者 - MariaDB 图形管理篇
  6. err=etherbase address must be explicitly specified
  7. Eclipse——在eclipse.ini文件中配置JDK
  8. Demo(3月28日)
  9. [转]Android TV 遥控器适配
  10. C#调用PB生成dll详解
  11. html5小游戏塔防,HTML5塔防(一)
  12. 什么是PLC可编程控制器,理论基础知识讲解QY-KC801
  13. 如何利用光驱位给老旧笔记本电脑安装固态硬盘
  14. 2020年中国研究生数学建模竞赛E题
  15. 企业邮箱的优势有哪些
  16. iGuard简单突破
  17. 按键判断之GetKeyState 和 GetAsyncKeyState 区别
  18. 【转载】无公网IP搞定群晖+ZEROTIER ONE实现内网穿透
  19. uniapp开发小程序使用腾讯云IM(初始化配置,登录,监听,加群)
  20. 支持右翼教科书的日本企业与个人全部名单

热门文章

  1. Tightly Coupled LiDAR Inertial Odometry and Mapping源码解析(二)
  2. Java实现模拟KFC点餐系统(设计模式)
  3. “低头走路”与“抬头看天”
  4. 基于asp.net703宠商城网站宠物系统
  5. 【从kitti开始自动驾驶】--6.2 全场景2D检测(移植至ROS,显示于RVIZ)
  6. http status 404 – 未找到_SpringBoot全局异常处理与定制404页面
  7. python调用包中的方法_python 中不同包 类 方法 之间的调用详解
  8. IK-Analyzer 分词器 solr
  9. 50行代码写的一个插件,破解一个H5小游戏
  10. idea快速清理无效类文件