一. 整体架构的一些理解

  1.整体架构的理解:

  

    架构中的角色分为了数据采集,数据缓冲,还有数据处理。

    flume由于输入和输出的接口众多,于是利用这特点来实现无编程的数据采集。

  无编程的数据采集,我是这样理解的,主要就是数据输入和输出的格式转化问题,不过暂时还是纯粹的臆测,学的很浅;

    kafka则是将数据输入和数据处理,进行了解耦,从而达到生产和消费平衡(数据采集速度和处理速度平衡);

    spark很好理解,就是单纯的处理数据。

  2.部署上的理解:

    

    flume是存在于各个数据产生节点上的;

    kafka主要是broker的角色,而且是一个集群。

  3.关于几个部件原理介绍的一些文章:

  

二. 代码以及遇到的一些问题

  1.代码:

  2.问题:

   1) 缺jar包:

      下载相应的streaming jar包,放到jar文件夹中,或者sumbit加上相应参数即可解决;

   2)拒绝访问:

      我一开始的时候,使用sl77作为spark集群的master,后来发现sl77并没有其他机子的ssh访问权限,只有75,76做了相应的配置;

   3)invalid ip:

      在/etc/hosts中配置映射,配置成了ip hadoop@ip的形式,spark识别不出,改成ip slxx的形式后解决;

   4)日志过多,影响观察结果问题:

    

  

转载于:https://www.cnblogs.com/rachelint/p/9271481.html

【python+flume+kafka+spark streaming】编写word_count入门示例相关推荐

  1. Flume+Kafka+Spark Streaming+MySQL实时日志分析

    文章目录 项目背景 案例需求 一.分析 1.日志分析 二.日志采集 第一步.代码编辑 2.启动采集代码 三.编写Spark Streaming的代码 第一步 创建工程 第二步 选择创建Scala工程 ...

  2. Flume+Kafka+Spark Streaming实现大数据实时流式数据采集

    近年来,随着企业信息化建设的飞速发展,大数据应用的问题越来越备受关注.很多企业投入大量的人力.物力和财力建设企业大数据平台,平台建设工作涵盖数据采集.数据处理.数据存储.数据服务.数据展示以及数据质量 ...

  3. DStream实战之Spark Streaming整合fulme实战, Flume向Spark Streaming中push推数据 36

    前言 本文所需要的安装包&Flume配置文件,博主都已上传,链接为本文涉及安装包&Flume配置文件本文涉及的安装包&Flume配置文件,请自行下载~ flume作为日志实时采 ...

  4. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(九)安装kafka_2.11-1.1.0

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  5. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十一)NIFI1.7.1安装

    一.nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容. 192.168.0.120master192.168.0.121slave1192.168.0.122 slave2 ...

  6. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十二)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。...

    Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照<Kafka:ZK+Kafka+Spark Streaming集群环境搭 ...

  7. Kafka+Spark Streaming如何保证exactly once语义

    大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! 在Kafka.Storm.Flink.Spark Streaming等分布式流处理系统中(没错,Ka ...

  8. 大数据Spark “蘑菇云”行动第76课: Kafka+Spark Streaming+Redis项目实战

    大数据Spark "蘑菇云"行动第76课:   Kafka+Spark Streaming+Redis项目实战 jedis插件 redis <dependency>   ...

  9. Spark Streaming 编程新手入门指南

    Spark Streaming 是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理.可以从许多数据源(例如Kafka,Flume,Kinesis或TCP sockets)中 ...

最新文章

  1. 在CentOS 6.9 x86_64的nginx 1.12.2上开启ngx_http_geo_module模块实录
  2. Go语言基础之数据类型
  3. 5月30日,社区活动:SharePoint技术峰会
  4. ASP.NET 应用程序遭遇Server Application Unavailable问题的解决的方法
  5. jdeps_JDeps入门–分析项目的依赖关系
  6. vue 图片被背景色覆盖_如何使用纯css3打造有点意思的故障艺术(附React/Vue加强组件版)...
  7. python h5开发_从零搭建移动H5开发项目实战
  8. 在winform中,禁止combobox随着鼠标一起滑动!
  9. linux yum的用法【ZT】
  10. android真实项目教程(二)——漫画App初构_by_CJJ
  11. 深入理解JVM之JVM内存区域与内存分配
  12. 关于通用框架的一些想法
  13. pdf文件过大如何缩小?
  14. 企业家的“智慧”和“仁人”
  15. web设计——NBA队标
  16. 【Unity】Unity寻路系统讲解及Navigation实际应用
  17. python高次方程求根公式,Python简单求解高阶方程的数值解
  18. 人人商城(分销版)1.11.7微擎原版,装修店铺后,网站链接失效,页面不显示数据
  19. Qt QTableWidget的使用方式
  20. Python 声明变量

热门文章

  1. 通达信众赢全部破解指标(完美无错源码副图)
  2. 计算机中那些事儿(九):资料管理一些建议---理论篇
  3. 一口气发布11项新升级,免费送出1亿元算力:国产深度学习平台PaddlePaddle大更新...
  4. 黑莓发布自动驾驶安全管家软件Jarvis
  5. 美团正押注无人车?没错,这是外卖大战的第三阶段
  6. 数学建模笔记2方法分类
  7. django 创建项目
  8. STL的基本函数笔记
  9. hihoCoder #1033 : 交错和 [ 数位dp ]
  10. 架构师的第一步:学习两种抽象视角(Abstraction View)