容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析
摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。
容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析
(二):Kubernetes如何助力Spark大数据分析
概述
本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合,允许Spark分布式内存计算,机器学习集群对云上的大数据直接进行分析和保存结果。
先决条件
你已经通过阿里云容器服务创建了一个Kubernetes集群,详细步骤参见创建Kubernetes集群
从容器服务控制台创建一个Spark OSS实例
使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例
1 登录 https://cs.console.aliyun.com/
2 点击 “应用目录”
3 选择 "spark-oss", 点击 “参数”

- 给你的应用一个名字, e.g. spark-oss-online2
- (必选)填写你的oss_access_key_id和oss_access_key_secret
Worker:# set OSS access keyID and secretoss_access_key_id: <Your sub-account>oss_access_key_secret: <your key_secret of sub-account>
3.(可选)修改工作节点数目 Worker.Replicas: 3

4 点击 “部署”
5 点击 “Kubernetes 控制台”,查看部署实例
6 点击 服务, 查看外部端点, 点击URL访问Spark集群

7 测试Spark集群
1.打开一个spark-shell
kubectl get pod | grep worker
spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m
kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs -- /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077
粘贴下列代码,使用Spark测试OSS的读写性
// Save RDD to OSS bucket
val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2"))
stringRdd.saveAsTextFile("oss://eric-new/testwrite12")// Read data from OSS bucket
val lines = sc.textFile("oss://eric-new/testwrite12")
lines.take(10).foreach(println)
Test Strings
Test String2
CLI 命令行操作
Setup keys and deploy spark cluster in one command
export OSS_ID=<your oss id>
export OSS_SECRET=<your oss secrets>helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss
kubectl get svc| grep oss
myspark-oss-master ClusterIP 172.19.9.111 <none> 7077/TCP 2m
myspark-oss-webui LoadBalancer 172.19.13.1 120.55.104.27 8080:30477/TCP 2m
原文链接
干货好文,请关注扫描以下二维码:
容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析相关推荐
- 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 1
摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark ...
- 容器开启数据服务之旅系列(一):Kubernetes如何解自建PostgreSQL运维之痛
摘要: 通过阿里云Kubernetes容器服务,开启你的数据服务之旅 (一)云上运维自建数据库之痛,使用容器服务自动恢复数据库postgresql实例 概述 本文为大家介绍一种容器化的数据服务 pos ...
- 容器开启数据服务之旅系列(四):Kubernetes QoS 助力在线运用与大数据离线运用的带宽控制和磁盘控制...
容器开启数据服务之旅系列(四) Kubernetes QoS 助力在线运用与大数据离线运用的带宽控制和磁盘控制 概述 本文是2018年大数据峰会上的一些分享,关于在线业务,离线业务在ACK(阿里云容器 ...
- 使用SpringBoot开启微服务之旅
\ 本文要点 \\ 微服务可以使你的代码解耦\\t 微服务可以使不同的团队专注于更小范围的工作职责.使用独立的技术.更安全更频繁地部署\\t SpringBoot支持各种REST API的实现方式\\ ...
- 超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/sp ...
- 【工业大数据】 昆仑数据首席科学家田春华:人工智能降低了工业大数据分析的门槛
机器之心原创 作者:高静宜 在刚刚结束的国际 PHM 数据竞赛中,昆仑数据的 K2 代表队以绝对优势一举夺冠,成为 PHM Data Challenge 十年竞赛史上首个完全由中国本土成员组成的冠军团 ...
- 《Spark大数据分析:核心概念、技术及实践》大数据技术一览
本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章 ...
- 昆仑数据首席科学家田春华:人工智能降低了工业大数据分析的门槛
PHM(Prognostics & Health Management,即故障诊断与健康管理)学会从 2008 年成立一直专注于工业设备故障诊断领域,其每年举办的「PHM 数据竞赛」是国际上高 ...
- 微服务架构推动精益数字化管理体系建设,构建大数据分析平台
某研究院使用多个独立的,不同架构的系统,对产能.产线.业务协同等业务进行管理.在十四五期间,由于数据量急剧增加,现有的数据管理工具难以对大数据量的平台进行统一.精细化管理,需要对不同系统的数据.权限. ...
最新文章
- 2022-2028年中国绿冻石行业市场研究及前瞻分析报告
- python os open_Python3 os.open() 方法
- SAP MM 采购订单含税价实现方式
- 这些行业,将率先落地AI芯片 | 星前沿
- 采用dlopen、dlsym、dlclose dlopen dlerror加载动态链接库【总结】
- 前端学习之——h5适配
- Linux shell控制台改变显示前缀
- 最短路---dijsktra--邻接矩阵
- 搜集的一些有意思的牛人博客地址
- njx如何实现负载均衡_使用Nginx实现负载均衡
- IDEA部署项目和多余的项目删掉的演示
- 权威!盘点 100 个最受欢迎的 Java 库!绝对经典
- Atitit. 。Jna技术与 解决 java.lang.Error: Invalid memory access
- sqlalchemy mysql配置中怎么设置utf8_python – 使用SQLAlchemy和pymysql,如何设置连接以使用utf8mb4?...
- 关于Keil4 C51版本可以编译但是无法完成编译的问题解决
- 物联网卡与普通的sim卡的区别
- 挂件巡检机器人_最近DIY的室内巡检机器人
- 2011世界财富500强
- uniapp-request请求思维导图
- 一文读懂“生成式 AI”
热门文章
- 何恺明、吴育昕最新成果:用组归一化替代批归一化
- AI一分钟 | 谷歌租下北京 6000 平米写字楼,或将发展AI项目;工信部就个人信息保护约谈百度、支付宝、今日头条
- 合并代码还在用git merge吗?我们都用git rebase!
- 漫画 | Bug是如何产生的?
- Spring Boot + Vue.js 实现前后端分离(附源码)
- 一位后端妹纸的面试总结(美团+阿里+携程+58+贝贝+招银+华为+....)
- 如何设计一个本地缓存
- 5 门可能衰落的编程语言
- JVM最多支持多少个线程?
- 机器学习常见算法及优缺点!