容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

摘要：容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析（二）：Kubernetes如何助力Spark大数据分析概述本文为大家介绍一种容器化的数据服务Spark + OSS on ACK，允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

（二）：Kubernetes如何助力Spark大数据分析

概述

本文为大家介绍一种容器化的数据服务Spark + OSS on ACK，允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合，允许Spark分布式内存计算，机器学习集群对云上的大数据直接进行分析和保存结果。

先决条件

你已经通过阿里云容器服务创建了一个Kubernetes集群，详细步骤参见创建Kubernetes集群

从容器服务控制台创建一个Spark OSS实例

使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例

1 登录 https://cs.console.aliyun.com/
2 点击 “应用目录”
3 选择 "spark-oss", 点击 “参数”

给你的应用一个名字， e.g. spark-oss-online2
（必选）填写你的oss_access_key_id和oss_access_key_secret

Worker:# set OSS access keyID and secretoss_access_key_id: <Your sub-account>oss_access_key_secret: <your key_secret of sub-account>

3.（可选）修改工作节点数目 Worker.Replicas: 3

4 点击 “部署”
5 点击 “Kubernetes 控制台”，查看部署实例

6 点击服务，查看外部端点, 点击URL访问Spark集群

7 测试Spark集群

1.打开一个spark-shell

kubectl get pod | grep worker

spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m

spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m

kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs --  /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077

粘贴下列代码，使用Spark测试OSS的读写性

// Save RDD to OSS bucket
val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2"))
stringRdd.saveAsTextFile("oss://eric-new/testwrite12")// Read data from OSS bucket
val lines = sc.textFile("oss://eric-new/testwrite12")
lines.take(10).foreach(println)

Test Strings
Test String2

CLI 命令行操作

Setup keys and deploy spark cluster in one command

export OSS_ID=<your oss id>
export OSS_SECRET=<your oss secrets>helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss

kubectl get svc| grep oss
myspark-oss-master   ClusterIP      172.19.9.111    <none>          7077/TCP         2m
myspark-oss-webui    LoadBalancer   172.19.13.1     120.55.104.27   8080:30477/TCP   2m

原文链接

干货好文，请关注扫描以下二维码：

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析相关推荐

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析 1
摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析概述本文为大家介绍一种容器化的数据服务Spark ...
容器开启数据服务之旅系列（一）：Kubernetes如何解自建PostgreSQL运维之痛
摘要: 通过阿里云Kubernetes容器服务,开启你的数据服务之旅 (一)云上运维自建数据库之痛,使用容器服务自动恢复数据库postgresql实例概述本文为大家介绍一种容器化的数据服务 pos ...
容器开启数据服务之旅系列（四）：Kubernetes QoS 助力在线运用与大数据离线运用的带宽控制和磁盘控制...
容器开启数据服务之旅系列(四) Kubernetes QoS 助力在线运用与大数据离线运用的带宽控制和磁盘控制概述本文是2018年大数据峰会上的一些分享,关于在线业务,离线业务在ACK(阿里云容器 ...
使用SpringBoot开启微服务之旅
\ 本文要点 \\ 微服务可以使你的代码解耦\\t 微服务可以使不同的团队专注于更小范围的工作职责.使用独立的技术.更安全更频繁地部署\\t SpringBoot支持各种REST API的实现方式\\ ...
超详攻略！Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察产品链接:https://www.aliyun.com/product/bigdata/sp ...
【工业大数据】昆仑数据首席科学家田春华：人工智能降低了工业大数据分析的门槛
机器之心原创作者:高静宜在刚刚结束的国际 PHM 数据竞赛中,昆仑数据的 K2 代表队以绝对优势一举夺冠,成为 PHM Data Challenge 十年竞赛史上首个完全由中国本土成员组成的冠军团 ...
《Spark大数据分析：核心概念、技术及实践》大数据技术一览
本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章 ...
昆仑数据首席科学家田春华：人工智能降低了工业大数据分析的门槛
PHM(Prognostics & Health Management,即故障诊断与健康管理)学会从 2008 年成立一直专注于工业设备故障诊断领域,其每年举办的「PHM 数据竞赛」是国际上高 ...
微服务架构推动精益数字化管理体系建设,构建大数据分析平台
某研究院使用多个独立的,不同架构的系统,对产能.产线.业务协同等业务进行管理.在十四五期间,由于数据量急剧增加,现有的数据管理工具难以对大数据量的平台进行统一.精细化管理,需要对不同系统的数据.权限. ...

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析相关推荐

最新文章

热门文章