摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。

容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

(二):Kubernetes如何助力Spark大数据分析

概述

本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合,允许Spark分布式内存计算,机器学习集群对云上的大数据直接进行分析和保存结果。

先决条件

你已经通过阿里云容器服务创建了一个Kubernetes集群,详细步骤参见创建Kubernetes集群

从容器服务控制台创建一个Spark OSS实例

使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例

1 登录 https://cs.console.aliyun.com/
2 点击 “应用目录”
3 选择 "spark-oss", 点击 “参数”

  1. 给你的应用一个名字, e.g. spark-oss-online2
  2. (必选)填写你的oss_access_key_id和oss_access_key_secret
Worker:# set OSS access keyID and secretoss_access_key_id: <Your sub-account>oss_access_key_secret: <your key_secret of sub-account>

3.(可选)修改工作节点数目 Worker.Replicas: 3

4 点击 “部署”
5 点击 “Kubernetes 控制台”,查看部署实例

6 点击 服务, 查看外部端点, 点击URL访问Spark集群

7 测试Spark集群

1.打开一个spark-shell

kubectl get pod | grep worker

spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m

spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m

kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs --  /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077

粘贴下列代码,使用Spark测试OSS的读写性

// Save RDD to OSS bucket
val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2"))
stringRdd.saveAsTextFile("oss://eric-new/testwrite12")// Read data from OSS bucket
val lines = sc.textFile("oss://eric-new/testwrite12")
lines.take(10).foreach(println)

Test Strings
Test String2

CLI 命令行操作

Setup keys and deploy spark cluster in one command

export OSS_ID=<your oss id>
export OSS_SECRET=<your oss secrets>helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss
kubectl get svc| grep oss
myspark-oss-master   ClusterIP      172.19.9.111    <none>          7077/TCP         2m
myspark-oss-webui    LoadBalancer   172.19.13.1     120.55.104.27   8080:30477/TCP   2m

原文链接

干货好文,请关注扫描以下二维码:

容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析相关推荐

  1. 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 1

    摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark ...

  2. 容器开启数据服务之旅系列(一):Kubernetes如何解自建PostgreSQL运维之痛

    摘要: 通过阿里云Kubernetes容器服务,开启你的数据服务之旅 (一)云上运维自建数据库之痛,使用容器服务自动恢复数据库postgresql实例 概述 本文为大家介绍一种容器化的数据服务 pos ...

  3. 容器开启数据服务之旅系列(四):Kubernetes QoS 助力在线运用与大数据离线运用的带宽控制和磁盘控制...

    容器开启数据服务之旅系列(四) Kubernetes QoS 助力在线运用与大数据离线运用的带宽控制和磁盘控制 概述 本文是2018年大数据峰会上的一些分享,关于在线业务,离线业务在ACK(阿里云容器 ...

  4. 使用SpringBoot开启微服务之旅

    \ 本文要点 \\ 微服务可以使你的代码解耦\\t 微服务可以使不同的团队专注于更小范围的工作职责.使用独立的技术.更安全更频繁地部署\\t SpringBoot支持各种REST API的实现方式\\ ...

  5. 超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

    简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/sp ...

  6. 【工业大数据】 昆仑数据首席科学家田春华:人工智能降低了工业大数据分析的门槛

    机器之心原创 作者:高静宜 在刚刚结束的国际 PHM 数据竞赛中,昆仑数据的 K2 代表队以绝对优势一举夺冠,成为 PHM Data Challenge 十年竞赛史上首个完全由中国本土成员组成的冠军团 ...

  7. 《Spark大数据分析:核心概念、技术及实践》大数据技术一览

    本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章 ...

  8. 昆仑数据首席科学家田春华:人工智能降低了工业大数据分析的门槛

    PHM(Prognostics & Health Management,即故障诊断与健康管理)学会从 2008 年成立一直专注于工业设备故障诊断领域,其每年举办的「PHM 数据竞赛」是国际上高 ...

  9. 微服务架构推动精益数字化管理体系建设,构建大数据分析平台

    某研究院使用多个独立的,不同架构的系统,对产能.产线.业务协同等业务进行管理.在十四五期间,由于数据量急剧增加,现有的数据管理工具难以对大数据量的平台进行统一.精细化管理,需要对不同系统的数据.权限. ...

最新文章

  1. 2022-2028年中国绿冻石行业市场研究及前瞻分析报告
  2. python os open_Python3 os.open() 方法
  3. SAP MM 采购订单含税价实现方式
  4. 这些行业,将率先落地AI芯片 | 星前沿
  5. 采用dlopen、dlsym、dlclose dlopen dlerror加载动态链接库【总结】
  6. 前端学习之——h5适配
  7. Linux shell控制台改变显示前缀
  8. 最短路---dijsktra--邻接矩阵
  9. 搜集的一些有意思的牛人博客地址
  10. njx如何实现负载均衡_使用Nginx实现负载均衡
  11. IDEA部署项目和多余的项目删掉的演示
  12. 权威!盘点 100 个最受欢迎的 Java 库!绝对经典
  13. Atitit. 。Jna技术与 解决 java.lang.Error: Invalid memory access
  14. sqlalchemy mysql配置中怎么设置utf8_python – 使用SQLAlchemy和pymysql,如何设置连接以使用utf8mb4?...
  15. 关于Keil4 C51版本可以编译但是无法完成编译的问题解决
  16. 物联网卡与普通的sim卡的区别
  17. 挂件巡检机器人_最近DIY的室内巡检机器人
  18. 2011世界财富500强
  19. uniapp-request请求思维导图
  20. 一文读懂“生成式 AI”

热门文章

  1. 何恺明、吴育昕最新成果:用组归一化替代批归一化
  2. AI一分钟 | 谷歌租下北京 6000 平米写字楼,或将发展AI项目;工信部就个人信息保护约谈百度、支付宝、今日头条
  3. 合并代码还在用git merge吗?我们都用git rebase!
  4. 漫画 | Bug是如何产生的?
  5. Spring Boot + Vue.js 实现前后端分离(附源码)
  6. 一位后端妹纸的面试总结(美团+阿里+携程+58+贝贝+招银+华为+....)
  7. 如何设计一个本地缓存
  8. 5 门可能衰落的编程语言
  9. JVM最多支持多少个线程?
  10. 机器学习常见算法及优缺点!