spark + sftp
1,读取本地图片,并上传至SFTP
val file = new File("/mnt/data/hdd4/yarn/local/usercache/IT_bigdata/appcache/tag1200.jpg")val img = ImageIO.read(file)val baos = new ByteArrayOutputStream()ImageIO.write(img, "jpg", baos)val byte = baos.toByteArrayval input01 = new ByteArrayInputStream(byte)channel.put(input01, s"/bigdata/B3I_D63" + "/" + "yy123254.jpg")
二:spark读取卡夫卡中数据写入SFTP,图片类型为BASE64转码后的格式
try {df.collect().foreach {row => {logger.info("begining----row----")val picName = row.getString(0)val filedata64 = row.getString(1)val sftpFile = s"/dir" + "/" + picNameval input = new ByteArrayInputStream(Base64.getDecoder.decode(filedata64))channel.put(input, sftpFile)input.close()}}} catch {case e: Exception =>e.printStackTrace()} finally {session.disconnect()channel.disconnect()logger.info("-------close----")}
三:非图片格式
df.write.format("com.springml.spark.sftp").option("host", host).option("username", username).option("password", password).option("header", false).option("fileType", "txt") // Text data source supports only a single column, and you have 3 columns..mode("append").save(sftpFile)
spark + sftp相关推荐
- 飞谷云六期第三组——基于Spark的机器学习
项目正式开始时间:2015.10.15. 随笔内容:本次项目的主题是基于Spark的ML.对于ML的学习有大概半年了,正好在网上关注到了由上海交通大学所主办的这个飞谷云的大数据项目,我所报名的这期已经 ...
- Spark学习之第一个程序打包、提交任务到集群
1.免秘钥登录配置: ssh-keygen cd .ssh touch authorized_keys cat id_rsa.pub > authorized_keys chmod 600 au ...
- sftp访问_实时数据处理探索:接收、处理、访问
ETL(也包括ELT)是数据处理工作里必不可少的步骤,一直以来通常都是以天或小时为单位采用批处理来对大量的数据进行 ETL 操作.随着业务的增长及需求的变化,用户/客户希望能更快的看到各类数据操作的结 ...
- Spark开发学习之使用idea开发Spark应用
Spark学习之使用idea开发Spark应用 该文章是基于jdk1.8,idea开发工具,maven都配置好的前提下进行讲述的. 背景 由于已经在远程centos服务器上部署了saprk服务,但基于 ...
- hadoop,spark,scala,flink 大数据分布式系统汇总
20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...
- spark,hadoop区别
https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...
- 大规模数据处理Apache Spark开发
大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它 ...
- 客快物流大数据项目(五十四):初始化Spark流式计算程序
目录 初始化Spark流式计算程序 一.SparkSql参数调优设置 1.设置会话时区
- 客快物流大数据项目(四十六):Spark操作Kudu dataFrame操作kudu
Spark操作Kudu dataFrame操作kudu 一.DataFrameApi读取kudu表中的数据 虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本 ...
最新文章
- linux dry run,dry run
- 信息系统项目管理知识--知识产权与标准化
- python中tell_Python的File tell()方法使用方法及作用解析(实例)
- Git的简单使用以及在Django中有关日志文件的忽略
- mysql explain 为空_车祸现场!我的MySQL千万级数据表选错索引了!
- python OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized
- pytorch常见问题之cpu占满
- SonicWALL防火墙初探
- 校验插入指定结点是否导致编码循环的示例函数
- linux shell 命令批量杀死进程
- JAVA把一个流赋给新的一个流_2020重新出发,JAVA基础,输入/输出(I/O)流
- python指数函数ks检验_python指数函数不正确的指数值
- 显微镜下的大明——第二个故事
- 公开下载 |《2021技术人的百宝黑皮书》来了!
- matlab多个最大公约数,求任意多数的最大公约数及最小公倍数的matlab实现
- APP开发工具Appcan、apicloud、HBuilder 剖析
- pdf转html?pdf转图片
- javaScript:打印等腰三角形
- java序列化机制Serialize接口使用
- 机器学习项目实践(什么是深度学习?)