spark + sftp

1，读取本地图片，并上传至SFTP

  val file = new File("/mnt/data/hdd4/yarn/local/usercache/IT_bigdata/appcache/tag1200.jpg")val img = ImageIO.read(file)val baos = new ByteArrayOutputStream()ImageIO.write(img, "jpg", baos)val byte = baos.toByteArrayval input01 = new ByteArrayInputStream(byte)channel.put(input01, s"/bigdata/B3I_D63" + "/" + "yy123254.jpg")

二：spark读取卡夫卡中数据写入SFTP，图片类型为BASE64转码后的格式

 try {df.collect().foreach {row => {logger.info("begining----row----")val picName = row.getString(0)val filedata64 = row.getString(1)val sftpFile = s"/dir" + "/" + picNameval input = new ByteArrayInputStream(Base64.getDecoder.decode(filedata64))channel.put(input, sftpFile)input.close()}}} catch {case e: Exception =>e.printStackTrace()} finally {session.disconnect()channel.disconnect()logger.info("-------close----")}

三：非图片格式

   df.write.format("com.springml.spark.sftp").option("host", host).option("username", username).option("password", password).option("header", false).option("fileType", "txt") // Text data source supports only a single column, and you have 3 columns..mode("append").save(sftpFile)

spark + sftp相关推荐

飞谷云六期第三组——基于Spark的机器学习
项目正式开始时间:2015.10.15. 随笔内容:本次项目的主题是基于Spark的ML.对于ML的学习有大概半年了,正好在网上关注到了由上海交通大学所主办的这个飞谷云的大数据项目,我所报名的这期已经 ...
Spark学习之第一个程序打包、提交任务到集群
1.免秘钥登录配置: ssh-keygen cd .ssh touch authorized_keys cat id_rsa.pub > authorized_keys chmod 600 au ...
sftp访问_实时数据处理探索：接收、处理、访问
ETL(也包括ELT)是数据处理工作里必不可少的步骤,一直以来通常都是以天或小时为单位采用批处理来对大量的数据进行 ETL 操作.随着业务的增长及需求的变化,用户/客户希望能更快的看到各类数据操作的结 ...
Spark开发学习之使用idea开发Spark应用
Spark学习之使用idea开发Spark应用该文章是基于jdk1.8,idea开发工具,maven都配置好的前提下进行讲述的. 背景由于已经在远程centos服务器上部署了saprk服务,但基于 ...
hadoop,spark,scala,flink 大数据分布式系统汇总
20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...
spark,hadoop区别
https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...
大规模数据处理Apache Spark开发
大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它 ...
客快物流大数据项目(五十四)：初始化Spark流式计算程序
目录初始化Spark流式计算程序一.SparkSql参数调优设置 1.设置会话时区
客快物流大数据项目(四十六)：Spark操作Kudu dataFrame操作kudu
Spark操作Kudu dataFrame操作kudu 一.DataFrameApi读取kudu表中的数据虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本 ...

spark + sftp

spark + sftp相关推荐

最新文章

热门文章