package lambda.sqlimport lambda.log.SparkSessionApp
import org.apache.spark.SparkContext
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/*** 演示sparksql初体验** @Author wangyijie* @Date 2021/7/15 20:15* @Version 1.0*/
object Demo01 {def main(args: Array[String]): Unit = {// TODO 0.准备环境val spark:SparkSession = SparkSession.builder().appName("Demo01").master("local[*]").getOrCreate()val sc:SparkContext = spark.sparkContextsc.setLogLevel("WARN")// TODO 1.加载数据val df1: DataFrame = spark.read.text("")val df2:DataFrame = spark.read.json("")// TODO 2.处理数据// TODO 3.输出结果df1.printSchema()df2.printSchema()df1.show()df2.show()// TODO 4.关闭资源spark.stop()}}

spark规范化读取数据相关推荐

  1. 实用 | 从Apache Kafka到Apache Spark安全读取数据

    引言 随着在CDH平台上物联网(IoT)使用案例的不断增加,针对这些工作负载的安全性显得至关重要.本篇博文对如何以安全的方式在Spark中使用来自Kafka的数据,以及针对物联网(IoT)使用案例的两 ...

  2. Spark(25) -- Spark SQL读取数据(mysql、json、parquet、csv、普通文本)

    Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中. 1. SparkSql从MySQL中 ...

  3. 使用Spark SQL读取Hive上的数据

    Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet.Hive.Json等).Spark SQL的其中一个分支就是Spar ...

  4. Spark Streaming读取Kafka数据的两种方式

    Kafka在0.8和0.10之间引入了一种新的消费者API,因此,Spark Streaming与Kafka集成,有两种包可以选择: spark-streaming-kafka-0-8与spark-s ...

  5. Spark连接MySQL数据库并读取数据

    (作者:陈玓玏) 打开pyspark,带驱动的那种 用命令行启动pyspark时需要加上jdbc的驱动路径: pyspark --driver-class-path D:/Users/chendile ...

  6. spark 无法读取hive 3.x的表数据

    HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据数据,准确来说是内表的数据. 原因 hive 3.0之后默认开启ACID功能,而且新建的表默认是AC ...

  7. Spark SQL读取Oracle的number类型的数据时精度丢失问题

    Spark SQL读取Oracle的number类型的数据时精度丢失问题 在程序开发中,使用到了sparkSQL读取Oracle数据库,发现当sparkSQL读取Oracle的number类型字段时, ...

  8. 使用Spark Streaming从kafka中读取数据把数据写入到mysql 实例

    文章目录 一. 题目 题目和数据 二. pom依赖 三.建表语句 四. 连接kafka配置类 五. 自定义分区类 六. 读取数据并发送数据 七. 消费数据,把数据存储到mysql 一. 题目 题目和数 ...

  9. spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案...

    1.背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式.查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop ...

最新文章

  1. Linux中获取当前程序路径的方法
  2. 真 · 圆桌!WAIC论坛上演自动驾驶专家激辩,直面技术路径之争
  3. Linux下的线程编程
  4. java定时任务,每天定时执行任务
  5. Chrome浏览器如何不让它缓存?
  6. c语言随机生成int64_t类型的数据_手把手教你代码生成(上):MATLAB代码生成
  7. flask的ajax的csrf代码
  8. idea 关于高亮显示与选中字符串相同的内容
  9. 常用的几种卷积神经网络介绍
  10. 玄姐出品:想和兄弟、集美们聊聊“分布式CAP”中情侣的纠缠故事,真是剪不断 理还乱!...
  11. 基于Spring Security的认证授权_WEB授权_Spring Security OAuth2.0认证授权---springcloud工作笔记132
  12. git如何查看和切换账号
  13. FineReport层式报表解决大数据集展示问题攻略
  14. Java空指针异常:java.lang.NullPointException
  15. paip. 混合编程的实现resin4 (自带Quercus ) 配置 php 环境
  16. 【转】LiveWriter插入高亮代码插件介绍 基于SyntaxHighighter
  17. SecureCRT 破解版v7.1.1.264中文汉化绿色版
  18. 基于jsp+mysql+java+ssm高校学生成绩管理系统——计算机毕业设计
  19. 查看电脑系统是否永久激活
  20. ubuntu中进行复制粘贴

热门文章

  1. Spring 数据处理框架的演变
  2. 毛发及眼球的渲染技术
  3. 程序员编程艺术:第五章、寻找满足和为定值的两个或多个数
  4. 2T比特每秒!瞻博推出业界最快防火墙
  5. 独家 | 一文读懂Adaboost
  6. laravel按月/时间区间查询数据
  7. spring cloud gateway Unhandled failure: Only one connection receive subscriber allowed.
  8. VMware OVF 协议
  9. Vivado入门创建工程之----自定义ip及其使用
  10. Linux的crond的配置流程,Linux之定时任务Crond详解