Spark SQL实战

一、程序

 1 package sparklearning
 2
 3 import org.apache.log4j.Logger
 4 import org.apache.spark.SparkConf
 5 import org.apache.spark.SparkContext
 6 import org.apache.spark.sql.SQLContext
 7 import org.apache.spark.storage.StorageLevel
 8 import org.apache.log4j.Level
 9
10 object OnLineTradeStatistics {
11
12   case class User(userID:String,gender:String,age:Int,registerDate:String,provice:String,career:String)
13   case class TradeDetail(tradeID:String, tradeDate:String,productID:Int,amount:Int,userID:String)
14   def main(args: Array[String]){
15
16     //关闭不必要的日志显示
17       Logger.getLogger("org.apache.hadoop").setLevel(Level.ERROR)
18       Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
19       Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
20
21       //设置应用程序
22       val conf=new SparkConf().setAppName("On Line Trade Data").setMaster("local")
23       val ctx=new SparkContext(conf)
24       val sqlCtx=new SQLContext(ctx)
25       import sqlCtx.implicits._
26
27       //读文件  RDD-->DataFrame
28       val userDF= ctx.textFile("/home/hadoop/data/on_line_trade_user.txt").map(_.split(" ")).map(u=>User(u(0),u(1),u(2).toInt,u(3),u(4),u(5))).toDF()
29       userDF.registerTempTable("user")
30       userDF.persist(StorageLevel.MEMORY_ONLY_SER)
31
32       val tradeDF= ctx.textFile("/home/hadoop/data/on_line_trade_detail.txt").map(_.split(" ")).map(u=>TradeDetail(u(0),u(1),u(2).toInt,u(3).toInt,u(4))).toDF()
33       tradeDF.registerTempTable("trade")//生成临时表
34       tradeDF.persist(StorageLevel.MEMORY_ONLY_SER)
35
36       val countOfTrade2016 = sqlCtx.sql("SELECT * FROM trade where tradeDate like '2016%'").count()
37       println("2016 total money: "+countOfTrade2016)
38   }
39 }

二、结果

转载于:https://www.cnblogs.com/liuzhongfeng/p/7017545.html

Spark SQL实战相关推荐

Spark SQL实战(08)-整合Hive
1 整合原理及使用 Apache Spark 是一个快速.可扩展的分布式计算引擎,而 Hive 则是一个数据仓库工具,它提供了数据存储和查询功能.在 Spark 中使用 Hive 可以提高数据处理和查 ...
spark—SQL实战案例
学习内容一.sparkSQL在IDEA的使用 1.环境配置 2.快速入门二.sparkSQL实战案例 1.数据准备 2.案例分析 3.功能实现 4.代码实现一.sparkSQL在IDEA的使用 ...
Spark项目实战:大数据实时流处理日志(非常详细)
实战概览一.实战内容二.大数据实时流处理分析系统简介 1.需求 2.背景及架构三.实战所用到的架构和涉及的知识 1.后端架构 2.前端框架四.项目实战 1.后端开发实战 1.构建项目 2.引入 ...
实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作
转载自实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作供稿 | eBay ADI-Carmel Team 作者 | 金澜涛编辑 | 顾欣怡本文7309字,预计阅读时 ...
Tablestore结合Spark的流批一体SQL实战
作者:王卓然花名琸然阿里云存储服务技术专家背景介绍电子商务模式是指在网络环境和大数据环境下基于一定技术基础的商务运作方式和盈利模式,对于数据的分析和可视化是电商运营中最重要的部分之一,而电商大 ...
《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计
<Spark SQL大数据实例开发>9.2 综合案例实战--电商网站搜索排名统计 9.2.1 案例概述本节演示一个网站搜索综合案例:以京东为例,用户登录京东网站,在搜索栏中输入搜 ...
73、Spark SQL之开窗函数以及top3销售额统计案例实战
开窗函数以及top3销售额统计案例实战 Spark 1.4.x版本以后,为Spark SQL和DataFrame引入了开窗函数,比如最经典,最常用的,row_number(),可以让我们实现分组取to ...
《Spark商业案例与性能调优实战100课》第9课：商业案例之通过Spark SQL 下两种不同方式实现口碑最佳和最热门电影比较
<Spark商业案例与性能调优实战100课>第9课:商业案例之通过Spark SQL 下两种不同方式实现口碑最佳和最热门电影比较
《Spark商业案例与性能调优实战100课》第6课：商业案例之通过Spark SQL实现大数据电影用户行为分析
<Spark商业案例与性能调优实战100课>第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析 package com.dt.spark.sparksqlimport or ...

Spark SQL实战

一、程序

二、结果

Spark SQL实战相关推荐

最新文章

热门文章