Spark获取并分析Mysql数据
安装环境
Java环境
安装并启动Spark
下载并解压Spark
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz
tar xzvf spark-2.2.0-bin-hadoop2.7.tgz /usr/local
cd /usr/local
ln -s spark spark-2.2.0-bin-hadoop2.7
cd spark
运行master和slave
./sbin/start-master.sh -h 192.168.0.166
./sbin/start-slave.sh spark://192.168.0.166:7077
其中192.168.0.166是本地ip
下载Mysql JDBC
下载JDBC,然后解压到spark目录,然后配置conf/spark-defaults.conf
spark.driver.extraClassPath /usr/local/spark/mysql-connector-java-5.1.39-bin.jar
spark.executor.extraClassPath /usr/local/spark/mysql-connector-java-5.1.39-bin.jar
运行scala命令(spark-shell)
./bin/spark-shell --master spark://192.168.0.166:7077
var jdbcDF = spark.read.format("jdbc").options(Map("url"->"jdbc:mysql://localhost:3306/collection?user=root&password=pw","dbtable"->"collection.iqilu_news","fetchSize"->"100","partitionColumn"->"catid","lowerBound"->"1","upperBound"->"300","numPartitions"->"30")).load()
// 其中Spark根据partitionColumn里的字段来决定并发,numPartitions是并发数// 创建collection临时视图,以供下面查询使用
jdbcDF.createOrReplaceTempView("collection")var sqlDF = sql("SELECT title FROM collection ORDER BY id DESC LIMIT 10")// 查看数据
sqlDF.show()// 统计
sqlDF.count()
参考:
- http://spark.apache.org/examples.html
- https://www.percona.com/blog/2016/08/17/apache-spark-makes-slow-mysql-queries-10x-faster/
Spark获取并分析Mysql数据相关推荐
- mysql数据表损坏的常见原因是_MYSQL数据表损坏的分析
MYSQL数据表损坏的分析 MYSQL 数据表损坏的分析<1.0>作 者: 王黎晓 完成日期: 2006-12-20 修改情况记录:版本号 修改人 修改日期 审核人 批准人 备注1.0-d ...
- 编写Scala代码,使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层
编写Scala代码,使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层 抽取MySQL的metast库中Production表的全量数据进入Hive的ods库中表production,字 ...
- mysql查询时间类型c语言处理_资讯类app用户热度及资讯类型分析-Mysql进行数据预处理...
本文是"资讯类app用户热度及资讯类型分析"一文中,Mysql进行数据预处理的部分.因为篇幅可能比较长,而且摘出来不会过于影响原文分析思路,所以这里单独进行介绍.(本文前四部分与正 ...
- php循环读取mysql_PHP无限循环获取MySQL数据
本篇文章主要介绍PHP无限循环获取MySQL数据的方法,感兴趣的朋友参考下,希望对大家有所帮助. 具体如下: public function get_data($limit){ $sql=" ...
- mysql数据表数据丢失6_MYSQL数据表损坏的原因分析和修复方法小结
MYSQL数据表损坏的原因分析和修复方法小结 1.表损坏的原因分析 以下原因是导致mysql 表毁坏的常见原因: 1. 服务器突然断电导致数据文件损坏. 2. 强制关机,没有先关闭mysql 服务. ...
- mysql获取最好成绩对应数据的其他项_开源数据同步神器——canal
前言 如今大型的IT系统中,都会使用分布式的方式,同时会有非常多的中间件,如redis.消息队列.大数据存储等,但是实际核心的数据存储依然是存储在数据库,作为使用最广泛的数据库,如何将mysql的数据 ...
- scala解析csv文件写入mysql_scala实战之spark源码修改(能够将DataFrame按字段增量写入mysql数据表)...
在上一篇博文中,我们可以简单的应用官网的给出的一些接口提取mysql数据表中的数据到spark中,也可以将spark的运行结果存入mysql中. 但是我们会发现spark将其DF存入mysql的时候, ...
- 【大数据基础】基于信用卡逾期数据的Spark数据处理与分析
https://dblab.xmu.edu.cn/blog/2707/ 实验过程 数据预处理 本次实验数据集来自和鲸社区的信用卡评分模型构建数据,以数据集cs-training.csv为分析主体,其中 ...
- MySQL数据项目分析实战——淘宝用户行为分析
MySQL数据项目分析实战--淘宝用户行为分析 一.项目背景 二.项目目标 2.1分析目的 2.2分析维度 三.数据的收集与整理 3.1数据来源 3.2数据说明 3.3理解数据 3.4导入数据 四.数 ...
最新文章
- 分别是什么意思_美国FBA头程:空派/海派分别是什么意思?
- java广度优先遍历
- 前端学习(2352):view组件的使用
- 如何将文件二进制传输至aix服务器,有什么办法把文件从WINDOWS系统中传到AIX中?...
- 素筛打表(输出小于n最大素数)
- arctime必须要java_arctime教程:arctime字幕软件下载及安装
- 深度学习(6) - 循环神经网络
- 大数据之-Hadoop3.x_MapReduce_Job提交流程---大数据之hadoop3.x工作笔记0103
- 第13章 图像像素采样(《Python趣味创意编程》教学视频)
- vbox linux centos 6,VirtualBox搭建 CentOS7.6
- 没有安装opencv的linux系统上运行基于opencv,Linux环境下安装OpenCV
- 算法分析-堆排序 HeapSort 优先级队列
- 前言:设计模式六大原则
- 《数字图像处理 第三版》(冈萨雷斯)——第九章 形态学图像处理
- html数据透视,高级Excel – 数据透视表工具
- java程序员到J2EE架构师
- 百战程序员怎么样?python介绍和了解python是什么
- Android 交互动画的统一实践
- 大一微积分笔记整理_大一微积分知识点总结
- 关于电脑版/PC微信如何恢复聊天记录【实践可行】