安装环境

Java环境

安装并启动Spark

下载并解压Spark

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz
tar xzvf spark-2.2.0-bin-hadoop2.7.tgz /usr/local
cd /usr/local
ln -s spark spark-2.2.0-bin-hadoop2.7
cd spark

运行master和slave

./sbin/start-master.sh -h 192.168.0.166
./sbin/start-slave.sh spark://192.168.0.166:7077

其中192.168.0.166是本地ip

下载Mysql JDBC

下载JDBC,然后解压到spark目录,然后配置conf/spark-defaults.conf

spark.driver.extraClassPath      /usr/local/spark/mysql-connector-java-5.1.39-bin.jar
spark.executor.extraClassPath    /usr/local/spark/mysql-connector-java-5.1.39-bin.jar

运行scala命令(spark-shell)

./bin/spark-shell --master spark://192.168.0.166:7077
var jdbcDF = spark.read.format("jdbc").options(Map("url"->"jdbc:mysql://localhost:3306/collection?user=root&password=pw","dbtable"->"collection.iqilu_news","fetchSize"->"100","partitionColumn"->"catid","lowerBound"->"1","upperBound"->"300","numPartitions"->"30")).load()
// 其中Spark根据partitionColumn里的字段来决定并发,numPartitions是并发数//  创建collection临时视图,以供下面查询使用
jdbcDF.createOrReplaceTempView("collection")var sqlDF = sql("SELECT title FROM collection ORDER BY id DESC LIMIT 10")// 查看数据
sqlDF.show()// 统计
sqlDF.count()

参考:

  • http://spark.apache.org/examples.html
  • https://www.percona.com/blog/2016/08/17/apache-spark-makes-slow-mysql-queries-10x-faster/

Spark获取并分析Mysql数据相关推荐

  1. mysql数据表损坏的常见原因是_MYSQL数据表损坏的分析

    MYSQL数据表损坏的分析 MYSQL 数据表损坏的分析<1.0>作 者: 王黎晓 完成日期: 2006-12-20 修改情况记录:版本号 修改人 修改日期 审核人 批准人 备注1.0-d ...

  2. 编写Scala代码,使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层

    编写Scala代码,使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层 抽取MySQL的metast库中Production表的全量数据进入Hive的ods库中表production,字 ...

  3. mysql查询时间类型c语言处理_资讯类app用户热度及资讯类型分析-Mysql进行数据预处理...

    本文是"资讯类app用户热度及资讯类型分析"一文中,Mysql进行数据预处理的部分.因为篇幅可能比较长,而且摘出来不会过于影响原文分析思路,所以这里单独进行介绍.(本文前四部分与正 ...

  4. php循环读取mysql_PHP无限循环获取MySQL数据

    本篇文章主要介绍PHP无限循环获取MySQL数据的方法,感兴趣的朋友参考下,希望对大家有所帮助. 具体如下: public function get_data($limit){ $sql=" ...

  5. mysql数据表数据丢失6_MYSQL数据表损坏的原因分析和修复方法小结

    MYSQL数据表损坏的原因分析和修复方法小结 1.表损坏的原因分析 以下原因是导致mysql 表毁坏的常见原因: 1. 服务器突然断电导致数据文件损坏. 2. 强制关机,没有先关闭mysql 服务. ...

  6. mysql获取最好成绩对应数据的其他项_开源数据同步神器——canal

    前言 如今大型的IT系统中,都会使用分布式的方式,同时会有非常多的中间件,如redis.消息队列.大数据存储等,但是实际核心的数据存储依然是存储在数据库,作为使用最广泛的数据库,如何将mysql的数据 ...

  7. scala解析csv文件写入mysql_scala实战之spark源码修改(能够将DataFrame按字段增量写入mysql数据表)...

    在上一篇博文中,我们可以简单的应用官网的给出的一些接口提取mysql数据表中的数据到spark中,也可以将spark的运行结果存入mysql中. 但是我们会发现spark将其DF存入mysql的时候, ...

  8. 【大数据基础】基于信用卡逾期数据的Spark数据处理与分析

    https://dblab.xmu.edu.cn/blog/2707/ 实验过程 数据预处理 本次实验数据集来自和鲸社区的信用卡评分模型构建数据,以数据集cs-training.csv为分析主体,其中 ...

  9. MySQL数据项目分析实战——淘宝用户行为分析

    MySQL数据项目分析实战--淘宝用户行为分析 一.项目背景 二.项目目标 2.1分析目的 2.2分析维度 三.数据的收集与整理 3.1数据来源 3.2数据说明 3.3理解数据 3.4导入数据 四.数 ...

最新文章

  1. 分别是什么意思_美国FBA头程:空派/海派分别是什么意思?
  2. java广度优先遍历
  3. 前端学习(2352):view组件的使用
  4. 如何将文件二进制传输至aix服务器,有什么办法把文件从WINDOWS系统中传到AIX中?...
  5. 素筛打表(输出小于n最大素数)
  6. arctime必须要java_arctime教程:arctime字幕软件下载及安装
  7. 深度学习(6) - 循环神经网络
  8. 大数据之-Hadoop3.x_MapReduce_Job提交流程---大数据之hadoop3.x工作笔记0103
  9. 第13章 图像像素采样(《Python趣味创意编程》教学视频)
  10. vbox linux centos 6,VirtualBox搭建 CentOS7.6
  11. 没有安装opencv的linux系统上运行基于opencv,Linux环境下安装OpenCV
  12. 算法分析-堆排序 HeapSort 优先级队列
  13. 前言:设计模式六大原则
  14. 《数字图像处理 第三版》(冈萨雷斯)——第九章 形态学图像处理
  15. html数据透视,高级Excel – 数据透视表工具
  16. java程序员到J2EE架构师
  17. 百战程序员怎么样?python介绍和了解python是什么
  18. Android 交互动画的统一实践
  19. 大一微积分笔记整理_大一微积分知识点总结
  20. 关于电脑版/PC微信如何恢复聊天记录【实践可行】

热门文章

  1. 关于在2440上移植rtl8192和rtl8188cus linux驱动遇到的问题及解决方法!!!
  2. 音视频框架-webrtc中的网络反馈与控制
  3. 终于盼来了,2BizBox最新版本 v3.5.0版本正式发布
  4. E-Ink电子墨水技术原理、发展、特点分析
  5. 事到如今已经不敢问的tcpdump的使用方法
  6. 全球防护情报平台行业调研及趋势分析报告
  7. sklearn参数优化方法
  8. 【Python】如何简单获取糗事百科?【详细步骤】
  9. 函数前的void是什么意思
  10. es - elasticsearch - aggs - bucket - terms