Spark-生产案例
一切理论源于实践,理论最终也要为实践服务。产生于他,服务与他,在生活中只有敢尝试,再有可能进步,光想是不会成功的
——————————送给努力实践的你
分享一个实际生产案例:
统计每个域名的流量和(域名字段11,流量字段20)
import org.apache.spark.{SparkConf, SparkContext}object LogAppscala {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[2]").setAppName("SparkContext")val sc = new SparkContext(sparkConf)val lines = sc.textFile("file:///E:\\data.txt")lines.map(x => {val temp = x.split("\t")val domain =temp(10)var repson =0Ltry{repson = temp(19)toLong}catch{case e:Exception =>println("----")}(domain,repson)}).reduceByKey(_+_).collect().foreach(println)lines.take(2).foreach(println)sc.stop()}
}
注意:流量这种类型是Long,所以这里要加上toLong
要考虑到流量为0的情况,所以加上try,这里的操作
其中还遇到的一个问题,出在上传路径哪里的写法
实例二
访问次数最多的URL(0)并排序
object LogAppscala {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[2]").setAppName("SparkContext")val sc = new SparkContext(sparkConf)val lines = sc.textFile("file:///E:\\data.txt")lines.map(x => {val temp = x.split("\t")(temp(0),1L)//(url,count)}).reduceByKey(_+_).sortBy(_._2, false).take(10).foreach(println)sc.stop()}}
Spark-生产案例相关推荐
- 从原理到策略算法再到架构产品看推荐系统 | 附Spark实践案例
原文链接:mp.weixin.qq.com 作者 | HCY崇远 01 前言 本文源自于前阵子连续更新的推荐系统系列,前段时间给朋友整理一个关于推荐系统相关的知识教学体系,刚好自身业务中,预计明年初 ...
- Apache Spark+PyTorch 案例实战
Apache Spark+PyTorch 案例实战 随着数据量和复杂性的不断增长,深度学习是提供大数据预测分析解决方案的理想方法,需要增加计算处理能力和更先进的图形处理器.通过深度学习,能够利用非结 ...
- Shell编程—企业生产案例
Linux系统Shell编程-企业生产案例(一) 企业数据库可以说是重点保护对象啊,没有之一,数据在当今企业里就是生命线,因此今天就来说一说,如何通过shell脚本来检查或监控MYSQL数据库服务是否 ...
- 消息中间件学习总结(19)——生产案例:消息中间件 MQ 如何处理消费失败的消息?
1.消息中间件在生产系统中的使用 下图是一个非常典型的生产环境的问题,很多公司都会在生产系统里使用MQ,即消息队列.也就是说,一个系统跟另外一个系统之间进行通信的时候,假如系统A希望发送一个消息给系统 ...
- Spark RDD案例(五)经纬度转换为地理位置
Spark RDD案例(五)经纬度转换为地理位置 1. 背景 Spark作为大数据分析引擎,本身可以做离线和准实时数据处理 Spark抽象出的操作对象如RDD.dataSet.dataFrame.DS ...
- 大数据Spark入门案例5–统计广告点击数量排行Top3(scala版本)
大数据Spark入门案例5–统计每广告点击数量排行Top3(scala版本) 1 数据准备 链接:https://pan.baidu.com/s/1afzmL-hNsAJl1_gx_dH2ag 提取码 ...
- Spark商业案例与性能调优实战100课》第16课:商业案例之NBA篮球运动员大数据分析系统架构和实现思路
Spark商业案例与性能调优实战100课>第16课:商业案例之NBA篮球运动员大数据分析系统架构和实现思路 http://www.basketball-reference.com/leagues ...
- Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析
Spark商业案例与性能调优实战100课>第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析 package com.dt.spark.coresimport org.apa ...
- 《Spark商业案例与性能调优实战100课》第17课:商业案例之NBA篮球运动员大数据分析系统代码实战
<<<Spark商业案例与性能调优实战100课>第17课:商业案例之NBA篮球运动员大数据分析系统代码实战
- 《Spark商业案例与性能调优实战100课》第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写
<Spark商业案例与性能调优实战100课>第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写
最新文章
- 原 记录一下iOS开发中琐碎的点点_6
- Go语言中奇怪的if语句
- 用Jmeter进行接口测试及乱码问题
- linux shell命令分布执行,Linux学习笔记:bash特性之多命令执行,shell脚本
- 新概念英语(1-11)Is this your shirt ?
- Java 获取Web项目相对webapp地址
- java 缓存一致性_Java多线程——CPU缓存原理和缓存一致性问题
- 命令行修改mysql数据库密码
- python对浏览器的常用操作_Selenium元素的常用操作方法分析
- mariadb与mysql的兼容_「MySQL架构」MariaDB versus MySQL: Compatibility
- [Unity] StartCoroutine 无法启动协程的可能原因:没有使用 AddComponent<T>() 初始化 Monobehaviour
- v-if、v-for、v-model、v-on
- SCPPO(五):解决MVC中Json传输数据量问题
- MySQL查看和修改数据库存储目录
- 2017云计算与IT风向标-------- 移动、转型、整合
- Python利用hadoop Streaming编写的Map-Reduce程序命令运行和本地调试运行
- 今天,就让坏得很的糟老头子来告诉你顺序表的基操,零基础也可get!
- css 不显示visi,VisionPro显示隐藏搜索区域
- LinkedIn最好工具-领英精灵11.11最低获得方法
- 深度学习总结:深层神经网络(tensorflow实战)
热门文章
- 机器视觉——棱镜的妙用
- spring boot初体验(三)Spring AOP
- Jenkins+Gitlab+ansible-playbook上线流程
- 解密Angular WebWorker Renderer (二)
- Talking Data副总裁高铎:我们如何赋予大数据生命力
- java调用libreoffice_使用Open / LibreOffice开始使用UNO和Java
- linux如何调试脚本程序,调试Linux shell脚本的方法
- git 查看修改明细_git查看某个文件的修改历史
- WebSocket 对象简介
- 升级dedecms5.5后,出现提示保存目录数据时失败,请检查你的输入资料是否存在问题...