一切理论源于实践,理论最终也要为实践服务。产生于他,服务与他,在生活中只有敢尝试,再有可能进步,光想是不会成功的
——————————送给努力实践的你

分享一个实际生产案例:

统计每个域名的流量和(域名字段11,流量字段20)

import org.apache.spark.{SparkConf, SparkContext}object LogAppscala {def main(args: Array[String]): Unit = {val sparkConf = new  SparkConf().setMaster("local[2]").setAppName("SparkContext")val sc = new SparkContext(sparkConf)val lines = sc.textFile("file:///E:\\data.txt")lines.map(x => {val temp = x.split("\t")val domain =temp(10)var repson =0Ltry{repson = temp(19)toLong}catch{case e:Exception =>println("----")}(domain,repson)}).reduceByKey(_+_).collect().foreach(println)lines.take(2).foreach(println)sc.stop()}
}

注意:流量这种类型是Long,所以这里要加上toLong
要考虑到流量为0的情况,所以加上try,这里的操作
其中还遇到的一个问题,出在上传路径哪里的写法

实例二

访问次数最多的URL(0)并排序

object LogAppscala {def main(args: Array[String]): Unit = {val sparkConf = new  SparkConf().setMaster("local[2]").setAppName("SparkContext")val sc = new SparkContext(sparkConf)val lines = sc.textFile("file:///E:\\data.txt")lines.map(x => {val temp = x.split("\t")(temp(0),1L)//(url,count)}).reduceByKey(_+_).sortBy(_._2, false).take(10).foreach(println)sc.stop()}}

Spark-生产案例相关推荐

  1. 从原理到策略算法再到架构产品看推荐系统 | 附Spark实践案例

    原文链接:mp.weixin.qq.com  作者 | HCY崇远 01 前言 本文源自于前阵子连续更新的推荐系统系列,前段时间给朋友整理一个关于推荐系统相关的知识教学体系,刚好自身业务中,预计明年初 ...

  2. Apache Spark+PyTorch 案例实战

    Apache Spark+PyTorch 案例实战  随着数据量和复杂性的不断增长,深度学习是提供大数据预测分析解决方案的理想方法,需要增加计算处理能力和更先进的图形处理器.通过深度学习,能够利用非结 ...

  3. Shell编程—企业生产案例

    Linux系统Shell编程-企业生产案例(一) 企业数据库可以说是重点保护对象啊,没有之一,数据在当今企业里就是生命线,因此今天就来说一说,如何通过shell脚本来检查或监控MYSQL数据库服务是否 ...

  4. 消息中间件学习总结(19)——生产案例:消息中间件 MQ 如何处理消费失败的消息?

    1.消息中间件在生产系统中的使用 下图是一个非常典型的生产环境的问题,很多公司都会在生产系统里使用MQ,即消息队列.也就是说,一个系统跟另外一个系统之间进行通信的时候,假如系统A希望发送一个消息给系统 ...

  5. Spark RDD案例(五)经纬度转换为地理位置

    Spark RDD案例(五)经纬度转换为地理位置 1. 背景 Spark作为大数据分析引擎,本身可以做离线和准实时数据处理 Spark抽象出的操作对象如RDD.dataSet.dataFrame.DS ...

  6. 大数据Spark入门案例5–统计广告点击数量排行Top3(scala版本)

    大数据Spark入门案例5–统计每广告点击数量排行Top3(scala版本) 1 数据准备 链接:https://pan.baidu.com/s/1afzmL-hNsAJl1_gx_dH2ag 提取码 ...

  7. Spark商业案例与性能调优实战100课》第16课:商业案例之NBA篮球运动员大数据分析系统架构和实现思路

    Spark商业案例与性能调优实战100课>第16课:商业案例之NBA篮球运动员大数据分析系统架构和实现思路 http://www.basketball-reference.com/leagues ...

  8. Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析

    Spark商业案例与性能调优实战100课>第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析 package com.dt.spark.coresimport org.apa ...

  9. 《Spark商业案例与性能调优实战100课》第17课:商业案例之NBA篮球运动员大数据分析系统代码实战

    <<<Spark商业案例与性能调优实战100课>第17课:商业案例之NBA篮球运动员大数据分析系统代码实战

  10. 《Spark商业案例与性能调优实战100课》第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写

    <Spark商业案例与性能调优实战100课>第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写

最新文章

  1. 原 记录一下iOS开发中琐碎的点点_6
  2. Go语言中奇怪的if语句
  3. 用Jmeter进行接口测试及乱码问题
  4. linux shell命令分布执行,Linux学习笔记:bash特性之多命令执行,shell脚本
  5. 新概念英语(1-11)Is this your shirt ?
  6. Java 获取Web项目相对webapp地址
  7. java 缓存一致性_Java多线程——CPU缓存原理和缓存一致性问题
  8. 命令行修改mysql数据库密码
  9. python对浏览器的常用操作_Selenium元素的常用操作方法分析
  10. mariadb与mysql的兼容_「MySQL架构」MariaDB versus MySQL: Compatibility
  11. [Unity] StartCoroutine 无法启动协程的可能原因:没有使用 AddComponent<T>() 初始化 Monobehaviour
  12. v-if、v-for、v-model、v-on
  13. SCPPO(五):解决MVC中Json传输数据量问题
  14. MySQL查看和修改数据库存储目录
  15. 2017云计算与IT风向标-------- 移动、转型、整合
  16. Python利用hadoop Streaming编写的Map-Reduce程序命令运行和本地调试运行
  17. 今天,就让坏得很的糟老头子来告诉你顺序表的基操,零基础也可get!
  18. css 不显示visi,VisionPro显示隐藏搜索区域
  19. LinkedIn最好工具-领英精灵11.11最低获得方法
  20. 深度学习总结:深层神经网络(tensorflow实战)

热门文章

  1. 机器视觉——棱镜的妙用
  2. spring boot初体验(三)Spring AOP
  3. Jenkins+Gitlab+ansible-playbook上线流程
  4. 解密Angular WebWorker Renderer (二)
  5. Talking Data副总裁高铎:我们如何赋予大数据生命力
  6. java调用libreoffice_使用Open / LibreOffice开始使用UNO和Java
  7. linux如何调试脚本程序,调试Linux shell脚本的方法
  8. git 查看修改明细_git查看某个文件的修改历史
  9. WebSocket 对象简介
  10. 升级dedecms5.5后,出现提示保存目录数据时失败,请检查你的输入资料是否存在问题...