最近,有一份数据,是关于学校的数据,这个里面有所有学生的信息,今天闲来没事,我就想用spark的方式来读取文件,并且来统计这个学校的各个民族的情况,以前我用hadoop中mapReduce来计算,不得不说,又麻烦计算速度又慢
首先,我们先看看这份数据长什么样子?

  

我在这个操作的时候,以为数据都是全的,没想到这个有一行的数据缺了几个,当时在mapReduce,缺了的话,对数据也没影响,还是能照样跑,但是这个不行,spark里面直接报数据越界的异常,所以我就提前判断了一下长度

package cn.wj.spark.day07import org.apache.spark.{SparkConf, SparkContext}/*** Created by WJ on 2017/1/5.*/
//要善于解决数据的不匹配的关系
object myXJDX {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("myXJDX").setMaster("local")val sc = new SparkContext(conf)val rdd1 = sc.textFile("E://Test/xjdx.txt").map(line => {val fields = line.split(",")if (fields.length >= 10) {val mz = line.split(",")(10)(mz, 1)}else{(1,1)}})var rdd2 = rdd1.reduceByKey(_ + _)println(rdd2.collect().toBuffer)}
}

很简单的一段代码,不过有些时候越是简单的东西,就需要多动手

  

转载于:https://www.cnblogs.com/wnbahmbb/p/6254100.html

spark练习--统计xxx大学的各个少数名族的情况相关推荐

  1. python作业爬取xxx大学排行

    python作业爬取xxx大学排名榜单,python-selenium爬虫解决(本文章仅学习,网站数据也是公开的) 文章目录 前言 一.分析网页 二.需要实现过程 三.代码实现 1.引入库 2.全部代 ...

  2. ARWU、THE、QS世界大学 排名前100名国(境)外高校名单

    ARWU.THE.QS世界大学 排名前100名国(境)外高校名单 美国:埃默里大学.北卡罗来纳大学教堂山分校.宾夕法尼亚大学.宾州州立大学.波士顿大学.布朗大学.达特茅斯学院.德克萨斯大学.德克萨斯大 ...

  3. WPF 在编译时 显示 CS0426 类型“xxx”中不存在类型名“xxx”

    WPF 程序在编译时显示 CS0426 类型"xxx"中不存在类型名"xxx": 具体原因: 1. 命名空间和 类名称相同造成的. 一般报错,报在XAML 中的 ...

  4. 【成绩统计】Excel计算年级学校排名和班级排名,并统计各班各科前1050名学生人数

    本文以"好分数"系统导出的期末考试成绩数据为基础,进行统计分析. 拿到表,首先整理下数据,去除无关字段数据,保留关键字段. 一开始的时候,,小编直接使用上表给出的"学校排 ...

  5. 陕西的大学计算机排名2015年,陕西省大学排名前15名,西安交大第一,985的西北农大竟无缘前三...

    原标题:陕西省大学排名前15名,西安交大第一,985的西北农大竟无缘前三 随着我国经济的高速发展,我国的教育事业尤其是高等教育也是发展迅速,但是大家会发现我国的高等教育分布是很不均衡的,尤其是名牌大学 ...

  6. 体验即将开学的西湖大学,首批120名博士研究生亮相

    再过两周,西湖大学在获教育部批准正式成立以后的第一次开学典礼就要举行了.今年,有120名博士研究生被西湖大学录取,8月24日将是2018级新生的报到日. 这所由中国科学院院士.结构生物学家施一公出任校 ...

  7. 关于mysql连接jsp文件时出现Xxx Xxx cannot be resolved to a type的情况

    关于mysql连接jsp文件时出现Xxx cannot be resolved to a type的情况 原因有三: a.(可能是jdk版本问题 通常系统使用默认版本 解决办法是进项目配置设置,以及将 ...

  8. 末流211计算机值得学吗,选择末流的211还是好一点的一本大学?附末流211大学名单最后20名...

    选择科目 测一测我能上哪些大学 选择科目 领取你的专属报告 > 选择省份 关闭 请选择科目 确定 v> 填报志愿时,选择末流的211还是好一点的一本大学是不少考生都会面对的难题.本期我们以 ...

  9. 圣母大学应用计算机数学统计,圣母大学(美国)应用、计算数学与统计学本科专业.pdf...

    圣母大学(美国)应用.计算数学与统计学本科专业 留学监理服务网 圣母大学(美国) 应用.计算数学与统计学- Applied and Computational Mathematics and Stat ...

  10. python统计各省大学数_“双一流”大学各省分布情况统计

    9月21日,教育部官方网站公布世界一流大学和一流学科(简称"双一流")建设高校及建设学科名单.其中,一流大学建设高校42所(A类36所.B类6所),一流学科建设高校95所. 此次遴 ...

最新文章

  1. R语言使用caretEnsemble包的caretStack函数把多个机器学习模型融合成一个模型、构建融合(集成)预测模型、使用融合模型进行预测推理
  2. 边缘计算 — 与 CDN
  3. TensorFlow模型持久化
  4. 使用yum命令安装mysql_Linux Centos 下使用yum 命令安装mysql实现步骤
  5. servlet中文乱码_Servlet入门 信息过滤
  6. ASP.NET Core部署到CentOS7,使用Nginx代理
  7. 作业 3 应用分支与循环结构解决问题 计算分段函数的值
  8. Flutter高性能,线程安全,App开发的未来
  9. (转)驱动开发之五 --- TDI之八 【译文】
  10. 读JavaScript高级程序设计感受
  11. Python爬虫:使用Appium在移动端抓取微博数据
  12. Spring-全面详解(学习总结)
  13. 完整版《贴心萌宝荒唐爹》小说全文阅读
  14. 大学概率论终极复习攻略
  15. 概率论-小记录(矩估计)
  16. csp怎么给线条描边,插画师要失业了?还在纠结阴影怎么画?CSP软件能直接自动生成...
  17. 蚂蚁森林师生执念种上万棵树
  18. 微信小程序内添加腾讯地图 导航
  19. java websocket广播_使用 Spring 对 Websocket 进行简单的消息广播和单播
  20. 双目立体视觉测量零件的高度

热门文章

  1. centos 5开机出现PCI错误:Not using MMCONFIG
  2. keepalived漂移VIP故障
  3. tomcat构建及session保持
  4. 一个轻client,多语言支持,去中心化,自己主动负载,可扩展的实时数据写服务的实现方案讨论...
  5. Java loadlibrary分析及如何unload
  6. 开涛spring3(4.4) - 资源 之 4.4 Resource通配符路径
  7. ie6对postion:fixed的完美解决方案
  8. pgpool-II的master-slave模式的分析
  9. 程序防止多开的几种常见方法
  10. ul在Firefox和IE下的不同表现