第一步 先准备环境

1,IDEA 安装的SDK是2.13.8版本
2,新建maven项目,依赖如下

  <dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.13</artifactId><version>3.3.0</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.13</artifactId><version>3.3.0</version><!--      <scope>provided</scope>--></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.13</artifactId><version>3.3.0</version><scope>provided</scope></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-mllib --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-mllib_2.13</artifactId><version>3.3.0</version><scope>provided</scope></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-hive --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-hive_2.13</artifactId><version>3.3.0</version><scope>provided</scope></dependency>

案例一

对spark1.txt文件进行筛选,将A或者包含A的字母筛选出来并统计个数,然后输出到dome1文件中。
数据如下

id   编号  内容
A   B   C
AB  A   B
C   A   B
AB  AB  AB

代码如下

def main(args: Array[String]): Unit = {var sparkConf = new SparkConf().setAppName("demo1").setMaster("local")var sc = new SparkContext(sparkConf)var filepath = "data/spark1.txt"//获取第一行var fileFirst = sc.textFile(filepath).first()sc.textFile(filepath).filter(!_.equals(fileFirst)).flatMap(_.split("\t")).filter(_.contains("A")).map((_,1)).reduceByKey(_+_).saveAsTextFile("data/demo1")}

结果如下图

案例二

对spark2文件进行筛选,去除掉第一行数据然后统计各同学的高考总分数和平均分然后输出保存到dome2文件中。
保存格式(样例)间隔符是\t
数据

姓名   语文  数学  英语  理综
张三  90  89  100 120
李四  78  89  100 23
王美美 90  78  100 120

代码如下

def main(args: Array[String]): Unit = {var sparkConf = new SparkConf().setAppName("demo2").setMaster("local")var sc = new SparkContext(sparkConf)var filepath = "data/spark2.txt"var fileFirst = sc.textFile(filepath).first()sc.textFile(filepath).filter(!_.equals(fileFirst)).map(line=>{var arr = line.split("\t")var name = arr(0)var yw = arr(1).toIntvar sx = arr(2).toIntvar english = arr(3).toIntvar lz = arr(4).toInt//输出name+"\t"+(yw+sx+english+lz)+"\t"+(yw+sx+english+lz)/4}).saveAsTextFile("data/demo2")}

结果如下

案例三

读取move.csv文件,把第一行的文件头去除,将电影名,时长,评分,上映时间四个字段中有空值的数据给去除掉,然后打印出去除的数据条数,并且将数据保存到dome3文件中

保存格式:
数据如下

电影名,时长,评分,上映时间
放牛班的春天,97,8.9,2004-10-16
大话西游之月光宝盒,87,8.9,2014-10-24
闻香识女人,157,8.9,1992-12-23
风之谷,117,8.9,
三傻大闹宝莱坞,171,8.9,2011-12-08
末代皇帝,163,8.9,1987-10-23
勇敢的心,177,8.9,1995-05-18
黑客帝国3:矩阵革命,129,8.8,2003-11-05
飞屋环游记,96,8.8,2009-08-04
驯龙高手,98,8.8,2010-05-14
蝙蝠侠:黑暗骑士,152,9.0,2008-07-14
指环王1:护戒使者,178,9.0,2002-04-04
活着,132,9.0,1994-05-17
拯救大兵瑞恩,169,8.9,1998-11-13
指环王2:双塔奇兵,179,9.0,2003-04-25
忠犬八公的故事,93,8.9,2009-06-13
射雕英雄传之东成西就,113,9.0,1993-02-05
美国往事,229,8.8,2015-04-23
狮子王,89,9.0,1995-07-15
教父2,202,9.0,1974-12-12
楚门的世界,103,9.0,
喜剧之王,85,9.5,1999-02-13
魂断蓝桥,108,9.5,1940-05-17
辛德勒的名单,195,9.5,1993-11-30
速度与激情5,130,8.9,2011-05-12
音乐之声,174,9.0,1965-03-02
天堂电影院,155,9.0,1988-11-17
天空之城,125,9.0,1992-05-01
大闹天宫,114,9.0,1965-12-31
机器人总动员,98,9.0,2008-06-27
加勒比海盗,143,9.0,2003-11-21
剪刀手爱德华,105,9.0,1990-12-06
黑客帝国,136,9.0,2000-01-14
完美的世界,138,8.8,1993-11-24
指环王3:王者无敌,201,9.0,2004-03-15
乱世佳人,238,9.5,1939-12-15
泰坦尼克号,194,9.5,1998-04-03
无间道,101,9.0,2003-09-05
哈利·波特与魔法石,152,9.0,2002-01-26
肖申克的救赎,142,9.5,1994-09-10
楚门的世界,103,9.0,
霸王别姬,171,9.5,1993-07-26
唐伯虎点秋香,102,9.5,1993-07-01
喜剧之王,85,9.5,1999-02-13
狮子王,89,9.0,1995-07-15
乱世佳人,238,9.5,1939-12-15
泰坦尼克号,194,9.5,1998-04-03
罗马假日,118,9.5,1953-08-20
这个杀手不太冷,110,9.5,1994-09-14
唐伯虎点秋香,102,9.5,1993-07-01
七武士,207,8.8,1954-04-26
龙猫,86,9.1,2018-12-14
这个杀手不太冷,110,9.5,1994-09-14
阿飞正传,94,9.1,2018-06-25
罗马假日,118,9.5,1953-08-20
7号房的礼物,127,8.8,2013-01-23
肖申克的救赎,142,9.5,1994-09-10
海洋,104,9.1,2011-08-12
春光乍泄,96,9.0,1997-05-17
黄金三镖客,161,9.1,1966-12-23
阿凡达,162,8.9,2010-01-04
十二怒汉,96,8.9,1957-04-13
搏击俱乐部,139,8.9,1999-09-10
当幸福来敲门,117,8.9,2008-01-17
怦然心动,90,8.8,2010-07-26
我爱你,118,9.1,2011-02-17
断背山,134,8.8,2005-09-02
无敌破坏王,101,8.8,2012-11-06
爱·回家,80,9.1,2002-04-05
鬼子来了,139,8.8,2000-05-13
哈尔的移动城堡,119,8.9,2004-09-05
盗梦空间,148,8.9,2010-09-01
甜蜜蜜,118,8.9,2015-02-13
幽灵公主,134,8.9,1998-05-01
哈利·波特与死亡圣器(下),130,8.9,2011-08-04
时空恋旅人,123,8.8,2013-09-04
教父,175,8.8,2015-04-18
窃听风暴,137,8.8,2006-03-23
穿条纹睡衣的男孩,94,8.8,2008-08-28
恐怖直播,97,8.8,2013-07-31
海豚湾,92,8.8,2009-07-31
上帝之城,130,8.8,
辩护人,127,8.8,2013-12-18
英雄本色,95,8.8,2017-11-17
致命魔术,130,8.8,2006-10-17
霸王别姬,171,9.5,1993-07-26
迁徙的鸟,98,9.1,2001-12-12
美丽人生,116,9.1,2020-01-03
疯狂原始人,98,8.9,2013-04-20
初恋这件小事,118,8.9,2012-06-05
借东西的小人阿莉埃蒂,94,8.8,2010-07-17
神偷奶爸,95,8.8,2010-06-20
少年派的奇幻漂流,127,8.9,2012-11-22
V字仇杀队,132,8.9,2005-12-11
蝙蝠侠:黑暗骑士崛起,165,8.9,2012-08-27
海上钢琴师,126,9.1,2019-11-15
千与千寻,125,9.1,2019-06-21
忠犬八公物语,107,8.8,1987-08-01
美丽心灵,135,8.8,2001-12-13
,173,8.8,2000-05-15

代码如下

def main(args: Array[String]): Unit = {var sparkConf = new SparkConf().setAppName("demo3").setMaster("local")var sc = new SparkContext(sparkConf)var filepath = "data/move.csv"//获取第一行var fileFirst = sc.textFile(filepath).first()//定义累加计算器var longAccum = sc.longAccumulator("count")sc.textFile(filepath).filter(!_.equals(fileFirst)).filter(line=>{var arr = line.split(",")if(arr.length==4){for(i <- arr){if (i==""){longAccum.add(1)false}else{true}}true}else{longAccum.add(1)false}}).saveAsTextFile("data/demo3")println("总共去除了:"+longAccum.value)}

案例4

对film_log1.csv文件进行重复值处理,并且打印出去掉的条数,然后保存到film_log2中

数据如下

《冲上云霄》;2015.2.19;2015.3.29;寰亚电影制作有限公司;叶伟信,邹凯光;古天乐,郑秀文,吴镇宇,张智霖,佘诗曼,郭采洁;剧情,爱情;票房(万)1563.3;北京
《百团大战》;2015.8.28;2015.10.11;八一电影制片厂;中国电影股份有限公司;北京紫禁城影业公司;宁海强,张玉中;陶泽如,刘之冰,印小天,吴越,唐国强,王伍福;战争/历史;票房(万)4137.3;天津
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;广州
《简单爱》;2015.7.3;2015.7.19;中视合利(北京)文化投资有限公司一鸣影业公司(美国);崔龄燕;许绍洋,张琳,谢雨芩,石铭熙;都市浪漫爱情喜剧;票房(万)232.7;成都
《一念天堂》;2015.12.31;2016.2.13;天河盛宴,凯德盛世(北京)投资管理有限公司,和云筹(北京)网络科技有限公司;张承;沈腾,马丽,林雪,杜晓宇,王子子,李元鹏;喜剧;票房(万)829.5;沈阳
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;上海
《百团大战》;2015.8.28;2015.10.11;八一电影制片厂;中国电影股份有限公司;北京紫禁城影业公司;宁海强,张玉中;陶泽如,刘之冰,印小天,吴越,唐国强,王伍福;战争/历史;票房(万)4137.3;济南
《紫霞》;2015.12.11;2015.12.27;映代码公司;苗述;徐洁儿,袁晓超,刘承俊,洪天照,刘永健,谭赫,肖红,金晶,谢沅江;爱情,奇幻;票房(万)4.1;济南
《一路惊喜》;2015.2.6;2015.3.8;万达影视传媒有限公司;金依萌/潘安子/章家瑞/宋迪;郭采洁,萧敬腾,赵丽颖,凤小岳,夏雨,梅婷,蓝燕,林家栋,张译,大鹏,蒋劲夫,孙艺洲,张辛苑,阚清子,刘维,乔杉;喜剧/爱情/家庭;票房(万)974.6;沈阳
《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三源;刘德华,井柏然,梁家辉,吴君如;剧情、社会;票房(万)2167.9;北京
《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、引力影视投资、重庆电影集团;王小帅;吕中,秦海璐,冯远征,秦昊,石榴;剧情、犯罪;票房(万)103.6;成都
《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三源;刘德华,井柏然,梁家辉,吴君如;剧情、社会;票房(万)2167.9;福州
《简单爱》;2015.7.3;2015.7.19;中视合利(北京)文化投资有限公司一鸣影业公司(美国);崔龄燕;许绍洋,张琳,谢雨芩,石铭熙;都市浪漫爱情喜剧;票房(万)232.7;广州
《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒(北京)有限公司、北京盛唐时代文化传播有限公司;彭发;马浴柯,吴昕,潘粤明,王景春,莫小棋,朱雨辰,洪天明,陈国坤,刘颖仪;悬疑,惊悚;票房(万)34.1;沈阳
《冲上云霄》;2015.2.19;2015.3.29;寰亚电影制作有限公司;叶伟信,邹凯光;古天乐,郑秀文,吴镇宇,张智霖,佘诗曼,郭采洁;剧情,爱情;票房(万)1563.3;沈阳
《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三源;刘德华,井柏然,梁家辉,吴君如;剧情、社会;票房(万)2167.9;武汉
《坏蛋必须死》;2015.11.27;2015.12.20;北京新力量、华谊兄弟、南京大道行知;孙皓;陈柏霖,孙艺珍,乔振宇,申贤俊,张光,杨旭文,丁文博,朴哲民;喜剧,悬疑,旅行,爱情;票房(万)405.4;长沙
《百团大战》;2015.8.28;2015.10.11;八一电影制片厂;中国电影股份有限公司;北京紫禁城影业公司;宁海强,张玉中;陶泽如,刘之冰,印小天,吴越,唐国强,王伍福;战争/历史;票房(万)4137.3;成都
《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联瑞影业;李玉;范冰冰,韩庚,沙溢,吴莫愁,杨迪,齐溪,张博宇,沈婷婷,李梦,雷恪生,吕行;爱情、剧情、校园、喜剧;票房(万)1431.8;长沙
《紫霞》;2015.12.11;2015.12.27;映代码公司;苗述;徐洁儿,袁晓超,刘承俊,洪天照,刘永健,谭赫,肖红,金晶,谢沅江;爱情,奇幻;票房(万)4.1;长沙
《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏,窦骁,崔始源,王珞丹,陈家乐,欧阳娜娜,连凯;剧情、运动、爱情;票房(万)1429.1;福州
《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒(北京)有限公司、北京盛唐时代文化传播有限公司;彭发;马浴柯,吴昕,潘粤明,王景春,莫小棋,朱雨辰,洪天明,陈国坤,刘颖仪;悬疑,惊悚;票房(万)34.1;广州
《最美的时候遇见你》;2015.12.11;2015.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;北京
《将错就错》;2015.3.5;2015.3.29;中国电影股份有限公司等;王宁;小沈阳,田亮,陈小春,熊黛林;爱情、喜剧;票房(万)397.4;上海
《最美的时候遇见你》;2015.12.11;2015.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;沈阳
《少年班》;2015.6.19;2015.7.19;工夫影业;华谊兄弟;肖洋;孙红雷,周冬雨,董子健,王栎鑫,李佳奇,夏天,王森;青春、校园、喜剧;票房(万)506.7;成都
《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业(北京)有限公司、太阳娱乐文化有限公司、无限动力实业有限公司;叶念琛;方力申,邓丽欣;爱情、剧情;票房(万)173.2;福州
《既然青春留不住》;2015.10.23;2015.11.22;杭州和润影视有限公司;田蒙;张翰,陈乔恩,王啸坤,施予斐,贾盛强,廖娟;喜剧、爱情;票房(万)500.3;上海
《前任2:备胎反击战》;2015.11.6;2015.12.20;华谊兄弟传媒股份有限公司、新圣堂影业;田羽生;郑恺,郭采洁,张艺兴,王传君;爱情,喜剧;票房(万)2200.2;广州
《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联瑞影业;李玉;范冰冰,韩庚,沙溢,吴莫愁,杨迪,齐溪,张博宇,沈婷婷,李梦,雷恪生,吕行;爱情、剧情、校园、喜剧;票房(万)1431.8;广州
《百团大战》;2015.8.28;2015.10.11;八一电影制片厂;华谊兄弟传媒股份有限公司;中国电影股份有限公司;北京紫禁城影业公司;宁海强,张玉中;陶泽如,刘之冰,印小天,吴越,唐国强,王伍福;战争/历史;票房(万)4137.3;济南
《简单爱》;2015.7.3;2015.7.19;中视合利(北京)文化投资有限公司一鸣影业公司(美国);崔龄燕;许绍洋,张琳,谢雨芩,石铭熙;都市浪漫爱情喜剧;票房(万)232.7;武汉
《一路惊喜》;2015.2.6;2015.3.8;万达影视传媒有限公司;金依萌/潘安子/章家瑞/宋迪;郭采洁,萧敬腾,赵丽颖,凤小岳,夏雨,梅婷,蓝燕,林家栋,张译,大鹏,蒋劲夫,孙艺洲,张辛苑,阚清子,刘维,乔杉;喜剧/爱情/家庭;票房(万)974.6;济南
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;天津
《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏,窦骁,崔始源,王珞丹,陈家乐,欧阳娜娜,连凯;剧情、运动、爱情;票房(万)1429.1;沈阳
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;长沙
《冲上云霄》;2015.2.19;2015.3.29;寰亚电影制作有限公司;叶伟信,邹凯光;古天乐,郑秀文,吴镇宇,张智霖,佘诗曼,郭采洁;剧情,爱情;票房(万)1563.3;天津
《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、引力影视投资、重庆电影集团;王小帅;吕中,秦海璐,冯远征,秦昊,石榴;剧情、犯罪;票房(万)103.6;沈阳
《将错就错》;2015.3.5;2015.3.29;中国电影股份有限公司等;王宁;小沈阳,田亮,陈小春,熊黛林;爱情、喜剧;票房(万)397.4;武汉
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;上海
《简单爱》;2015.7.3;2015.7.19;中视合利(北京)文化投资有限公司一鸣影业公司(美国);崔龄燕;许绍洋,张琳,谢雨芩,石铭熙;都市浪漫爱情喜剧;票房(万)232.7;长沙
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;上海
《最美的时候遇见你》;2015.12.11;2015.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;沈阳
《将错就错》;2015.3.5;2015.3.29;中国电影股份有限公司等;王宁;小沈阳,田亮,陈小春,熊黛林;爱情、喜剧;票房(万)397.4;长沙
《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒(北京)有限公司、北京盛唐时代文化传播有限公司;彭发;马浴柯,吴昕,潘粤明,王景春,莫小棋,朱雨辰,洪天明,陈国坤,刘颖仪;悬疑,惊悚;票房(万)34.1;长沙
《紫霞》;2015.12.11;2015.12.27;映代码公司;苗述;徐洁儿,袁晓超,刘承俊,洪天照,刘永健,谭赫,肖红,金晶,谢沅江;爱情,奇幻;票房(万)4.1;北京
《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三源;刘德华,井柏然,梁家辉,吴君如;剧情、社会;票房(万)2167.9;福州
《最美的时候遇见你》;2015.12.11;2015.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;长沙
《爱情魔发师》;2015.7.17;2015.8.2;北京仁和博纳文化传媒有限公司;倾海;游游,张燃,朱咪咪,黄一飞,崔浩博,王子轩;喜剧 / 爱情;票房(万)2.3;上海
《一念天堂》;2015.12.31;2016.2.13;天河盛宴,凯德盛世(北京)投资管理有限公司,和云筹(北京)网络科技有限公司;张承;沈腾,马丽,林雪,杜晓宇,王子子,李元鹏;喜剧;票房(万)829.5;天津
《天将雄师》;2015.2.19;2015.4.6;耀莱文化,华谊兄弟,上海电影集团;李仁港;成龙,约翰·库萨克,阿德里安·布劳迪,崔始源 ,林鹏,王若心,筷子兄弟,西蒙子,冯绍峰,朱佳煜;动作,古装,剧情,历史;票房(万)7443.2;成都
《最美的时候遇见你》;2015.12.11;2015.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;北京
《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联瑞影业;李玉;范冰冰,韩庚,沙溢,吴莫愁,杨迪,齐溪,张博宇,沈婷婷,李梦,雷恪生,吕行;爱情、剧情、校园、喜剧;票房(万)1431.8;成都
《将错就错》;2015.3.5;2015.3.29;中国电影股份有限公司等;王宁;小沈阳,田亮,陈小春,熊黛林;爱情、喜剧;票房(万)397.4;广州
《天将雄师》;2015.2.19;2015.4.6;耀莱文化,华谊兄弟,上海电影集团;李仁港;成龙,约翰·库萨克,阿德里安·布劳迪,崔始源 ,林鹏,王若心,筷子兄弟,西蒙子,冯绍峰,朱佳煜;动作,古装,剧情,历史;票房(万)7443.2;成都
《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、引力影视投资、重庆电影集团;王小帅;吕中,秦海璐,冯远征,秦昊,石榴;剧情、犯罪;票房(万)103.6;长沙
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;天津
《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏,窦骁,崔始源,王珞丹,陈家乐,欧阳娜娜,连凯;剧情、运动、爱情;票房(万)1429.1;福州
《既然青春留不住》;2015.10.23;2015.11.22;杭州和润影视有限公司;田蒙;张翰,陈乔恩,王啸坤,施予斐,贾盛强,廖娟;喜剧、爱情;票房(万)500.3;天津
《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业(北京)有限公司、太阳娱乐文化有限公司、无限动力实业有限公司;叶念琛;方力申,邓丽欣;爱情、剧情;票房(万)173.2;福州
《怦然星动》;2015.12.3;2016.1.10;欢瑞世纪,嘉行传媒,青春光线;陈国辉;杨幂,李易峰,陈数,王耀庆,迪丽热巴,张云龙;都市,爱情,喜剧;票房(万)1593.9;沈阳
《一路惊喜》;2015.2.6;2015.3.8;万达影视传媒有限公司;金依萌/潘安子/章家瑞/宋迪;郭采洁,萧敬腾,赵丽颖,凤小岳,夏雨,梅婷,蓝燕,林家栋,张译,大鹏,蒋劲夫,孙艺洲,张辛苑,阚清子,刘维,乔杉;喜剧/爱情/家庭;票房(万)974.6;济南
《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒(北京)有限公司、北京盛唐时代文化传播有限公司;彭发;马浴柯,吴昕,潘粤明,王景春,莫小棋,朱雨辰,洪天明,陈国坤,刘颖仪;悬疑,惊悚;票房(万)34.1;成都
《冲上云霄》;2015.2.19;2015.3.29;寰亚电影制作有限公司;叶伟信,邹凯光;古天乐,郑秀文,吴镇宇,张智霖,佘诗曼,郭采洁;剧情,爱情;票房(万)1563.3;成都
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;北京
《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三源;刘德华,井柏然,梁家辉,吴君如;剧情、社会;票房(万)2167.9;沈阳
《少年班》;2015.6.19;2015.7.19;工夫影业;华谊兄弟;肖洋;孙红雷,周冬雨,董子健,王栎鑫,李佳奇,夏天,王森;青春、校园、喜剧;票房(万)506.7;武汉
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;天津
《冲上云霄》;2015.2.19;2015.3.29;寰亚电影制作有限公司;叶伟信,邹凯光;古天乐,郑秀文,吴镇宇,张智霖,佘诗曼,郭采洁;剧情,爱情;票房(万)1563.3;长沙
《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联瑞影业;李玉;范冰冰,韩庚,沙溢,吴莫愁,杨迪,齐溪,张博宇,沈婷婷,李梦,雷恪生,吕行;爱情、剧情、校园、喜剧;票房(万)1431.8;天津
《一念天堂》;2015.12.31;2016.2.13;天河盛宴,凯德盛世(北京)投资管理有限公司,和云筹(北京)网络科技有限公司;张承;沈腾,马丽,林雪,杜晓宇,王子子,李元鹏;喜剧;票房(万)829.5;成都
《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影业有限公司;邓超、俞白眉;邓超,孙俪,梁超,代乐乐;喜剧/荒诞/爱情;票房(万)6495.0;福州
《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、引力影视投资、重庆电影集团;王小帅;吕中,秦海璐,冯远征,秦昊,石榴;剧情、犯罪;票房(万)103.6;天津
《前任2:备胎反击战》;2015.11.6;2015.12.20;华谊兄弟传媒股份有限公司、新圣堂影业;田羽生;郑恺,郭采洁,张艺兴,王传君;爱情,喜剧;票房(万)2200.2;上海
《天将雄师》;2015.2.19;2015.4.6;耀莱文化,华谊兄弟,上海电影集团;李仁港;成龙,约翰·库萨克,阿德里安·布劳迪,崔始源 ,林鹏,王若心,筷子兄弟,西蒙子,冯绍峰,朱佳煜;动作,古装,剧情,历史;票房(万)7443.2;长沙
《一路惊喜》;2015.2.6;2015.3.8;万达影视传媒有限公司;金依萌/潘安子/章家瑞/宋迪;郭采洁,萧敬腾,赵丽颖,凤小岳,夏雨,梅婷,蓝燕,林家栋,张译,大鹏,蒋劲夫,孙艺洲,张辛苑,阚清子,刘维,乔杉;喜剧/爱情/家庭;票房(万)974.6;北京
《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影业有限公司;邓超、俞白眉;邓超,孙俪,梁超,代乐乐;喜剧/荒诞/爱情;票房(万)6495.0;沈阳
《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、引力影视投资、重庆电影集团;王小帅;吕中,秦海璐,冯远征,秦昊,石榴;剧情、犯罪;票房(万)103.6;广州
《前任2:备胎反击战》;2015.11.6;2015.12.20;华谊兄弟传媒股份有限公司、新圣堂影业;田羽生;郑恺,郭采洁,张艺兴,王传君;爱情,喜剧;票房(万)2200.2;天津
《少年班》;2015.6.19;2015.7.19;工夫影业;华谊兄弟;肖洋;孙红雷,周冬雨,董子健,王栎鑫,李佳奇,夏天,王森;青春、校园、喜剧;票房(万)506.7;成都
《紫霞》;2015.12.11;2015.12.27;映代码公司;苗述;徐洁儿,袁晓超,刘承俊,洪天照,刘永健,谭赫,肖红,金晶,谢沅江;爱情,奇幻;票房(万)4.1;天津
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;广州
《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联瑞影业;李玉;范冰冰,韩庚,沙溢,吴莫愁,杨迪,齐溪,张博宇,沈婷婷,李梦,雷恪生,吕行;爱情、剧情、校园、喜剧;票房(万)1431.8;济南
《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏,窦骁,崔始源,王珞丹,陈家乐,欧阳娜娜,连凯;剧情、运动、爱情;票房(万)1429.1;福州
《爱情魔发师》;2015.7.17;2015.8.2;北京仁和博纳文化传媒有限公司;倾海;游游,张燃,朱咪咪,黄一飞,崔浩博,王子轩;喜剧 / 爱情;票房(万)2.3;北京
《简单爱》;2015.7.3;2015.7.19;中视合利(北京)文化投资有限公司一鸣影业公司(美国);崔龄燕;许绍洋,张琳,谢雨芩,石铭熙;都市浪漫爱情喜剧;票房(万)232.7;成都
《既然青春留不住》;2015.10.23;2015.11.22;杭州和润影视有限公司;田蒙;张翰,陈乔恩,王啸坤,施予斐,贾盛强,廖娟;喜剧、爱情;票房(万)500.3;济南
《少年班》;2015.6.19;2015.7.19;工夫影业;华谊兄弟;肖洋;孙红雷,周冬雨,董子健,王栎鑫,李佳奇,夏天,王森;青春、校园、喜剧;票房(万)506.7;成都
《最美的时候遇见你》;2015.12.11;2014.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;长沙
《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业(北京)有限公司、太阳娱乐文化有限公司、无限动力实业有限公司;叶念琛;方力申,邓丽欣;爱情、剧情;票房(万)173.2;济南
《将错就错》;2015.3.5;2015.3.29;中国电影股份有限公司等;王宁;小沈阳,田亮,陈小春,熊黛林;爱情、喜剧;票房(万)397.4;武汉
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;成都
《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏,窦骁,崔始源,王珞丹,陈家乐,欧阳娜娜,连凯;剧情、运动、爱情;票房(万)1429.1;北京
《紫霞》;2015.12.11;2015.12.27;映代码公司;苗述;徐洁儿,袁晓超,刘承俊,洪天照,刘永健,谭赫,肖红,金晶,谢沅江;爱情,奇幻;票房(万)4.1;沈阳
《爱情魔发师》;2015.7.17;2015.8.2;北京仁和博纳文化传媒有限公司;倾海;游游,张燃,朱咪咪,黄一飞,崔浩博,王子轩;喜剧 / 爱情;票房(万)2.3;沈阳
《怦然星动》;2015.12.3;2016.1.10;欢瑞世纪,嘉行传媒,青春光线;陈国辉;杨幂,李易峰,陈数,王耀庆,迪丽热巴,张云龙;都市,爱情,喜剧;票房(万)1593.9;福州
《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业(北京)有限公司、太阳娱乐文化有限公司、无限动力实业有限公司;叶念琛;方力申,邓丽欣;爱情、剧情;票房(万)173.2;沈阳
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;广州
《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业(北京)有限公司、太阳娱乐文化有限公司、无限动力实业有限公司;叶念琛;方力申,邓丽欣;爱情、剧情;票房(万)173.2;天津
《一念天堂》;2015.12.31;2016.2.13;天河盛宴,凯德盛世(北京)投资管理有限公司,和云筹(北京)网络科技有限公司;张承;沈腾,马丽,林雪,杜晓宇,王子子,李元鹏;喜剧;票房(万)829.5;福州

代码如下

def main(args: Array[String]): Unit = {var sparkConf = new SparkConf().setAppName("demo4").setMaster("local")var sc = new SparkContext(sparkConf)var filepath = "data/film_log1.csv"//获取总条目数var move_count = sc.textFile(filepath).map((_,1)).reduceByKey(_+_).count()//求总数量var move_sum = sc.textFile(filepath).map((_,1)).reduceByKey(_+_).map(x=>x._2).sum()//保存数据sc.textFile(filepath).map((_,1)).reduceByKey(_+_).map(x=>x._1).saveAsTextFile("data/demo4")println("总共重复的数量有p:"+(move_sum-move_count))}

案例5

在film_log2文件基础上,进行缺失值处理,将没有导演的信息用"无"填充,并且打印出共填充多少条数据,然后保存到film_log3中
代码如下

def main(args: Array[String]): Unit = {var sparkConf = new SparkConf().setAppName("demo5").setMaster("local")var sc = new SparkContext(sparkConf)var filepath = "data/film_log1.csv"var  longAccum = sc.longAccumulator("count")sc.textFile(filepath).map(line=>{var arr = line.split(";")if (arr(4)==""){arr(4)="无"var str=""for (i <- arr){str+=i+";"}str=str.substring(0,str.length-1)longAccum.add(1)str}else{line}}).saveAsTextFile("data/demo5")println("总共填充了:"+longAccum.value)}

案例6

在film_log3的基础上将日期格式统一改为yyyy-MM-dd格式,然后保存到film_log4中
def main(args: Array[String]): Unit = {var sparkConf = new SparkConf().setAppName("demo6").setMaster("local")var sc = new SparkContext(sparkConf)var filepath = "data/film_log1.csv"sc.textFile(filepath).map(line=>{var arr = line.split(";")arr(1)=arr(1).replace(".","-")arr(2)=arr(2).replace(".","-")var str = ""for (i <- arr){str+=i+";"}str=str.substring(0,str.length-1)//输出str}).saveAsTextFile("data/demo6")}

spark练习案例(升级版)相关推荐

  1. Mybatis案例升级版——小案例大道理

    纯Mybatis案例升级版--小案例大道理 前言: 这几天看了一本书<原则>,在上面看到了一句话叫"每个人都把自己眼界的局限当成世界的局限",大学生是?,大学就是鱼缸, ...

  2. 从原理到策略算法再到架构产品看推荐系统 | 附Spark实践案例

    原文链接:mp.weixin.qq.com  作者 | HCY崇远 01 前言 本文源自于前阵子连续更新的推荐系统系列,前段时间给朋友整理一个关于推荐系统相关的知识教学体系,刚好自身业务中,预计明年初 ...

  3. Spark RDD案例(五)经纬度转换为地理位置

    Spark RDD案例(五)经纬度转换为地理位置 1. 背景 Spark作为大数据分析引擎,本身可以做离线和准实时数据处理 Spark抽象出的操作对象如RDD.dataSet.dataFrame.DS ...

  4. 大数据Spark入门案例5–统计广告点击数量排行Top3(scala版本)

    大数据Spark入门案例5–统计每广告点击数量排行Top3(scala版本) 1 数据准备 链接:https://pan.baidu.com/s/1afzmL-hNsAJl1_gx_dH2ag 提取码 ...

  5. Apache Spark+PyTorch 案例实战

    Apache Spark+PyTorch 案例实战  随着数据量和复杂性的不断增长,深度学习是提供大数据预测分析解决方案的理想方法,需要增加计算处理能力和更先进的图形处理器.通过深度学习,能够利用非结 ...

  6. Spark商业案例与性能调优实战100课》第16课:商业案例之NBA篮球运动员大数据分析系统架构和实现思路

    Spark商业案例与性能调优实战100课>第16课:商业案例之NBA篮球运动员大数据分析系统架构和实现思路 http://www.basketball-reference.com/leagues ...

  7. Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析

    Spark商业案例与性能调优实战100课>第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析 package com.dt.spark.coresimport org.apa ...

  8. 《Spark商业案例与性能调优实战100课》第17课:商业案例之NBA篮球运动员大数据分析系统代码实战

    <<<Spark商业案例与性能调优实战100课>第17课:商业案例之NBA篮球运动员大数据分析系统代码实战

  9. 《Spark商业案例与性能调优实战100课》第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写

    <Spark商业案例与性能调优实战100课>第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写

  10. 《Spark商业案例与性能调优实战100课》第15课:商业案例之纯粹通过DataSet进行电商交互式分析系统中各种类型TopN分析实战详解

    <Spark商业案例与性能调优实战100课>第15课:商业案例之纯粹通过DataSet进行电商交互式分析系统中各种类型TopN分析实战详解

最新文章

  1. electron.js_在使用Electron.js之前我希望知道的事情
  2. 面试官:哥们,你们的系统架构中为什么要引入消息中间件?
  3. flowable画图教程_flowable画图教程_Flowable 学习笔记
  4. Linux下触摸屏驱动程序分析
  5. Python的locals()函数
  6. java IO(输入输出) 字符流
  7. python中字符移位加密_1.1 移位密码加密解密python实现
  8. Centos升级Python 2.7并安装pip、ipython
  9. MICROSOFT REPORT VIEWER 2012之无法加载相关的dll
  10. Tachyou alluxio初识
  11. 多分类问题的另一种处理策略——softmax回归
  12. 离散数学经典教材及资料(整理)
  13. java|jsp类成品展示_jsp学生诚信素质评价系统
  14. Android编码规范
  15. 如何更新google chrome浏览器
  16. android addr2line 用法,Android studio中NDK开发(四)——使用addr2line分析Crash日志
  17. 乐播投屏总是自动断开_乐播投屏- 投屏常见问题 投屏在线客服
  18. 学习笔记——游戏打击感
  19. 大疆2022 “拓疆者” 校园招聘
  20. Maven 指定 Java 编译版本

热门文章

  1. 大学计算机网络实训目的,计算机专业大学生毕业实习目的
  2. 金盾加密视频提取,真实机器码在这里
  3. 查看linux系统版本命令
  4. 昂达v891w可以用u盘linux,安卓、Win8随便用 昂达V891w双系统平板测试(转载)
  5. 2017年3月4月无人机航空摄影总结
  6. 单循环赛制php,告别东西部分组LPL实行常规赛单循环赛制
  7. 阿里巴巴普惠_阿里巴巴的普惠字体来了,再也不用担心版权问题了。
  8. QQ空间 自动点赞脚本
  9. [5-26]绿色精品软件每天更新[uc23整理]
  10. Java编程软件教学:Eclipse入门