1.在本地安装jdk环境和scala环境

2.读取本地文件:

scala> import scala.io.Source
import scala.io.Sourcescala> val lines=Source.fromFile("F:/ziyuan_badou/file.txt").getLines().toList
lines: List[String] = List("With the development of civilization, it is the chil
dren's duty to study in school since they were small. As the young kids, it is t
heir nature to hang out for fun. ", "", "While for them, most of the time have b
een limited in the class. So they feel frustrated and don't have much passion tostudy. It is of great importance to develop ", "", "interest. The first thing i
s to broaden vision. The students can read travel books or watch tourist show, f
or anyone who cannot resist the charm of beautiful scenery ", "", and delicious
food. The second thing is taking the right attitude to exams. Never giving too m
uch pressure on getting high marks. The only thing we should do is to enjoy gain
ing knowledge.)

3.词频topN计算

scala> lines.map(x=>x.split(" ")).flatten.map(x=>(x,1)).groupBy(x=>x._1).map(x=>
(x._1,x._2.map(x=>x._2).sum)).toList.sortBy(x=>x._2).reverse

res0: List[(String, Int)] = List((the,7), (to,7), (is,6), (of,4), (The,4), (thin
g,3), (for,3), ("",3), (and,2), (much,2), (they,2), (it,2), (have,2), (in,2), (o
nly,1), (right,1), (show,,1), (exams.,1), (high,1), (since,1), (study,1), (study
.,1), (great,1), (we,1), (interest.,1), (develop,1), (As,1), (passion,1), (were,
1), (time,1), (them,,1), (children's,1), (development,1), (knowledge.,1), (It,1)
, (anyone,1), (Never,1), (nature,1), (enjoy,1), (first,1), (taking,1), (frustrat
ed,1), (books,1), (delicious,1), (So,1), (their,1), (resist,1), (should,1), (sma
ll.,1), (gaining,1), (While,1), (who,1), (on,1), (can,1), (been,1), (second,1),
(travel,1), (most,1), (scenery,1), (getting,1), (attitude,1), (cannot,1), (civil
ization,,1), (broaden,1), (out,1), (food.,1), (don't,1), (importance,1), (kid...

转载于:https://www.cnblogs.com/students/p/10992149.html

spark学习02天-scala读取文件,词频统计相关推荐

  1. Spark学习笔记[1]-scala环境安装与基本语法

    Spark学习笔记[1]-scala环境安装与基本语法   正所谓工欲善其事必先利其器,Spark的开发语言不是java而是scala,虽然都是运行于JVM,但是两门语言的基本特性还是有些不一样,这里 ...

  2. Apache Spark学习:利用Scala语言开发Spark应用程序

    Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可以阅读网络教程 A Scala Tutorial for Ja ...

  3. python学习笔记20(读取文件内容)

    1.一次性读取文件全部内容(读取的文件milktea和main.py在同一目录的情况) ''' 读取与main.py同一目录的文件milktea.txt文件里面的内容 利用open()函数打开文件,返 ...

  4. Python学习心得(一):词频统计,自顶向下设计

    今天编的这个小程序是哈姆雷特中的词频统计,即统计哈姆雷特中各个词语出现的频率.我第一次尝试了使用自顶向下的设计方法和自下向上的执行方法.期间出现了很多错误,在此记录,以免日后再犯. 编程前截取网上Ha ...

  5. Flink学习笔记01:初探Flink - 词频统计

    文章目录 一.Flink概述 (一)Flink为何物 (二)访问Flink官网 (三)流处理的演变 (四)Flink计算框架 二.Flink快速上手 - 词频统计 (一)创建Maven项目 (二)添加 ...

  6. 大数据学习笔记10:MR案例——词频统计

    文章目录 一.词频统计设计思路 1.映射阶段(Map) 2.归并阶段(Reduce) (1)不用合并器(Combiner) (2)采用合并器(Combiner) 二.词频统计实现步骤 1.创建Mave ...

  7. [软件工程学习笔记]个人java小程序---词频统计(二)

    今天上午的软件工程课讲到了写程序时做单元测试和代码规范的重要性,反观自己每次被程序搞得焦头烂额也是因为这方面习惯不好的原因,等闲暇时再写一篇这方面的文章. 另外,对前一篇博文中的代码也并不是很满意,想 ...

  8. Scala 读取文件

    import scala.io.Source val inputFile = Source.fromFile("output.txt") val lines = inputFile ...

  9. dataframe scala 修改值_【Spark学习笔记】 Scala DataFrame操作大全

    1.创建DataFrame 本文所使用的DataFrame是通过读取mysql数据库获得的,代码如下: val spark = SparkSession .builder() .appName(&qu ...

最新文章

  1. C#中方法参数的四种类型
  2. MyBatis 实践 -配置
  3. Linux怎么对当前目录提权,linux提权方法(不断总结更新)
  4. DSP学习 -- 软件开机自启动
  5. 花信年华--You're gonna love who you turn out to be
  6. SIGIR 2021|用于搜索多样化的意图图建模
  7. Android-Universal-Image-Loader学习笔记(3)--内存缓存
  8. ant design vue 树形控件_官宣!vue.ant.design 低调上线
  9. html清除div浮动,HTML_清除浮动的最优方法:CSS,在CSS森林群里讨论一个margin的 - phpStudy...
  10. 仿iOS Segmented Control样式
  11. 在Covid-19期间测量社交距离
  12. java mp4转码 h264_mp4格式的视频,编码方式mpeg4,转化为h264
  13. 单片机数码管显示原理
  14. 华为笔记本linux版电脑管家,一键全解决 华为MateBook电脑管家让您告别电脑烦恼...
  15. 数据可视化:推荐6个数据可视化工具软件平台
  16. 解决vue中双击事件会触发两次单击事件问题
  17. 什么叫计算机硬件特征码,如何检测电脑的硬件特征码信息(主板、CPU、硬盘)...
  18. 教你游泳【附动画组图】
  19. 安卓虚拟键盘_安卓这些年变化多惊人?那些老玩家才懂的回忆
  20. js简单分页,只有上一页和下一页

热门文章

  1. 【C语言】之实现闰年判断
  2. Mac上锁屏的快捷键设置
  3. LeetCode(Python实现)——Easy部分【Day2】
  4. windows 10 build 10074 内部预览版 连不上windows update
  5. 传统行业如何“玩”大数据?
  6. oracle 客户端与服务器端的关系
  7. 简析穷举算法,及其简单应用
  8. Qt之应用部署(Windows)
  9. 顶点计划:996问题讨论
  10. oracle变成大写快捷键,Oracle函数(把每个单词首个字母变为大写)