【若泽大数据 元旦大礼包】
【若泽大数据 元旦大礼包】
一、Linux命令
文件夹 文件
文件夹:makdir mv cp
文件:vi vim touch用户
权限
chmod -777 XXX
网络
命令:
top df ps aux tail less date netstat
awk sed
awk:菜鸟教程awk
awk [选项参数] 'script' var=value file(s) 或 awk [选项参数] -f scriptfile var=value file(s)
-F fs or --field-separator fs 指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。 -v var=value or --asign var=value 赋值一个用户定义变量。 -f scripfile or --file scriptfile 从脚本文件中读取awk命令。 -mf nnn and -mr nnn 对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数 目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。 -W compact or --compat, -W traditional or --traditional 在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。 -W copyleft or --copyleft, -W copyright or --copyright 打印简短的版权信息。 -W help or --help, -W usage or --usage 打印全部awk选项和每个选项的简短说明。 -W lint or --lint 打印不能向传统unix平台移植的结构的警告。 -W lint-old or --lint-old 打印关于不能向传统unix平台移植的结构的警告。 -W posix 打开兼容模式。但有以下限制,不识别:/x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。 -W re-interval or --re-inerval 允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。 -W source program-text or --source program-text 使用program-text作为源代码,可与-f命令混用。 -W version or --version 打印bug报告信息的版本。
sed:菜鸟教程sed
sed [-hnV][-e<script>][-f<script文件>][文本文件]
-e<script>或--expression=<script> 以选项中指定的script来处理输入的文本文件。 -f<script文件>或--file=<script文件> 以选项中指定的script文件来处理输入的文本文件。 -h或--help 显示帮助。 -n或--quiet或--silent 仅显示script处理后的结果。 -V或--version 显示版本信息。
shell:wc emp.txt sum(salary)
判断文件是否存在,存在就echo,不存在就创建目录,求目录下(递归)scala文件(.scala)的个数if [ -f "$file"]; then echo $file else mkdir -p "$file" fi
二、Hadoop
伪分布式部署
1.1 相关配置文件
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
hadoop-env.sh
1.2 format
1.3 start:单进程启动 dfs/yarn all
1.4 验证
1.5著名的端口号
hdfs 50070
yarn 8088图解HDFS读写流程
YARN执行流程: AM
123
调度器 区别
4.1先进先出调度器(FIFO)
FIFO 调度器(First In First Out) :单队列,根据提交作业的先后顺序,先来先服务。
4.2容量调度器(Capacity Scheduler)
4.3公平调度器(Fair Scheduler)
在容量调度器的基础上,
容量调度器∶优先选择资源利用率低的队列
公平调度器∶优先选择对资源的缺额比例大的HA的实现原理
扩展:
1)MR为什么执行速度慢
shuffle中,受硬盘速度影响
2)谈谈你对HDFS小文件的看法
需要合并,否则NN大量内存用来存储文件目录和块信息,同时加大寻址时间
三、Hive
是什么?场景? vs RDBMS
架构中的核心组件
HA: 配置出来
加载数据到表的N种方式
内部表 vs 外部表 以及相互之间的转换
4个by:order by、sort by、distribute by、cluster by
静态分区 vs 动态分区: 创建、使用、查看/添加/删除分区
N中join:见图
如何使用build-in function
行列互转
分组TopN
拉链表的制作原理和实现
扩展:谈谈你对元数据的看法
四、Scala
var vs val
var:定义可变的参数/属性
val:修饰的属性/参数值不可变数据类型、转换精度
数据类型 | 描述 |
---|---|
Byte | 8位有符号补码整数。数值区间为 -128 到 127 |
Short | 16位有符号补码整数。数值区间为 -32768 到 32767 |
Int | 32位有符号补码整数。数值区间为 -2147483648 到 2147483647 |
Long | 4位有符号补码整数。数值区间为 -9223372036854775808 到 9223372036854775807 |
Float | 32 位, IEEE 754 标准的单精度浮点数 |
Double | 64 位 IEEE 754 标准的双精度浮点数 |
Char | 16位无符号Unicode字符, 区间值为 U+0000 到 U+FFFF |
String | 字符序列 |
Boolean | true或false |
Unit | 表示无值,和其他语言中void等同。用作不返回任何结果的方法的结果类型。Unit只有一个实例值,写成()。 |
Null | null 或空引用 |
Nothing | Nothing类型在Scala的类层级的最底端;它是任何其他类型的子类型。 |
Any | Any是所有其他类的超类 |
AnyRef | AnyRef类是Scala里所有引用类(reference class)的基类 |
class vs object
object与class同一个名称时,则互为伴生对象和伴生类。必须在同一个源文件里定义类和它的伴生对象。类和它的伴生对象可以互相访问其私有成员
class vs case class
case class vs case object
构造器
集合
Option Some None
Java和Scala之间的一个转换
函数式编程:匿名函数、高阶函数、curry、PartialFunction
Scala支持哪些方面的模式匹配
使用scala完成wc统计(至少5中不同方法)
扩展:谈谈你对闭包的认识
【若泽大数据 元旦大礼包】相关推荐
- 【若泽大数据001】Linux基础知识汇总
[若泽大数据001]Linux基础知识汇总 前情提要: Linux平台搭建 [若泽大数据001]Linux基础知识汇总 1.查看当前光标所在的目录的命令是什么? 2.切换到当前用户的家目录,哪三种方式 ...
- 【若泽大数据实战第十九天】Hive 函数UDF开发以及永久注册udf函数
前言: 回顾上期课程,上次课我们讲了聚合函数,多进一出, 分组函数 group by,出现在select里面的字段除了分组函数之外,其他都要出现在group by里面,分组函数的过滤必须使用hivi ...
- 【若泽大数据实战第十六天】Hive的安装部署 + 课程一个月总结
前言: Hadoop的课程已经告一段落,基本上在零基础课程里不会再出现了,接下来的课程由若总来上,第一讲Have. 复习前一个月的课程内容: 1.Linux Linux: 文件(*****) 权限(* ...
- 【若泽大数据实战第七天】MySQL在DBeaver上的使用
一.创建一张表: create table 数据库名.表名(字段 类型,--)例如: create table ruozedata(id int, name varchar(100),age int, ...
- 【若泽大数据】MySQL参数详解
系统变量提供的是各种与服务器配置和功能有关的信息.大部分的系统变量都可以在服务器启动时进行设置.在运行时,每一个系统变量都拥有一个全局值或会话值,或者同时拥有这两个值.许多系统变量都是动态的,也就是说 ...
- 【若泽大数据】MySQL命令详解
MYSQL 命令大全 一.连接MySQL 格式: mysql -h 主机地址 -u 用户名 -p 用户密码 1.例1:连接到本机上的MYSQL. 首先在打开DOS 窗口,然后进入目录 mysqlbin ...
- CDH6.3.1安装详细步骤(感写B站若泽大数据)
0. 主机规划 虚拟机主机 IP 资源(CPU/内存/硬盘) 所在ESXi(IP) Tools 192.168.1.30 04 Core/8 GB/10 TB 192.168.1.201 cdh-se ...
- 若泽大数据-剑指数仓培训笔记1
数仓培训第一天 一.系统安装部署 具体流程参考: Centos7.2安装部署(图文教程)ici CentOS6.5配置静态IP和可访问外网ici CentOS6.5修改主机名ici 二.Linux部分 ...
- 2019元旦消费大数据
2019元旦假期,消费市场火热,在刚刚过完年底的购物季,又有什么东西让大家更有消费热情呢?让我们看看大数据. 人们更注重生活品质 民以食为天,吃是一个永恒的话题.哪怕一点也不饿,看到美食很多人还是忍不 ...
最新文章
- Word 2007 自动更新,让操作速度加倍!
- CAS (3) —— Mac下配置CAS客户端经代理访问Tomcat CAS
- 面向对象思想精华总结
- awk工具的简单使用
- OpenCV学习笔记:反色显示图片、鼠标事件、键盘事件和窗口滑动条操作
- JS组件系列——又一款MVVM组件:Vue(一:30分钟搞定前端增删改查)
- 照片被误删?别着急,EasyRecovery帮你找回来
- tree 命令以树状图列出目录的内容
- SharpDevelop 开发WPF教程
- ImageOptim图片压缩工具免费版
- 第三方平台通过钉钉扫码登录实现方案
- 苯酚吸附专用树脂 污水中的苯酚怎么去除
- 小何同学问了苹果CEO库克哪些问题?
- java怎样断开http请求_http post请求管道断开
- 请注意!新办理的电话卡,有以下情况会导致“二次实名”!
- js插件--1.swal
- routeDone with a webviewId 12 that is not the current page(env: Windows,mp,1.06.2301040; lib: 2.30.0
- 实战演练-java+微信小程序实现省市区三级联动
- 鸿蒙系统合作商,华为鸿蒙系统正式版发布,300多家合作伙伴已加入,适配机型公布...
- 云服务 IaaS、PaaS、SaaS
热门文章
- word另存为html文件后,浏览器打开不显示图片
- 什么是网络货运平台?
- android wifi热点广播,在Android的WiFi热点获取无线网络的广播地址(Getting wifi broadcast...
- 如何制作小游戏(c++教程)(新手版)(2)
- (已修改)机器学习之文本分类(附带训练集+数据集+所有代码)
- 小米mix Android9,小米mix3的系统是安卓9吗?
- 攻防世界 web高手进阶区 7分题Confusion1
- 支付宝“圈子”事件就是个套路,一切都是为了芝麻信用
- 华为荣耀5cvs华为v9play_荣耀畅玩7C和荣耀V9Play综合对比评测 看完这些在决定
- python +gis 点数据转栅格数据 绘制矩阵图