【若泽大数据 元旦大礼包】

一、Linux命令

  1. 文件夹 文件

    文件夹:makdir mv cp
    文件:vi vim touch

  2. 用户

    useradd userdel passwd

  3. 权限

    chmod -777 XXX

  4. 网络

    ifconfig netstat telent ping

  5. 命令:

    top df ps aux tail less date netstat

  6. awk sed

    awk:菜鸟教程awk

    语法:

    awk [选项参数] 'script' var=value file(s)
    或
    awk [选项参数] -f scriptfile var=value file(s)
    

    选项参数说明:

    -F fs or --field-separator fs
    指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
    -v var=value or --asign var=value
    赋值一个用户定义变量。
    -f  scripfile or --file scriptfile
    从脚本文件中读取awk命令。
    -mf nnn and -mr nnn
    对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数 目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。
    -W compact or --compat, -W traditional or --traditional
    在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。
    -W copyleft or --copyleft, -W copyright or --copyright
    打印简短的版权信息。
    -W help or --help, -W usage or --usage
    打印全部awk选项和每个选项的简短说明。
    -W lint or --lint
    打印不能向传统unix平台移植的结构的警告。
    -W lint-old or --lint-old
    打印关于不能向传统unix平台移植的结构的警告。
    -W posix
    打开兼容模式。但有以下限制,不识别:/x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。
    -W re-interval or --re-inerval
    允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。
    -W source program-text or --source program-text
    使用program-text作为源代码,可与-f命令混用。
    -W version or --version
    打印bug报告信息的版本。
    
    sed:菜鸟教程sed

    语法:

    sed [-hnV][-e<script>][-f<script文件>][文本文件]
    

    参数说明:

    -e<script>或--expression=<script> 以选项中指定的script来处理输入的文本文件。
    -f<script文件>或--file=<script文件> 以选项中指定的script文件来处理输入的文本文件。
    -h或--help 显示帮助。
    -n或--quiet或--silent 仅显示script处理后的结果。
    -V或--version 显示版本信息。
    

    shell:wc emp.txt sum(salary)
    判断文件是否存在,存在就echo,不存在就创建目录,求目录下(递归)scala文件(.scala)的个数

     if [  -f "$file"]; then
    echo $file
    else
    mkdir -p "$file"
    fi
    

    ls -l “/home” | grep “.scla” | wc -l

二、Hadoop

  1. 伪分布式部署

    1.1 相关配置文件
    core-site.xml
    hdfs-site.xml
    mapred-site.xml
    yarn-site.xml
    hadoop-env.sh
    1.2 format
    1.3 start:单进程启动 dfs/yarn all
    1.4 验证
    1.5著名的端口号
    hdfs 50070
    yarn 8088

  2. 图解HDFS读写流程

    HDFS读写流程

  3. YARN执行流程: AM

    123

  4. 调度器 区别

    4.1先进先出调度器(FIFO)

    FIFO 调度器(First In First Out) :单队列,根据提交作业的先后顺序,先来先服务。

    4.2容量调度器(Capacity Scheduler)

    1)多队列:每个队列可配置一定的资源量,每个队列采用FIFO调度策略
    2)容量保证:管理员可为每个队列设置资源最低保证和资源使用上限
    3)灵活性:如果一个队列中的资源有剩余,可以暂时共享给那些需要资源的队列,而一旦该队列有新的应用程序提交,则其他队列借调的资源会归还给该队列。
    4)多租户∶支持多用户共享集群和多应用程序同时运行。为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定。

    4.3公平调度器(Fair Scheduler)

    在容量调度器的基础上,
    容量调度器∶优先选择资源利用率低的队列
    公平调度器∶优先选择对资源的缺额比例大的

  5. HA的实现原理

    123

  6. 扩展:

    1)MR为什么执行速度慢
    shuffle中,受硬盘速度影响
    2)谈谈你对HDFS小文件的看法
    需要合并,否则NN大量内存用来存储文件目录和块信息,同时加大寻址时间

三、Hive

  1. 是什么?场景? vs RDBMS

  2. 架构中的核心组件

  3. HA: 配置出来

  4. 加载数据到表的N种方式

  5. 内部表 vs 外部表 以及相互之间的转换

  6. 4个by:order by、sort by、distribute by、cluster by

  7. 静态分区 vs 动态分区: 创建、使用、查看/添加/删除分区

  8. N中join:见图

  9. 如何使用build-in function

  10. 行列互转

  11. 分组TopN

  12. 拉链表的制作原理和实现

  13. 扩展:谈谈你对元数据的看法

四、Scala

  1. var vs val

    var:定义可变的参数/属性
    val:修饰的属性/参数值不可变

  2. 数据类型、转换精度

数据类型 描述
Byte 8位有符号补码整数。数值区间为 -128 到 127
Short 16位有符号补码整数。数值区间为 -32768 到 32767
Int 32位有符号补码整数。数值区间为 -2147483648 到 2147483647
Long 4位有符号补码整数。数值区间为 -9223372036854775808 到 9223372036854775807
Float 32 位, IEEE 754 标准的单精度浮点数
Double 64 位 IEEE 754 标准的双精度浮点数
Char 16位无符号Unicode字符, 区间值为 U+0000 到 U+FFFF
String 字符序列
Boolean true或false
Unit 表示无值,和其他语言中void等同。用作不返回任何结果的方法的结果类型。Unit只有一个实例值,写成()。
Null null 或空引用
Nothing Nothing类型在Scala的类层级的最底端;它是任何其他类型的子类型。
Any Any是所有其他类的超类
AnyRef AnyRef类是Scala里所有引用类(reference class)的基类
  1. class vs object

    object与class同一个名称时,则互为伴生对象和伴生类。必须在同一个源文件里定义类和它的伴生对象。类和它的伴生对象可以互相访问其私有成员

  2. class vs case class

  3. case class vs case object

  4. 构造器

  5. 集合

  6. Option Some None

  7. Java和Scala之间的一个转换

  8. 函数式编程:匿名函数、高阶函数、curry、PartialFunction

  9. Scala支持哪些方面的模式匹配

  10. 使用scala完成wc统计(至少5中不同方法)

  11. 扩展:谈谈你对闭包的认识

【若泽大数据 元旦大礼包】相关推荐

  1. 【若泽大数据001】Linux基础知识汇总

    [若泽大数据001]Linux基础知识汇总 前情提要: Linux平台搭建 [若泽大数据001]Linux基础知识汇总 1.查看当前光标所在的目录的命令是什么? 2.切换到当前用户的家目录,哪三种方式 ...

  2. 【若泽大数据实战第十九天】Hive 函数UDF开发以及永久注册udf函数

    前言: 回顾上期课程,上次课我们讲了聚合函数,多进一出, 分组函数  group by,出现在select里面的字段除了分组函数之外,其他都要出现在group by里面,分组函数的过滤必须使用hivi ...

  3. 【若泽大数据实战第十六天】Hive的安装部署 + 课程一个月总结

    前言: Hadoop的课程已经告一段落,基本上在零基础课程里不会再出现了,接下来的课程由若总来上,第一讲Have. 复习前一个月的课程内容: 1.Linux Linux: 文件(*****) 权限(* ...

  4. 【若泽大数据实战第七天】MySQL在DBeaver上的使用

    一.创建一张表: create table 数据库名.表名(字段 类型,--)例如: create table ruozedata(id int, name varchar(100),age int, ...

  5. 【若泽大数据】MySQL参数详解

    系统变量提供的是各种与服务器配置和功能有关的信息.大部分的系统变量都可以在服务器启动时进行设置.在运行时,每一个系统变量都拥有一个全局值或会话值,或者同时拥有这两个值.许多系统变量都是动态的,也就是说 ...

  6. 【若泽大数据】MySQL命令详解

    MYSQL 命令大全 一.连接MySQL 格式: mysql -h 主机地址 -u 用户名 -p 用户密码 1.例1:连接到本机上的MYSQL. 首先在打开DOS 窗口,然后进入目录 mysqlbin ...

  7. CDH6.3.1安装详细步骤(感写B站若泽大数据)

    0. 主机规划 虚拟机主机 IP 资源(CPU/内存/硬盘) 所在ESXi(IP) Tools 192.168.1.30 04 Core/8 GB/10 TB 192.168.1.201 cdh-se ...

  8. 若泽大数据-剑指数仓培训笔记1

    数仓培训第一天 一.系统安装部署 具体流程参考: Centos7.2安装部署(图文教程)ici CentOS6.5配置静态IP和可访问外网ici CentOS6.5修改主机名ici 二.Linux部分 ...

  9. 2019元旦消费大数据

    2019元旦假期,消费市场火热,在刚刚过完年底的购物季,又有什么东西让大家更有消费热情呢?让我们看看大数据. 人们更注重生活品质 民以食为天,吃是一个永恒的话题.哪怕一点也不饿,看到美食很多人还是忍不 ...

最新文章

  1. Word 2007 自动更新,让操作速度加倍!
  2. CAS (3) —— Mac下配置CAS客户端经代理访问Tomcat CAS
  3. 面向对象思想精华总结
  4. awk工具的简单使用
  5. OpenCV学习笔记:反色显示图片、鼠标事件、键盘事件和窗口滑动条操作
  6. JS组件系列——又一款MVVM组件:Vue(一:30分钟搞定前端增删改查)
  7. 照片被误删?别着急,EasyRecovery帮你找回来
  8. tree 命令以树状图列出目录的内容
  9. SharpDevelop 开发WPF教程
  10. ImageOptim图片压缩工具免费版
  11. 第三方平台通过钉钉扫码登录实现方案
  12. 苯酚吸附专用树脂 污水中的苯酚怎么去除
  13. 小何同学问了苹果CEO库克哪些问题?
  14. java怎样断开http请求_http post请求管道断开
  15. 请注意!新办理的电话卡,有以下情况会导致“二次实名”!
  16. js插件--1.swal
  17. routeDone with a webviewId 12 that is not the current page(env: Windows,mp,1.06.2301040; lib: 2.30.0
  18. 实战演练-java+微信小程序实现省市区三级联动
  19. 鸿蒙系统合作商,华为鸿蒙系统正式版发布,300多家合作伙伴已加入,适配机型公布...
  20. 云服务 IaaS、PaaS、SaaS

热门文章

  1. word另存为html文件后,浏览器打开不显示图片
  2. 什么是网络货运平台?
  3. android wifi热点广播,在Android的WiFi热点获取无线网络的广播地址(Getting wifi broadcast...
  4. 如何制作小游戏(c++教程)(新手版)(2)
  5. (已修改)机器学习之文本分类(附带训练集+数据集+所有代码)
  6. 小米mix Android9,小米mix3的系统是安卓9吗?
  7. 攻防世界 web高手进阶区 7分题Confusion1
  8. 支付宝“圈子”事件就是个套路,一切都是为了芝麻信用
  9. 华为荣耀5cvs华为v9play_荣耀畅玩7C和荣耀V9Play综合对比评测 看完这些在决定
  10. python +gis 点数据转栅格数据 绘制矩阵图