东方国信

学长1

Hadoop工程师笔试题(金融事业部)

1)技术基础题(共十题,每题5分)

(1)列举在Linux系统下可以在看系统各项性能的工具(区分CPU、内存、硬盘、网络等)

(2)HDFS写入数据的实现机制

(3)Yarn支持的调度器及管理硬件资源种类

(4)如何决定一个job的map和reduce的数量

(5)在map、reduce 迭代模型中,如何实现数据去重

(6)简单描述HBase的rowkey设计原则

(7)HBase海量历史数据入库方案

(8)Hive中内部表与外部表的区别

(9)Hive中UDF、UDAF、UDTF的区别

(10)Spark Job运行架构

2)场景设计题(共二题,每题10分)

假设海量小文件使用HBase进行管理,要求对一批文件进行批量存储,并支持对单文件进行更新操作,保留历史版本信息。查询时可根据批次号获取该批次的全部文件内容,也可根据文件标识可获取单文件内容,支持最新版本及所有版本查询。根据业务场景,设计HBase存储方案。

学长2

大数据工程师笔试题

1)理论题

(1)HDFS的存储机制是什么?

(2)mapreduce的工作原理,请举个例子说明mapreduce是怎么运行的?Combiner的作用?

(3)简单介绍对Hadoop的理解,包括系统架构和Hadoop整个生态系统,详细介绍工作中曾用到过的?

(4)对流式计算storm的认识?其与Spark streaming有何区别?项目中应用到storm的应用场景简介。

2)实践题

(1)利用Spark或者mapreduce或者hive(要求建表)编写搜索日志分析:用户在0点12点对各个APP的搜索量。搜索日志存放路径为/input/data.txt.文件用竖线分割,第一列为时间字段,第三列为APP名称。字段名及字段类型可自己定义。

日志内容如下:

00:00:0012982199073774412|[网易新闻]|8|3

00:01:00|0759422001082479|[今日头条|1|1

13:01:00|2982199073774412|[网易新闻]|1|1

14:30:00|07594220010824791|今日头条]1|1

(2)现有图书管理数据库的三个数据模型如下:

图书(数据表名:BOOK)

读者(数据表名:READER)

借阅记录(数据表名:BORROW LOG)

(1)创建图书管理库的图书、读者和借阅三个基本表的表结构。请写出建表语句。(Oracle实现)

(2)找出姓李的读者姓名(NAME)和所在单位(COMPANY)。(Oracle 实现)

(3)查找“高等教育出版社”的所有图书名称(BOOK_NAME)及单价(PRICE),结果按单价降序排序。(Oracle实现)

(4)查找价格介于10元和20元之间的图书种类(SORT)出版单位(OUTPUT)和单价(PRICE),结果按出版单位(OUTPUT)和单价(PRICE)升序排序。(Oracle 实现)

(5)查找所有借了书的读者的姓名(NAME)及所在单位(COMPANY)。(Oracle实现)

(6)求”科学出版社”图书的最高单价、最低单价、平均单价。(Oracle实现)

(7)找出当前至少借阅了2本图书(大于等于2本)的读者姓名及其所在单位。(Oracle实现)

(8)考虑到数据安全的需要,需定时将“借阅记录”中数据进行备份,请使用一条SQL语句,在备份用户bak下创建与“借阅记录”表结构完全一致的数据表BORROW_LOG_BAK.井且将“借阅记录”中现有数据全部复制到BORROW_1.0G_ BAK中。(Oracle实现)

(9)现在需要将原Oracle数据库中数据迁移至Hive仓库,请写出“图书”在Hive中的建表语句(Hive实现,提示:列分隔符|;数据表数据需要外部导入:分区分别以month_part、day_part 命名)

(10)Hive中有表A,现在需要将表A的月分区 201505 中 user_id为20000的user_dinner字段更新为bonc8920,其他用户user_dinner字段数据不变,请列出更新的方法步骤。(Hive实现,提示:Hlive中无update语法,请通过其他办法进行数据更新)

7.SQL优化题

(1)SELECT TAB_NAME FROM TABLES WHERE TAB_NAME =

(SELECT TAB_NAME FROM TAB_COLUMNS WHERE VERSION=604)AND DB_VER=(SELECT DB_VER FROM TAB_COLUMNS WHERE VERSION = 604),

考虑到过多子查询造成SQL性能下降,请针对上述SQL.语句进行优化,提升执行效率(Oracle实现)

UPDATE EMP SET EMP_CAT =(SELECT MAX(CATEGORY)FROM EMP_CATEGORIES),SAL_RANGE=(SELECT MAX(SAL RANGE)FROM EMP_CATEGORIES)WHERE EMP_DEPT = 0020,在含有子查询的SQL语句中,过多对表的查询会造成SQL性能下降,请针对上述SQL.语句进行优化,提升执行效率(Oracle实现)

EMP表数据量很大,user_id存在空值,以下语句会造成数据处理结果存储倾斜,请提供优化策略解决数据倾斜问题。(注:数据倾斜由关联字段空值引起,Hive实现)

SELECT* FROM EXP A  JOIN  DEPT B ON A.USER_ID= B.USER_ID

(2)Hbase 常用基本命令,创建表,添加记录,查看记录,删除记录。

文章来源:尚硅谷大数据培训

oracle批量update数据_东方国信大数据面试真题相关推荐

  1. 机器学习与气象数据_气象大数据与机器学习联合实验室 大数据和气象的“联姻”...

    气象大数据与机器学习联合实验室 大数据和气象的"联姻" 来源:<中国科学报> 时间:2017-02-13 13:36:28 作者:沈春蕾 我们每天都在看天气预报,大家会 ...

  2. 中关村企业 大数据_中关村大数据企业产业规模年均增长20%以上

    中新社北京12月12日电 (记者 于立霄)作为中国数据资源和大数据企业最为密集的地区,中关村示范区的大数据企业已达1600余家,产业规模年均增长20%以上,有效授权专利5800余件,领先全国. 资料图 ...

  3. 为什么不用python做大数据_光环大数据告诉你为什么说:人生苦短,我用Python

    首先我们要说明的是本文不扯什么大道理,只是先介绍Python的背景,然后从实用的角度出发举一两个真实栗子. 首先要想了解要一门语言的好坏,或者为什么招程序员喜欢(卧槽,原来程序员喜欢不是女朋友?)我们 ...

  4. 【数据攻略】字节面试真题(含答案)+100道面试题库

    整理了一套字节的面试真题,还有100道PDF版的面试题库 一.SQL题 面试真题1: 抖音电商平台,现有一张订单表(order_info),有以下字段: order_id goods_id order ...

  5. b类 蚂蚁金服_这份大厂面试真题之蚂蚁金服,已经通过很多内部人员的证实!建议收藏 ,反复观看!(一)...

    后续会更新大厂面试真题之蚂蚁金服二哦 1. jdk1.7 到 jdk1.8 Map 发生了什么变化(底层)? 1.8 之后 hashMap 的数据结构发生了变化,从之前的单纯的数组+链表结构变成数组+ ...

  6. spark 动态预加载数据_热门大数据引擎/组件概要

    热门大数据引擎/组件概要 TeraData 老牌数仓公司,已经上市十几年,数仓领导者地位(from Gartner),目前在向云端发力.主要提供一体机,MPP架构,运行稳定,之前工行用的是TD的系统, ...

  7. 中关村企业 大数据_中关村大数据产业联盟秘书长赵国栋:数字经济区别于传统经济 是企业转型升级的顶层战略...

    文|张 敏 11月20日,由<证券日报>社举办的"数字化转型的红利蓝海--2020数字经济领航者峰会"在北京召开.中关村大数据产业联盟秘书长赵国栋在论坛现场致辞时表示, ...

  8. 供应链 信用管理 大数据_以“大数据”引领农产品供应链变革,推动农产品供应链智能化发展...

    民以食为天,农产品作为人们生活的必需品,其供应链的稳定性及质量安全历来是全社会关注的焦点.2020年一场突如其来的新冠肺炎疫情,使农产品供应链体系的重要性凸显,但也暴露出我们农产品供应链体系存在的一些 ...

  9. python可以处理多大的数据_科多大数据之Python基础教程之Excel处理库openpyxl详解...

    原标题:科多大数据之Python基础教程之Excel处理库openpyxl详解 科多大数据小课堂来啦~Python基础教程之Excel处理库openpyxl详解 openpyxl是一个第三方库,可以处 ...

最新文章

  1. mysql搭建主从的目的_mysql搭建主从
  2. JavaScript 内置对象(二):Date 对象(构造函数、属性和方法)
  3. MySQL常用存储引擎之Federated
  4. anaconda新建python文件_PyCharm+cmd中使用Anaconda 与 新建Python环境(Windows)
  5. Tomcat服务器报错IOException: Broken pipe
  6. tf.concat用法总结
  7. 罗马仕php30重量,认真测评 篇三:罗马仕sence8P+两年使用报告
  8. 教你彻底禁止暴风影音后门进程自己启动
  9. log4cpp编译安装
  10. 怎样看开源代码版权_版权声明在开源代码中泛滥成灾
  11. android手机账号什么意思,苹果手机怎么改id账号 id账号是什么
  12. CoffeeRobotTeam项目组报告
  13. 快给你的Vue项目添加一个编辑图片组件吧
  14. python MySQLdb 一个连接connection多个cursor
  15. Docker容器域名解析失败
  16. 单片机STM32在开发中常用库函数详解
  17. 视觉SLAM十四讲:第3讲 三维空间刚体运动
  18. virtualbox安装linux黑屏,VirtualBox安装MeeGo系统黑屏问题处理
  19. java字符串分割转数组_Java StringUtils字符串分割转数组的实现
  20. 求知讲堂python+人工智能day8

热门文章

  1. 关于数字证书理解的简单整理以及12306站点证书简单分析
  2. Codeforces Round #493 (Div. 2) C. Convert to Ones 乱搞_构造_好题
  3. 【转】一篇比较清晰简单的C++文件操作
  4. LeetCode Permutations
  5. LeetCode OJ - Convert Sorted List to Binary Search Tree
  6. 黑马程序员——生成html静态页面,方便seo,加快加载速度
  7. 微信小程序——操作数据库
  8. 在多种浏览器中嵌入Applet
  9. 云服务器与传统服务器的优势差异
  10. [算法]不用第三个数交换2个数的位置