前言

学习群的几个小伙伴和我都有面试ebay 大数据岗位的经历,而且也都拿了offer,我特意抽出了一些时间把问题和部分答案就行了汇总,希望对大家有帮助。

全文篇幅1万字左右,从数据结构到Java再到大数据都有整理,可以先收藏起来,补缺补漏。ebay大数据组也持续招人,要投简历的可以把简历私发到我微信。

小提示:绿色的题代表是简单的,黄色的题代表中等,红色代表有点难度;绿色题回答的很全面,很深入,则有可能比红色的题还难;蓝色的是作为扩展,面试的时候问到的不是很多,能答出来挺好,答不出来也没关系

一、  java基础

1、  Queue和Stack你平时有用过么,说说你常用的方法,他们的却别在哪呢?

2、  了解java的异常吗,有什么区别,常见的异常有哪些呢?

3、  两个字面值相同的Integer,它们两个用等于号去比较,结果是true还是false?(这个题要分两部分去回答,结果可能为true,也可能为false。因为有缓存)

4、  可以讲一下你常用的集合类么?他们的实现类有哪些?

5、  ArrayList、LinkedList的区别,底层的实现呢了解吗,有没有什么优缺点,分别适合于什么样的场景,多线程环境下,有没有安全的list的实现类呢?

6、  其他数据结构的了解吗?LinkedHashMap、ConcurrentSkipHashMap(作为一个扩展,面试的时候问到的不是很多,能答出来挺好,答不出来也没关系)

7、  说一说你对HashSet的理解,越详细越好 ( tip:底层是用hashMap实现的),treeSet有了解吗?聊一聊?

8、  HashMap的疯狂试探:

a.       HashMap的底层数据结构是什么样子的

b.       了解hash冲突吗?它是如何解决hash冲突的

c.       请你简单叙述一下hashMap的put和get操作,当然,能说多细就说多细?

d.       Jdk7和jdk8中对hashMap做了什么改进嘛(红黑树)?

e.       有没有其他的解决冲突的办法呢

f.        HashMap中的hash函数了解吗?那他的扩容机制了解吗?

g.       HashMap为什么扩容是2倍呢,可以说说嘛?

h.       假如说我加入一个键值对,这个时候出现了冲突,它只怎么把这个节点加入进去?是加入到当前bucket所对应的链表的头结点还是尾节点?(答不上来可以问一个稍微简单的,equals和 == 的区别,以及其中hashCode的作用)

i.        可以说说什么条件下,可以把一个链表转成红黑树呢?它里面的大概流程是什么,了解吗?

j.        有没有想过为什么选用了红黑树,而不是其他的数据结构,譬如说二叉树,二叉查找树,或者其他的树?

k.       在高并发大流量的情况下,hashMap有什么问题吗,会不会造成cpu达到100%?如果会,那是在哪一步可能会出现这个问题呢(插入、删除、查找、扩容)?

9、  ConcurrentHashMap的疯狂试探:

a、  他和HashTable的区别呢?

b、  说说你对JUC包的了解?

c、   ConcurrentHashMap中是怎么加锁的?

d、  1.7和1.8中,ConcurrentHashMap的区别是什么?

e、 ConcurrentHashMap是怎么做到线程安全的呢?(CAS和锁)

f、   为什么会抛弃分段锁,它有什么毛病吗(上面一个题回答上才可以问这个)?

g、  知道红黑树的transfer过程么?简单的描述一下

10、       多线程下的疯狂试探:

a.       多线程了解吗?说说线程的生命周期?

b.       线程池有用到过吗?怎么用的,jdk有提供那些线程池(总共提供了四种)?

c.       线程的状态有哪些呢?

d.       线程池的核心参数有哪些?(核心线程数、最大线程数、时间、时间单位、队列、拒绝策略、默认的线程工厂)

e.       Wait,yeild,stop,sleep、join、start、run的区别和如何使用?

f.        接着上题:这四种有什么区别吗,你用过哪一种,可能存在什么问题吗?

g.       接上题:拒绝策略有哪些呢?了解吗?聊聊?

h.      接上题:你刚才说了队列,线程池中的队列有哪些?有界队列、无界队列、同步队列都有了解吗?聊聊?

i.        如何实现一个消费者和生产者的循环消费和生产呢?(有两种方式,一种是通过锁,lock或者Synchronize,还有一个是通过ArrayBlockingQueue实现)

j.        你可以实现线程之间的相互通信吗?如何实现?要不写一个?

11、       线程安全的疯狂试探:

a.       Synchronzie了解吗?谈谈你的理解

b.       在一个普通方法上加synchronize和在一个静态方法上加synchronize有什么区别(对象锁和类锁的的区别)?

c.       Synchronize和lock有什么区别呢?说说你对lock的理解?

d.       Lock的公平和非公平锁?

e.       说一说volitaile为什么保证不了原子性,可以保证可见性嘛?如何保证的(jvm的多线程的内存模型有关系)

f.        了解CountDownLatch么,CyclicBarrier的区别呢?

g.      Synchronize的实现原理知道吗?moniter的实现机制呢,为什么加了Synchronzie关键字,就可以在多线程下是安全的(这个回答要从java对象的Object头来回答)

h.      类锁和对象锁的区别呢?字节码的体现呢?

i.        Java中的自旋锁、偏向锁、读写锁、重锁等了解吗?

j.        了解java重对象的对象头嘛?有哪些属性和字段呢?

k.       Aqs(AbstractQueuedSynchronizer)了解吗?它和lock的关系?说说aqs中的核心思想?

l.        Lock中存在锁升级嘛,他是可重入得嘛,那Synchronize是可重入得嘛,有没有锁升级的概念?

m.    Volitaile了解吗?他的作用是什么呢,内存语义是什么呢?有没有了解过cpu的缓存一致性协议?

n.       还知道其他的juc类嘛,有哪些呢(譬如lockSupport)?

12、       jvm的疯狂试探:

a.       了解jvm么?jvm的内存模型?

b.       Java如何判断一个对象是否还活着呢?

c.       Java的类加载了解吗?

d.       Java类加载器了解吗,有哪些呢?那它的双亲委派了解吗?

e.       Jvm指令你知道哪些(jps,jstack,jinfo,jmap……),都有什么作用呢?

f.        Java的垃圾回收算呢,了解吗,G1回收算法了解吗?

g.      Jvm参数你了解吗,知道多少说多少?

h.      在实战中有进行过jvm调优嘛,怎么做的,

i.        Java的对象年龄知道吗,有什么作用吗?

j.        Young GC和fullGC了解吗,如何触发,如果在你的项目中,频繁出现young GC 怎么办?

13、       设计模式的疯狂试探:

a.       你了解的设计模式有哪些?

b.       可以写一个单例模式嘛,工厂模式呢,抽象工程模式解决了什么问题?

c.       策略模式、责任链模式、适配器模式写一个,写不出来的话,java中在哪用到了这些模式

d.      代理模式了解吗,会写吗,jdk代理和cglib代理的区别呢,说说你的理解?

 

二、  数据结构与算法

1、  排序算法了解什么?能不能手写一个快速排序、或者归并排序,堆排序有了解吗?

2、  给你一个一元二次方程公式,你写一个方法,用计算机语言实现它。

3、  图了解么,有向图呢?你可以实现一个有向图么?(假如他回答的是二维矩阵,可以反问他有没有更好的解决方案呢,因为这个图可能是个稀疏矩阵)

4、  接上题,在图中,如何判断两个节点的联通性,可以写代码写出来么?

5、  给你一个1T的Int文件,然后你只有一台内存是8G的机器,如何用最快的方法,求出里面出现频率最高的topN个数?

6、  算法的时间复杂度和空间复杂度了解吗?说说你了解的算法的时间复杂度和空间复杂度。

7、  二叉树了解吗,树的广度优先算法和宽度优先算法了解吗?写一个他的前序(中序、后序)遍历可以么(递归和非递归的方式都可以写出来么)?

8、  给你一个字符串,请检查中间出现的括号的正确性,譬如:({[]}),((()))这都是个合法的字符串,(()())((()这就不是一个合法的字符串;

9、  给你一个单向链表,检测它有没有形成环?

10、     给你一个单向链表,如何反转,可不可以把空间复杂度降低到O(1)级别?

11、     写一个字符串匹配算法,判断在一个字符串中是否包含另外一个字符串(一般都会说循环去比较,这样的时间复杂度很高,有一个算法是KMP,面试者要是能提到KMP都就很不错了,因为很多面试官都不知道,也不会)?

12、     可以用两个栈模拟一个队列么?

13、    如何判断两棵树相不相等

14、    动态规划有了解吗?

a.       给你一个机器人,它每次只能向右或者向下走一步,其中,中间有一个障碍物,不可以经过,请问,在一个n*m的矩阵中,这个机器人总共有多少种走的方法?(答不出来就降低一下难度,把中间的那个障碍物去掉)

b.       青蛙跳知道吗?给你一个数组,里面的每一个数字代表青蛙可以前进的最大的步数,如何判断这个青蛙可不可以达到终点;譬如2,3,4,1就可以,1,2,1,0,1就不可以;

c.       爬楼梯,假设有一个n阶的楼梯,你每次都只能爬1或者2个台阶,请问有多少种不同的方法可以爬上去呢?

d.       给你一个整数数组,找到一个具有最大和的连续子数组(子数组至少包含一个元素),返回最大值

e.      给你一个容量为V的背包,现在有N件商品(有重复,相同的商品可以随意取),每件商品的体积是v1,价值是w1,请问,这个背包所能容纳的最大价值是多少?

f.        一个100层高的楼,有两颗鸡蛋,你需要用最少的次数找到那个临界点,这个临界点以上的楼层上摔下去,鸡蛋都会碎掉,以下的楼层,鸡蛋是不会碎的,(扩展,加入现在是N层高的楼房,你现在有m个鸡蛋,m>=1,用最少的次数找到那个临界点)

三、  数据库大汇总

1、  用过mysql嘛?了解吗?

2、  Mysql事务了解吗,隔离级别呢,每种隔离级别会出现什么问题?

3、  Mysql的锁了解吗(表锁、行锁、间隙锁,读写锁)?

4、  Mysql引擎知道吗,innodb和myisam的区别知道吗,说说底层的实现?

5、  聚簇索引和非聚簇索引知道么,有什么区别?

6、  B+树知道吗?为什么使用B+树?

7、 分库分表做过吗,如果让你去实现分库分表,你有什么需要考虑或者注意的嘛?

8、 了解死锁嘛?知道他是怎么产生的嘛,如何避免呢?

9、 Sql优化了解过吗?说说你的理解,给你一条sql,你会怎么优化?

四、  框架

1、  redis大家庭:

a.       redis是什么,能干嘛,怎么用?

b.       Redis的基础数据类型有哪些?

c.       Reids除了这些,还有哪些数据结构,能解决什么问题?

d.       Redis集群有搭建过么,说说你的实现

e.       Redis如何实现分布式锁

f.        Redis的支持事务么?

g.       位图了解吗?

h.      布隆过滤器了解吗,他的原理是什么呢?

i.        Redis的通信协议你知道嘛?

j.        Redis中的数据结构底层了解吗?string的编码、list的编码、zset的编码;

k.       在集群环境下,Redis的分布式锁一定可靠吗,redis社区有没有提供可靠地分布式锁的集群方案(有,红锁)?

l.        Redis的持久化你知道么,说说rdb和aof的区别

m.    Aof瘦身知道么?如何瘦身

n.      Redis的拒绝策略你知道么?那它的淘汰策略你知道么

o.      Redis的哨兵模式呢,了解吗?

p.      Zookeeper了解吗,用zookeeper实现分布式锁,和redis实现有什么不同呢,说说他们的原理?

2、  Spring大家庭:

a.       Autowire和Resource 的区别

b.       谈谈你对spring的理解,它干了什么?

c.       Spring的依赖注入和切面呢?

d.       Spring的事务了解吗,他的传播机制呢

e.       Spring的aop切面详细说说,你的应用场景呢?

f.        Springmvc用过吗?了解他的启动流程嘛?说说你的看法

g.      Spring中的bean的生命周期呢,了解吗?如何扩展一个bean的生命周期?

h.      Spring源码读过吗?有没有想过他是如何解析在xml中定义的bean的。

i.        在spring的配置文件中加入component-scan标签,它就可以自动加载所有添加相应注解的java类,这个是怎么做到的呢,你知道嘛?

j.        Dubbo了解吗?dubbo是怎么和spring想结合的?

3、  消息中间件大家庭:

a.      你了解消息中间件有哪些?

b.      谈谈你对topic和partition的理解?

c.       Kafka中的isr和osr有了解吗?

d.      Kafka的高水位你知道嘛?

e.      Kafka的分区器、拦截器、序列化器你了解吗?

f.       消息的可靠性怎么保证?

g.      消息丢失怎么办?kafka有什么保证策略?(我了解kafka,你们也可以问问其他的,譬如rocketMq)

h.      Kafka的事务你了解过吗(这个特别难,一般别问昂)?

4、  zookeeper大家庭:

a.       谈谈你对zookeeper的理解?

b.       Zookeeper的节点类型你知道么?

c.       Zookeeper的心跳机制呢?

d.       Zookeeper的优势在哪?

e.       知道zookeeper的watch嘛?

f.        Cap理论知道吗?

g.      Paxos算法呢,了解吗?

5、  springBoot大家庭:

a.      什么是springboot?

b.      为什么要用springboot呢?

c.       Spring boot 的核心配置文件有哪几个?他们的区别是什么?

d.      Spring boot 的配置文件有哪几种格式?区别?

e.      Spring boot的核心注解是那个?它主要由哪几个注解组成的?

f.        如何理解springboot的配置加载顺序?

五、离线方向

1.     数据优化中,需要注意哪些关键词

2.     Uninon 跟uninon all 的区别

3.     除了distinct外如何使用SQL对数据去重

4.     项目中etl过程

5.     Spark的运行流程

6.     Sql开窗函数,开窗函数中row_number与rank的区别

7.     Avg、sum、count 函数,在某列有空值的情况下,结果会有哪些不同

8.     一个表两个字段,一个id,一个values;values有连续相同;但是有缺失,找出缺失的地方补全(连续缺失的字段如何补全)

9.     数据仓库的基本原理

10. 数据表的各个模型,例如(雪花模型),简述

11. 数据优化中除了用过mapjoin之外,还用过哪些join(不是常见的五种),简述

12. 修改批量文件中的词

13. Shell脚本的定时任务

1.英语自我介绍,说一下越到的最大的挑战

2.union和union all的区别

3.给了个题目,一个表两个字段,一个是id,一个是value,value是连续相同的,但是有缺失的,找出来缺失的地方补全

4.去重的操作

5.spark提交任务的流程

6.Spark oom怎么处理

7.join有哪些?mapsidejoin是什么知道吗(不知道,大概猜了下,然后就没继续问)

8.Linux指令用过哪些?

9.用shell直接查找到文件中的一个词,然后替换(这个不会)

10.Data modeler用过没

11.维度建模什么情况

1.用英语介绍下数据仓库和数据集市的区别

2.讲下 linux 免密登陆

3.介绍下spark执行流程

4.spl 开窗函数

5.shell 脚本读取文件

6.项目中最自豪的事情

7.数据库中count(*) 和count(1) 在什么情况下数据不一致

8.最有压力的事情

9.shell 脚本替换文件内容,替换文本

10.数据倾斜调优

1.英语介绍一下olap和oltp的区别

2.olap的产品知道哪些

3.数仓模型建设

4.对表的设计

5.data modeler工具

6.项目中的etl过程

7.统计人员使用什么工具查询

8.数据报表工具知道哪些

9.工作主要涉及的技术有哪些

10.每日数据量多少,存量多少

11.如何通过sparksql对数据进行更新

12.hbase数据如何更新

13.两表join跑不出数据会是什么原因,如何解决

14.如何进行mapjoin

15.开窗函数

16.linux命令考查

17.hdfs上跨节点如何数据迁移

18.免密登录如何实现

19.ip映射是记录在哪个文件中

20.如何批量修改文件中某一字符串

21.如何确保项目成功交付

22.项目交付时如何进行数据验证

23.项目中最有成就感的事情

六、Spark相关

Q: Spark任务提交后的流程

A: 只要能说出来sparkContext, DAG, Stage, Executor 就大致上应该了解些。

详细答案参考:

1)构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源;

(2)资源管理器分配Executor资源并启动StandaloneExecutorBackend,Executor运行情况将随着心跳发送到资源管理器上;

(3)SparkContext构建成DAG图,将DAG图分解成Stage,并把Taskset发送给Task Scheduler。Executor向SparkContext申请Task

(4)Task Scheduler将Task发放给Executor运行同时SparkContext将应用程序代码发放给Executor。

(5)Task在Executor上运行,运行完毕释放所有资源。

Q: Spark的API有哪两大类?分别解释一下和举个例子?

A: Transformation & Action.Transformations是转换操作,如map, filter, union, reduceByKey等,Actions是执行操作,如count, collect, reduce, saveAsXXX等

Q: Spark中的union属于宽依赖还是窄依赖? 有无shuffle?

A:  属于窄依赖,无shuffle

SQL:

Q: union all 和 union 有什么区别?哪个性能好?

A: union all 不去重, union会去重。Union all性能好,因为无需额外去重

Q: 如何判断一张表里某个字段有重复?

A:  利用COUNT 加HAVING ,答到这个的一般没问题, 具体如下:

SELECT COL, COUNT(1) AS CNT FROM TABLEGROUP BY 1 HAVING CNT > 1

Q: 有一张表有两个字段,分别是商品ID和商品价格,如何取到商品价格是前10名的所有商品ID?

A:  如果只能想到ORDER BY + LIMIT的,说明SQL较弱。知道用窗口函数(PARTITION BY)的话,至少说明应该不止做过简单的SELECT * FROMTABLE,但想到用row_number()的话。。不行, 如果会问价格是否有重复的话,说明对问题考虑得算周全,因为价格通常都会重复,ID是一般唯一的,如果知道rank() , dense_rank()的话基本就没问题了。当然也有不用partition by 的方式,但步骤较多

数仓:

Q:  数据仓库一般的分层有哪些

A:  不同公司叫法不同,但是可以让他解释每层分别放什么样的数据, 下面是网上抄的,大同小异,知道基本概念就行

ODS:Operation Data Store

原始数据

DWD(数据清洗/DWI) data warehouse detail

数据明细详情,去除空值,脏数据,超过极限范围的

明细解析

具体表

DWS(宽表-用户行为,轻度聚合) data warehouseservice ----->有多少个宽表?多少个字段

服务层--留存-转化-GMV-复购率-日活

点赞、评论、收藏;

轻度聚合对DWD

ADS(APP/DAL/DF)-出报表结果 Application Data Store

做分析处理同步到RDS数据库里边

Q:  维度表和事实表分别是什么?举些例子?

A:  简单解释:

事实表就是交易表。

维度表就是基础表。

二者的区别:

维度表的冗余很大,主要是因为维度一般不大(相对于事实表来说的),而维度表的冗余可以使事实表节省很多空间。

事实表一般都很大,如果以普通方式查询的话,得到结果一般发的时间都不是我们可以接受的。所以它一般要进行一些特殊处理。如SQL Server 2005就会对事实表进行如预生成处理等。

事实表一般是没有主键的,数据的质量完全由业务系统来把握。

七、SQL相关

1.distributeby 、sort by 、cluster by 、order by 区别?

1). order by 只有一个reduce负责对所有的数据进行排序,若大数据量,则需要较长的时间。建议在小的数据集中使用order by 进行排序。

2). order by 可以通过设置hive.mapred.mode参数控制执行方式,若选择strict,则order by 则需要指定limit(若有分区还有指定哪个分区);若为nostrict,则与关系型数据库差不多。

3). sort by 基本上不受hive.mapred.mode影响,可以通过mapred.reduce.task 指定reduce个数,查询后的数据被分发到相关的reduce中。

4). sort by 的数据在进入reduce前就完成排序,如果要使用sort by 是行排序,并且设置map.reduce.tasks>1,则sort by 才能保证每个reducer输出有序,不能保证全局数据有序。

5). distributeby 采集hash算法,在map端将查询的结果中hash值相同的结果分发到对应的reduce文件中。

6). distributeby 可以使用length方法会根据string类型的长度划分到不同的reduce中,最终输出到不同的文件中。 length 是内建函数,也可以指定其他的函数或这使用自定义函数。

7). cluster by 除了distribute by 的功能外,还会对该字段进行排序,但是排序只能是升序排序,不能指定排序规则为ASC或者DESC,所以cluster by = distribute by +sort by 。

2.请简述以下sql 的 执行顺序是什么?

select

catid,

count(orderid) as sales

from t_tab

where catid <> "c666"

group by  catid

having count(orderid) > 10

order by count(orderid) desc

limit 100

答:

from -> where -> group by ->having -> select -> order by -> limit

3.问:(1)两条语句的执行结果是否一样?为什么?

   (2)假设,数据量很大的情况下,您会选择哪种语句执行?也可以自行开发

--sql 语句 1

select

t1.id,t1.xxx,t2.xxx

from t1 left join t2

on t1.id = t2.id and t1.id < 10

--sql 语句 2

select

t1.id,t1.xxx,t2.xxx

from t1 left join t2

on t1.id = t2.id

where t1.id < 10

答:1)由于left join,right join,full join的特殊性,不管on上的条件是否为真都会返回left或right表中的记录,full则具有left和right的特性的并集。

sql 语句 1  中 采用的是left join,所以 on 里的 t1.id <10  对左表 t1 不起作用,结果还是会返回t1 表的所有数据

sql 2 则是先 通过 on 上的条件,将两表关联,在最终关联好的表上,在进行过滤,所以只会返回t1.id < 10 的所有数据

2) 当数据量很大的情况下,基于上述情况我会选择 sql 2 ,但是性能不高,可以采用以下查询

select

tmp_t1.id,tmp_t1.xxx,t2.xxx

from

(

select * from t1 where t1.id < 10

) tmp_t1 left join t2

on tmp_t1.id = t2.id

4.count(distinct user_id) 和 group by user_id 之后 求 count  两者有什么区别?

首先要清楚,count(distinct) 的原理机制,首先他是将数据通过map端发往一个reduce,之后reduce接收到数据之后,会将数据放入到 hashset中去重,之后cleanUp() 方法,在执行最后的逻辑,比如:计算hashset的size等。

这里就出现了一些问题,

1)数据都发往一个reduce会造成数据倾斜,

2)程序从分布式变成单机程序,影响效率

3)程序执行过程中,只产生一个job

但也不是绝对的,当数据量很小的时候,此时我们并不需要采分布式执行,一个job运行足矣,但是,当数据量比较大的时候,这时count(distinct) 就暴露除了大大的弊端,所以,此时,不应该采用此法来实现去重

group() by  count()  当数据量比较大的时候,采用此法,先分组,这时已经在map端实现了去重机制,之后数据发往reduce 数据量已经变得很小了,并且此法涉及到shuffle ,所以reduce的压力不会集中在某个上,并且会产生多个job。

1.1 group() by  count()  一定比count(distinct) 性能要好吗?

不一定,当数据量比较大的时候采用group() by  count() 会比count(distinct) 要好,但是在数据量比较小的时候,一个job就可以处理,没必要用两个job,也没必要shuffle,所以调优看情况而定

全网最全ebay大数据面经合集相关推荐

  1. 精心整理的ebay大数据面试题(全)

    前言 学习群的几个小伙伴和我都有面试ebay 大数据岗位的经历,而且也都拿了offer,我特意抽出了一些时间把问题和部分答案就行了汇总,希望对大家有帮助. 全文篇幅1万字左右,从数据结构到Java再到 ...

  2. 阿里云-数据仓库-全链路大数据开发治理平台-DataWorks的数字世界

    一.前言 上文我讲到 阿里云-数据仓库-数据分析开发神器-ODPS ,今天我带领大家一起走进神器的成长环境及它的数据世界. 二. DataWorks是什么 DataWorks基于MaxCompute. ...

  3. 数据管理解决方案 | 零售行业如何搭建全渠道大数据平台?

    后疫情时代,面对艰难的市场竞争环境,零售企业愈发明白数字化的重要性.商品管理.库存管理.会员营销.门店运营......每天都在产生海量且高频次的业务数据,如何实现"数据驱动"是零售 ...

  4. 大数据介绍及集群安装

    大数据介绍及集群安装 第一部分 <大数据概述> 传统数据如何处理? 什么是大数据? 传统数据与大数据的对比 大数据的特点? 大数据前/后服务器系统安装部署区别是什么?. 大数据生态系统以及 ...

  5. 大数据介绍、集群环境搭建、Hadoop介绍、HDFS入门介绍

    大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 文章目录 大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 1.课前资料 2.课程整体介绍 3.大数据介绍 3.1 什么是大数 ...

  6. 【大数据哔哔集20210124】有人问我Kafka Leader选举?我真没慌

    一条消息只有被ISR中所有Follower都从Leader复制过去才会被认为已提交.这样就避免了部分数据被写进了Leader,还没来得及被任何Follower复制就宕机了,而造成数据丢失.而对于Pro ...

  7. 使用跳板机实现外网访问局域网内虚拟机的大数据及K8S集群【借助向日葵】

    使用跳板机实现外网访问局域网内虚拟机的大数据及K8S集群[借助向日葵] 前言 笔者作为一杆大数据学徒工,工作和学习中都需要有几套属于自己的集群. 双路e5主机:https://lizhiyong.bl ...

  8. 云计算大数据之 Kafka集群搭建

    云计算大数据之 Kafka集群搭建 版权声明: 本文为博主学习整理原创文章,如有不正之处请多多指教. 未经博主允许不得转载.https://blog.csdn.net/qq_42595261/arti ...

  9. 【大数据哔哔集20210110】后起之秀ClickHouse的优缺点和核心特性

    点击上方蓝色字体,选择"设为星标" 回复"资源"获取更多惊喜 ClickHouse is a column-oriented database manageme ...

最新文章

  1. 天津商业大学计算机科学与技术分数线,天津商业大学录取分数线2021是多少分(附历年录取分数线)...
  2. 使用选择排序和二分查找在数组中查找数据
  3. .bash_pfofile、.bash_logout和.bashrc区别
  4. asp.net动态换肤
  5. 向模态窗体传递参数和获取返回值
  6. svn redis和rabbitmq服务启动
  7. 计算机网络(二十七)-IPv4
  8. 叠加卡片列表_使用PowerBI制作卡片图
  9. matlab画横的/水平的条形图
  10. MVCC常问面试题(面试重点)
  11. Web安全攻防渗透测试实战指南笔记 三
  12. CSS 绘制一个时钟
  13. 我的第一个游戏FoodieThebug完成之后的心得体会--子龙山人
  14. 计算机视觉之人脸识别学习(六)
  15. 如何关闭windows电脑里的休眠
  16. matlab去除图片水印_初试 Matlab 之去除水印
  17. Python实现电子钢琴及封装
  18. Wordpress响应式Git主题/响应式CMS主题模板
  19. 90、生产的火灾危险性分类
  20. Blocked a frame with origin “https://my.xxxxxxx.com“ from accessing a cross-origin frame.

热门文章

  1. PyQt5,一个好的qt教程。
  2. php fetch_assoc,PHP使用fetch_assoc()获取查询结果时数据类型都变了
  3. 感谢、感恩与CSDN结缘的第1498天
  4. python爬取支付宝基金数据_python爬取支付宝账单
  5. DrawIO怎么画出卡通效果的图?
  6. 飞浆论文复现:用于图像到图像翻译的具有自适应层实例化的非监督的生成对抗网络
  7. 大数据分布式数据库系统介绍
  8. 程序员 薪水_如何减少程序员的薪水
  9. springboot中static下的图片404
  10. 最新获取iOS设备型号大全(包括iphone7,iphone7 Plus)