整理了一套字节的面试真题,还有100道PDF版的面试题库

一、SQL题

面试真题1

抖音电商平台,现有一张订单表(order_info),有以下字段:

  • order_id

  • goods_id

  • order_amt

请统计销量金额前10的商品信息。

参考答案:

此题考察的知识点较为简单,主要是考察GROUP BY 和窗口函数。

面试真题2

现有一张用户登录表(user_login_log),请统计2021.9.1之前活跃过,但是9.1之后再也没有登录的用户。表结构如下:

  • uid

  • dt

思路启发:

统计用户最早和最晚一次登录时间,限制最早和最晚一次登录时间都在9.1之前即可。

二、机器学习&概率论

面试真题1

假设家乐福决定对世界范围内1000家门店实行某措施,然后先对100家店进行试水,结果不错,但是应用到1000家店之后,发现效果不行,这是为什么?怎么分析。

▼ 思路启发:

① 为什么效果不行?

答:因为试水的门店与实际分布偏差太大,简言之,也就是这试水的100家门店分布与1000家门店的分布不一致。导致全面试行之后,效果不好。

②该怎么分析?

答:基于现有的数据说明该措施对部分门店有效,并非对所有门店有效。现在需要解决的问题就是,对哪些门店是有效的。这个问题可以结合门店的特征属性进行分析,比如门店所处城市、城市人口情况、城市人口习惯偏好、门店规模、销量等进行挖掘分析。

③补充问题,如何进行抽样。

答:针对第一小问中,试水门店与实际分布偏差太大,应该如何避免。这涉及到随机抽样的问题,可以考虑分层抽样。具体操作可以结合实际问题进行回答。比如家乐福的问题,应该结合门店城市及门店本身情况进行分层,目的尽量保证随机抽样可以代码整体抽样。

面试真题2

请简单说一下kmeans算法原理?

▼ 思路启发:

简单来说,K-Means就是在没有任何监督信号的情况下将数据分为K份的一种方法。

具体的算法步骤如下:

  1. 随机选择K个中心点

  2. 把每个数据点分配到离它最近的中心点;

  3. 重新计算每类中的点到该类中心点距离的平均值

  4. 分配每个数据到它最近的中心点;

  5. 重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数(R把10次作为默认迭代次数)

面试真题3

关于K-means算法细节有关的问题

问题 ①:

K值怎么定?我怎么知道应该几类?

▼ 思路启发:

这个确实没有确定的标准做法。分几类主要取决于个人的经验与尝试。

通常的做法是多尝试几个K值,看分成几类的结果更好解释,更符合分析目的等。或者可以把各种K值算出的SSE做比较,取最小的SSE的K值。

问题 ②:

初始的K个质心怎么选?

▼ 思路启发:

常见的有以下三种方法:

  • 第一种是是随机选,也是最常用的方法,初始质心的选取对最终聚类结果有影响,因此算法一定要多执行几次,哪个结果更reasonable,就用哪个结果。当然也有一些优化的方法

  • 第二种是选择彼此距离最远的点,具体来说就是先选第一个点,然后选离第一个点最远的当第二个点,然后选第三个点,第三个点到第一、第二两点的距离之和最大,以此类推。

  • 第三种是先根据其他聚类算法(如层次聚类)得到聚类结果,从结果中每个分类选一个点。

问题 ③:

判断每个点归属哪个质心的距离怎么算?

▼ 思路启发:

主要有以下两种方式:

  • 第一种:欧几里德距离,这个距离就是平时我们理解的距离,如果是两个平面上的点,也就是(x1,y1),和(x2,y2),那这俩点距离是多少初中生都会,就是√( (x1-x2)^2+(y1-y2)^2),多维空间以此类推。注意,欧几里德只能应用在连续变量上。

  • 第二种,余弦相似度,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。下图表示余弦相似度的余弦是哪个角的余弦,A,B是三维空间中的两个向量,这两个点与三维空间原点连线形成的角,如果角度越小,说明这两个向量在方向上越接近,在聚类时就归成一类

三、开放性问题

面试真题1

西瓜视频推出初期,希望通过push来引导更多的用户参与答题。现在如果需要你确认哪段时间进行push推送能更好的引流,你怎么做,给出解题思路即可。

▼ 思路启发:

主要有两种push方案

  • 非个性化方案,也就是所有用户push时间点一样。该方案可以结合历史用户使用西瓜视频APP的习惯对用户使用时间进行分析,选取用户使用APP高峰时间段进行push

  • 个性化运营方案,也就是不同的用户收到push的时间是不一样的。这种方案可以结合模型进行用户预测,预测用户使用APP高峰时期。目标是为了在用户打开APP概率最高的时刻进行推送。

面试真题2

不同领域答案的点赞数不一样,比如5K赞在娱乐领域很常见但在医学领域算是高赞回答,如果按照点赞数进行高质量答案判断,怎么处理数量级不一样的问题。

▼ 思路启发:

该问题可以简单的理解为,不同领域点赞数无法纵向比较。所以应该分领域进行处理。

方法①:

分领域进行排名,根据排名占比划分高质量回答。比如将所有医学领域回答依据点赞数从高到低进行排名,选取前10%的回答定义为高质量回答。

方法②:

分领域设置不同的标准,结合不同领域答案点赞数分布。比如娱乐领域高质量答案的点赞数必须大于5万,医学领域高赞回答必须大于5千。这个阈值的判断需要结合历史点赞数分布进行界定。

面试真题3

如何定义指标异常?

▼ 思路启发:

  • 基线分析法:通过预设的基线数据来判断当前指标是否存在异常

  • 同比/环比分析法:通过设定同比/环比的异常阈值进行判断

  • 模型预测:构建模型,对指标进行预测。

  • 3sigma原则:结合历史数据计算指标的均值方差,构建3sigma区间

面试真题4

国家出台某政策,统计发现各个省人均收入均有所增加,但是全国人均收入下降了,请问这种情况有可能发生吗?

▼ 思路启发:

答案是有可能,这属于辛普森悖论问题。

这里涉及到两个时间点

  • 出台政策前各省的人均收入

  • 出台政策后各省的人均收入

因为统计的两个时间存在一段时间间隔,可能导致各省份人口数发生变化,从而导致在各省收入增加的情况下,全国人均收入出现下降。

那么有哪些可能的情况影响了各省人口数发生变化呢?

  • 各省人口流动性

  • 各省出生率和死亡率

以上,即为字节数分岗的面试真题+思路参考。

字节100道PDF真题面试题库请给我留言,看到会及时回复的

【数据攻略】字节面试真题(含答案)+100道面试题库相关推荐

  1. 教师资格证面试 计算机应用,2019下半年初中信息技术教师资格证面试真题及答案汇总...

    2019下半年教师资格证面试考试在2020年1月4日-5日进行,2019下半年初中信息技术教师资格证面试真题及答案将在1月4日公布. <图层的应用(二)-制作扇形面> 1题目:制作扇研形面 ...

  2. 教师资格证面试题库中职计算机,2017年高中信息技术教师资格证面试真题及答案(第四批)...

    2017上半年高中信息技术教师资格证面试真题及答案(精选)第四批 高中信息技术<建立数据库的基本过程> 一.考题回顾 二.考题解析 高中信息技术<建立数据库的基本过程>主要教学 ...

  3. 2020今日头条面试真题及答案整理最新最全持续更新中~~~~

    大家好,我是好好学习天天编程的天天 一个整天在互联网上爬虫的程序员,每天给大家分享学习干货的攻城狮 2020今日头条面试真题及答案整理&最新最全&持续更新中~~~~ 2020今日头条面 ...

  4. 面试美团,完全实况30+面试真题与答案公布。不得不说细节拉满想要拿到一个大厂offer还真不容易。

    面试美团,完全实况30+面试真题与答案公布.不得不说细节拉满想要拿到一个大厂offer还真不容易. 叮.....美团来电.这次不是外卖而是电话面试. Java 后端开发的. 如果你问我,看了这些题就完 ...

  5. c语言1余3,c语言1—3真题(含答案).ppt

    c语言1-3真题(含答案) 以下关于C语言的叙述中正确的是A)C语言中的注释不可以夹在变量名或关键字的中间B)C语言中的变量可以在使用之前的任何位置进行定义C)在C语言算术表达式的书写中,运算符两侧的 ...

  6. 2018上半年信息安全工程师真题含答案(下午题)

    2018上半年信息安全工程师真题含答案(下午题) 试题一 阅读下列说明,回答问题1至问题4,将解答填入答题纸的对应栏内. [说明]恶意代码是指为达到恶意目的专门设计的程序或者代码.常见的恶意代码类型 ...

  7. 2019计算机软件考试笔试答案,2019年下半年软件设计师考试上午真题(含答案)

    2019年下半年软件设计师考试上午真题(含答案) (15页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 14.9 积分 20XX年下半年软件设计师考试上午 ...

  8. 教师资格证面试 计算机应用,2017年初中信息技术教师资格证面试真题及答案(第四批)...

    2017上半年初中信息技术教师资格证面试真题及答案(精选)第四批 初中信息技术<信息技术的五次革命> 一.考题回顾 二.考题解析 初中信息技术<信息技术的五次革命>主要教学过程 ...

  9. 今日头条面试真题及答案——软件测试工程师面试秘籍

    2018年今日头条面试真题及答案 试题1.在浏览器地址栏里输入一个网址,接下来会发生什么? 答案:发生的操作如下. (1)浏览器查找该网址的IP地址. (2)浏览器根据解析得到的IP地址向Web服务器 ...

最新文章

  1. 《Java虚拟机规范》阅读(三):Class文件格式
  2. CentOS 7 安装部署 cassandra作为kairosdb的数据存储
  3. 【干货】原型设计的八大指导原则
  4. 关于 eclipse 插件JsonEditorPlugin-0.9.4安装与使用
  5. Parse Too complex in xxxx.cpp --------source insight
  6. 古巴比伦乘法_古巴平台中的通用过滤器–类固醇上的excel过滤器
  7. linux socket接收不到16进制数据,C下通过socket收发十六进制数据解决办法
  8. 【ZZ】Python安装模块出错(ImportError: No module named s...
  9. J2EE事务并发控制策略总结
  10. 怎样在计算机上设置纸大小,电脑中打印机设备自定义纸张打印大小的方法
  11. HTML---网页编程(1)
  12. QuickTime格式解析
  13. Windows系统win10系统流程图软件推荐
  14. 洲际酒店集团与南方航空宣布会籍匹配计划
  15. 试题 算法提高 陶陶摘苹果
  16. printf中%p的输出应用
  17. TP-LINK TL-WDN6200在Ubuntu 1804下使用
  18. Ubuntu 16.04 tf-faster-rcnn 在CPU下训练数据
  19. 码住丨这五款app打开了新世界的大门
  20. 【学习日记】手写数字识别及神经网络基本模型

热门文章

  1. 管理分区表:拆分、添加与交换分区
  2. 当android调试遇到ADB server didn't ACK以及顽固的sjk_daemon进程
  3. web scraper
  4. MATLAB|创建指定行列大小行向量/零矩阵/单位阵含测试用例
  5. CAD图纸中文字字体特别粗看不清楚怎么办?
  6. 解决html中表格线条粗细不一的问题
  7. 关于 Win10 截图 截屏 原生截图工具 基础使用
  8. 超级计算机燕 排名,正文 第一卷 六年之前 HK171 舍弃的超级计算机燕? (485加更)...
  9. 庄子·内篇·逍遥游第一(郭象注)
  10. 数据结构作业(校园导航系统)