最近在准备数据分析岗位的笔试,整理了牛客网上的一些试题与答案方便查看。

本文转载出处: https://blog.csdn.net/weixin_44915703/article/details/94763548

1. 想要了解上海市中学生的身高,从中抽取了1000个样本,这项调查中的样本是

**A. 上海市全部中学生
B. 上海市全部中学生的身高
C. 从中抽取的1000名中学生
D. 从中抽取的1000名中学生的身高 **

正确答案:D

举一反三
对应《小红书2019年校园招聘数据分析岗位在线笔试第二批》的第1题,考察知识点「抽样」。

2.偏态分布一般用以下哪个指标描述集中趋势

**A. 标准差
B. 平均值
C. 中值
D. 方差 **

正确答案:C

「题目解析」
正态分布用「期望」描述集中趋势;
正态分布用「标准差」描述离散程度;
偏态分布用「中值median」描述集中趋势。

举一反三
《小红书2019年校园招聘数据分析岗位在线笔试第二批》第2题,考察偏态分布;
《小红书2019年校园招聘数据分析岗位在线笔试第二批》第5题,考察正态分布的集中趋势;

3. 在以下不同的场景中,使用的分析方法不正确的有

**A. 根据商家最近一年的经营及服务数据,用聚类算法判断出小红书商家在各自主营类目下所属的商家层级
B. 用关联规则算法分析出对护肤内容有兴趣的用户,是否对彩根据妆内容感兴趣
C. 根据用户最近购买的商品信息,用决策树算法识别出用户是男是女
D. 根据商家近几年的成交数据,用聚类算法拟合用户未来一个月可能的消费金额公式 **

正确答案:D

「题目解析」
D应当用回归分析拟合。

4. 用算法拦截可疑笔记,描述拦截的笔记中有多少是真的可疑笔记是

**A. AUC
B. ROC
C. Recall
D. Precision **

正确答案:D

?分类器的评价

ROC曲线
接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。
横轴:(1-Specificity)
纵轴:Sensitivity(正类覆盖率)

Specificity = TN / Total actual negative
Sensitivity = TP / Total actual positive = TP / (TP+FN)

AUC
ROC曲线与轴围成的面积

Recall
Recall 即 Sensitivity = TP / Total actual positive

Precision
Precision = TP / Total predicted positive

Accuracy
Accuracy = (TP+TN) / Total

F1:Precision和Recall的调和均值
2/ F1 = 1/Precision + 1/Recall

5. 当总体分布未知的情况下,可以采用以下哪种检验方法?

**A. T检验
B. 方差分析
C. F检验
D. KS检验 **

正确答案:D

「题目解析」

t检验:适用小样本,总体标准差未知的正态分布;比较两个平均数的差异是否显著。
方差分析(Analysis of Variance,简称ANOVA):又称“变异数分析”,用于两个及两个以上样本均数差别的显著性检验。
F检验:(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses
test),此外也称方差比率检验、方差齐性检验。它是一种在零假设(null hypothesis, H0)之下,统计值服从F-分布的检验。
ks检验:Kolmogorov-
Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max|
f(x)- g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则则接受H0假设。

6. 在做数据分析中,如何处理异常或是缺失数据,请选择一下你认为正确的答案

**A. 不处理
B. 删除元组
C. 数据补齐
D. 以上全对 **

正确答案:D

7. 下列哪一项不是描述连续变量的

**A. 二项分布
B. 泊松分布
C. 超几何分布
D. 正态分布 **

正确答案:A B C

?常用离散随机变量分布

![](https://img-blog.csdnimg.cn/20190822152429521.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1lZSXZlcnNvbg==,size_16,color_FFFFFF,t_70)

![](https://img-blog.csdnimg.cn/20190822152451700.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1lZSXZlcnNvbg==,size_16,color_FFFFFF,t_70)

![](https://img-blog.csdnimg.cn/20190822152514801.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1lZSXZlcnNvbg==,size_16,color_FFFFFF,t_70)

![](https://img-blog.csdnimg.cn/20190822154046695.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1lZSXZlcnNvbg==,size_16,color_FFFFFF,t_70)

8. 下列关于相关系数的说法,正确的是

**A. 相关系数的数值越大,说明两个变量之间的相关程度越高
B. 若相关系数r=0,则表明两个变量之间不存在任何相关关系
C. 若相关系数>0,则称两个变量正相关;若相关系数<0,则称两个变量负相关
D. 相关系数取值范围是(-1,1) **

正确答案:A C

「题目解析」
B: r=0,只说明线性无关,不明确非线性关系;
D:-1和1可取,所以应该是闭区间。

**9. 如下SQL建表语句:
create table goods_info(goods_id INT primary key, goods_name char(8) not
null,category char(20),amount INT),那么可以插入到该表中的数据是? **

**A. (1234, ‘口红’, ‘化妆品’, 5)
B. (NULL, ‘口红’, 化妆品, ‘5’)
C. (‘1234’, NULL, NULL, ‘5’)
D. (1234, ‘口红’, NULL, NULL) **

正确答案:A D

「题目解析」
主键不能为空,故排除B;根据代码,goods_name不能为空,故排除C。

10. 已知一个家庭有两个小孩,且已知家中至少有一个男孩,则家中至少有一个女孩的概率是(填分数)

正确答案:2/3

?条件概率

「题目解析」
一个家庭中有两个小孩只有4种可能:{(男,男),(男,女),(女,男),(女,女)}。

设事件A为“至少有一个男孩”,事件B为“至少有一个女孩”,则
A = {(男,女),(男,男),(女,男)},
B = {(男,女),(女,男),(女,女)},
AB = {(男,女),(女,男)}

故,P(A) = 3/4; P(AB) = 2/4

P(B | A) = P(AB) / P(A) = 2/3。

11.having、where、group by语句同时出现在一段sql代码中,那么他们正确的出现的顺序是

正确答案:
(1) where
(2) group by
(3) having

12. 某地区居民以同样多的人民币,2006年比2005年少购买5%的商品,则该地的物价上涨了?%(保留一位小数)

正确答案:5.3

「答案解析」

今年100块钱,买100个鸡蛋,每个1元,明年100块钱买95个鸡蛋,每个100/95元,物价上涨率:(100/95-1)/1

**13、需求:当前希望分析产品上线两周后,页面的使用人群特点(年龄、性别、城市)和页面上不同入口点击率(页面上各种按钮、超链接等等的点击次数/页面访问次数)的关系。
拿到的数据格式为csv格式,每行数据包括:用户操作时间、用户id、用户对应的信息(好几列,年龄、性别、城市)、操作行为(访问、点击)、被操作模块名称(访问行为此列为空,点击行为此列为被点击入口的名称),示例如下
**

**任务:对过去两周产品的使用人群特点和入口点击率进行描述和可视化作图,说明上两周的现状情况。要求:从整体角度描述提到两个指标的变动情况;将不同入口点击率按照人群特点进行划分,描述不同人群的入口点击偏好、对某个入口点击率的差异。
问题1:简述一下拿到这个数据文件后你根据任务所规划的处理步骤(画图or文字描述皆可,文字描述需要写清步骤序号)。
问题2:列出你能够使用以及知道了解的软件名称-对应功能名称-
用来处理什么内容(功能名称可以是程序包、具体某个包后插件下的function、使用的图的类型名称等),请把答案是属于“掌握”(知道名字,辅以简单查询后可以自己做出来)还是“了解”(听过这个名字,但没有实践应用过)分成两个部分。
(举例:掌握:excel-图表-柱状图-作图说明不同年龄群有多少人) **

参考答案:

清洗->(以xx维度拆分->组合->)计算人群特点->统计整体不同特征人群人数,计算总体入口点击率->描述趋势->拆分计算入口点击率->细分对比,描述每个细分人群的特点->挑出重点进行阐述(希望知道候选人拿到任务之后如何开展自己的工作,对工作步骤是否能有自己的思路)
举例:能够使用:excel-图表-柱状图-作图说明不同年龄群有多少人;能够使用:R-ggplot2-plot+pie_chart-
可视化,说明不同城市的人群占比;知道了解:R-dplyr-数据清洗(希望可以知道候选人在数据分析这个方面技能上是否有积累、过去的水平)

【民间回答参考】:

首先进行数据预处理过程,进行必要的检查,数据重复,缺失值,异常值等问题
分析人群特点:可以按照总体特征的分布情况对人群进行分类,总结人群特点,比如按年龄或者城市分档,也可以两者结合起来作为一个人群特点进行分析。
入口点击率:对总体入口点击率进行趋势分析;然后拆分计算入口点击率,进行细分对比。可以结合人群特点进行分析,挑出重点进行阐述。比如点击率最高的集中是哪个年龄层的用户,某个年龄层内最高的点击率的操作对象是什么,等等。
掌握:excel-图表-柱状图、折线图、甘特图、双层饼图-作图说明用户年龄分层情况和点击率的分布情况
掌握:excel-数据透视表-(切片器)-通过数据透视表进行用户年龄分布和入口点击率的分布情况
掌握:python-matplotlib-hist-作图说明用户人群特点的年龄、城市分布情况

**14. 假设:浦东机场近日因车位紧张导致车流堵塞;为了解决这个问题,领导打算扩建停车场并且让你预估需要添加的车位数量。
1、请写出你认为需要的辅助数据
2、如果给你题1中你需要的数据,请阐述你如何使用这些数据预估车位数量。 **

民间回答参考

1.需要历史访问车次数据,访问的时间,离开的时间

2.统计平均每辆车停车时长t1

以t1作为time interval统计平均每t1时间段内访问车辆数量lambda

以t1作为时间区间,每区间内访问车辆数量为k的概率P(k)满足泊松分布P(k) = exp(-lambda)*lambda^k/k!

此时,我们有,下一个时间段t1内访问车次的数量为k1的概率P(k1),此时上一个时段进来的车辆已经开始陆续离开(平均停留时间t1)

因此,假如我们要求95%的概率不会出现拥堵,则可以让p(k1) = 0.95 求出 k1。则k1 - 现有车位,就是我们要扩建的数量。

【笔试题目整理】小红书2019年校园招聘数据分析岗位在线笔试第一批相关推荐

  1. 【笔试题目整理】小红书2019年校园招聘数据分析岗位在线笔试第二批

    最近在准备数据分析岗位的笔试,整理了牛客网上的一些试题与答案方便查看(只摘部分). 今日真题 小红书2019年校园招聘数据分析岗位在线笔试第二批(来源:牛客网) 题型 客观题:单选6道,不定项选择3道 ...

  2. 数据分析真题日刷 | 小红书2019年校园招聘数据分析岗位在线笔试第二批

    今日真题 小红书2019年校园招聘数据分析岗位在线笔试第二批(来源:牛客网) 题型 客观题:单选6道,不定项选择3道,填空3道: 主观题:问答2道 完成时间 120分钟 牛客网评估难度系数 3颗星 经 ...

  3. 数据分析真题日刷 | 小红书2019年校园招聘数据分析岗位在线笔试第一批

    今天是7月5日,进入「数据分析真题日刷」的第五套题啦,继续保持. 今日真题 小红书2019年校园招聘数据分析岗位在线笔试第二批(来源:牛客网) 题型 客观题:单选6道,不定项选择3道,填空3道 主观题 ...

  4. 【笔试题目整理】吉比特2018秋招数据分析岗位试卷A卷

    最近在准备数据分析岗位的笔试,整理了牛客网上的一些试题与答案方便查看(只摘部分). ps:在牛客网搜索框搜索"数据分析",点击搜索分类版块"试卷"即可看到笔试套 ...

  5. 小红书2019年校园招聘:字符串压缩算法

    字符串压缩算法: 题面: 输入一串字符,请编写一个字符串压缩程序,将字符串中连续出现的重复字母进行压缩,并输出压缩后的字符串. 例如: aac 压缩为 1ac xxxxyyyyyyzbbb 压缩为 3 ...

  6. 笔试 | 东方财富 2020 春季校园招聘后端开发在线笔试【Python】【C++】【字符串】【动态规划】

    东方财富 2020 春季校园招聘后端开发在线笔试[Python][C++][字符串][动态规划] 一.单选题 一共有 256 个结点的二叉树高度最小是多少:8. 读程题,选出正确的程序输出结果. 不记 ...

  7. 微软2016校园招聘9月在线笔试题解

    微软2016校园招聘9月在线笔试题解 题目网址列表:http://hihocoder.com/contest/mstest2015sept2/problems 题目一分析: 问题描述:在二维坐标系中, ...

  8. 字节跳动2019校园招聘研发岗位在线第三次笔试-2018.09.09

    前四道题都是LeetCode原题,题号在注释中给出 //求字符串最大不重复子串 LeetCode 第3题 #include <iostream> #include <cstring& ...

  9. 小红书2023届校园招聘正式启动!

最新文章

  1. torch.nn.Embedding
  2. WordPress 2.9.2 使用感受
  3. mysql的存储过程原理_mysql存储过程原理与用法详解
  4. 链表面试题2:编写代码,以给定值x为基准将链表分割成两部分,所有小于x的结点排在大于或等于x的结点之前
  5. android中tools的含义及用法
  6. add p4 多个文件_绘图技巧01:继承特性创建对象之神器ADD
  7. java递归mysql生成树_java递归生成树结构的数据
  8. gimp 去掉一个颜色的背景_把拍出来的图片文件的背景阴影去掉——用GIMP色阶功能修图
  9. 数据库Sharding的基本思想和切分策略(转)
  10. LNMP 常见问题(FAQ)
  11. 什么样的域名是一级域名?和二级域名有什么关系?
  12. Mac系统安装numpy
  13. 五种“网络钓鱼”实例解析及防范技巧(转)
  14. 移动apn接入点哪个快_提升移动联通电信网速
  15. HTTPS/数字证书/数字签名
  16. Weakly-Supervised Semantic Segmentation via Sub-category Exploration
  17. 官方大大的的邮寄快递到啦
  18. ubuntu安装微信,QQ等软件
  19. RGB 常用颜色对照表
  20. java实现生日相同概率

热门文章

  1. P值和假设检验里的α值
  2. 制造业档案管理系统乃是制造业行业的档案管理选择
  3. samtools命令大全
  4. 八、Scala从入门到精通一一面向对象编程(高级特性)
  5. 高中职校计算机要不要学英语作文,职业高中对口高考英语作文写作之我见
  6. EasySwoole教程
  7. 数据产品的价值是什么?
  8. uniapp中的getApp().globalDate.
  9. 【202209-2 何以包邮?】
  10. 深度学习-神经网络CNN-感受野大小的计算公式有哪些?可能会遇到哪些坑?如何理解感受野大小的计算公式?