1、如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买;价格每增加1元,客人的流失的可能性就会增加1%。那么该商户给客人报出最优价格为()

A、520
B、535
C、550
D、565

答案:C

解析:
要求定价为多少时,利润能最大。设价格涨幅为x,利润为y,M为顾客数未知,但是一个固定值。求二元一次方程y=M(1-x/100)x的最大值。


2、在一次集卡活动中,有5种不同的卡片以相同的概率出现,每分享一次笔记就可以得到一张卡片,集齐所有卡片所需点赞的笔记数量的期望,与以下哪个结果最为接近?()

A、9
B、11
C、13
D、15

答案:B

解析:
考察多个几何分布的和。

首先题目符合几何分布,独立试验->拿到一种卡片的概率相同->为了集齐卡片要进行多少次试验。对于几何分布,若其每次成功的概率为p,则期望为1/p.

回到本题,有几种情况:

  • 假设这里面只有一种卡片,拿一次就拿齐了所有卡片,期望是1
  • 假设这里面有两种卡片,第一次肯定能拿到一种,那么,再拿多少次可以拿到剩下的那种呢,就又变成了一个几何分布,p = 1/2,期望是2,所以总的期望是1+2=3
  • 假设这里面有3种卡片,第一次肯定拿到了一种,期望是1,第二次要拿剩余的两种的一种,p = 2/3,期望是3/2,第三次要拿到第三种,p = 1/3,期望是3,所以整体的期望是1+3/2+3=11/2
  • 依次类推,5种卡片,全部拿齐的期望应该是:
    第一次拿到了1种,期望是1,第二次拿到剩余4种中的1种,p=4/5,E=5/4,第三次拿到剩余3种中的1中,p=3/5,E=5/3,第四次拿到剩余2种中的1中,p=2/5,E=5/2,第五次拿到剩余1种,p=1/5,E=5。
  • 总的期望就为:1+5/4+5/3+5/2+5,约等于11.42

这和集5福是一个道理。
可参考这个博主的文章->
用概率告诉你:集齐 “五福” 要多久


3、在excel中如何将列a的字符值与列b的字符值合并为一个字符串c()

A、c=a+b
B、c=a&b
C、c=a and b
D、c=a*b

解析:
考察Excel基本用法

Excel中字符的合并是用“&”符号,也可以用函数CONCATENATE。Python中字符串的拼接用“+”
SQL中字符拼接可以用“+”,也可以用concat函数


4、select count(open) count(distinct user_id) from temp1
()
A、3,4
B、5,5
C、5,3
D、3,5

这道题不懂是什么意思,没有给表。


5、调查全公司1000名员工平均交通费用支出情况,采取不重置抽样,从其中抽取100名进行调查。根据以往调查可知总体方差s²为100,则样本均值的方差为 ()

A、0.1
B、1
C、100/111
D、10/111

答案:C

解析:
不重置抽样时,样本均值的方差用以下公式来计算:

100/100x(1000-100)/(1000-1)=100/111


6、已知2-5月环比增长速度分别为5.6%、7.1%、8.5%、6.4%,则5月对比1月的增速是 ()

A、5.6%7.1%8.5%6.4% B、(105.6%107.1%108.5%106.4%)-100%
C、(5.6%7.1%8.5%6.4%)+100% D、105.6%107.1%108.5%106.4%

答案:B

解析:
考察定基增速与环比增速

5月对比1月的增速是定基增长速度,定基增速与环比增速两者之间没有直接的换算关系,在由环比增长速度推算定基增长速度时,可先将各环比增长速度加1后连乘,再将结果减1,即得定基增长速度,则定基增长速度为(107.8%×109.5%×106.2%×104.9%)-100%。


7、“鱼与熊掌不可得兼”的意思是:()

A、要么得鱼,要么得熊掌
B、得熊掌就不得鱼
C、或者得鱼,或者得熊掌
D、不得熊掌就得鱼

答案:B

解析:
考察互斥事件

鱼和熊掌是互斥事件,只有其中一个会发生,只有B是这个意思


8、以下哪些是判别模型?()--多选

A、隐马尔可夫
B、决策树
C、支持向量机
D、朴素贝叶斯
E、最大熵模型

答案:BCE

解析:
考察机器学习算法的基本概念

决策树、支持向量机、最大熵模型属于判别模型,典型的判别模型还有KNN、逻辑回归、神经网络等。朴素贝叶斯、隐马尔科夫属于生成式模型。

关于判别模型和生成模型,博文机器学习之判别式模型和生成式模型 - nolonely - 博客园 举了一个例子:

  • 判别式模型举例:要确定一个羊是山羊还是绵羊,用判别模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。
  • 生成式模型举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,在放到绵羊模型中看概率是多少,哪个大就是哪个。

9、下列Excel公式输入的格式中,正确的有()

A、=SUM(1,2,,,,99,100)
B、=SUM(E1:E6)
C、=SUM(E1;E6)
D、SUM(“18”,”25”,7)

答案:B

解析:
考察Excel基本用法

Excel里sum函数求和的用法为B选项


10、关于正态分布,下列说法正确的是()--多选

A、正态分布具有集中性和对称性
B、正态分布的均值和方差决定正态分布的位置和形态
C、正态分布的偏度为0,峰度为1
D、标准正态分布的均值为0,方差为1

答案:ABD

解析:
考察正态分布的基本知识

正态分布曲线对称,具有对称性,均值和中位数位于中央,具有集中性。
正态分布的均值决定了曲线的中央位置,方差指出了分散性,也就是方差越大,曲线越扁平、越宽,决定了其形态。
标准正态分布的均值为0,方差为1。
标准正态分布的偏度为0,峰度为0。


11、X服从区间(1,5)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于2的概率()

答案:27/32

解析:
考察二项分布用法

三次独立观测满足二项分布X~B(3,3/4)

这里大于2的概率p=3/4,q=1/4,n=3
要求至少2次观测值大于2的概率,就是求P(X=2)+P(X=3)
P = 3!/2!(3-2)!(3/4)^2(1/4)+3!/3! * (3/4)^3
=3(3/4)(3/4)*(1/4)+ (3/4)^3
=27/32

关于二项分布,可参考我之前的文章:
离散型随机变量的概率分布


12、抽样估计的优良标准有三个:(),影响时间序列的因素有四个:()

答案:无偏性、一致性、有效性;长期趋势、季节变动、循环波动、不规则波动

解析:
考察统计学中的抽样估计、时间序列的基本概念

概念性问题


13、请给出三种常见的聚类算法:()

答案:K-means聚类、K-中心点聚类、EM算法、OPTICS算法、DBSCAN算法等

解析:
考察聚类算法的基本概念


14、小红书人脸识别系统识别当前进入小红书公司人员的身份,此系统一共识别三种不同的人员:员工,送餐员和陌生人。哪种学习方法适合此种应用需求()

答案:多分类

解析:
考察机器学习的应用


15、小红书在首页上线了一个新的模块,目的是为了提升用户的浏览时长,请设计一套分析方案,衡量模块上线后对用户停留时长是否有提升?

解析:
思路A/B Test,后面第19题再详细说它。


16、下表是某电商在不同品类不同月份的销量数据
(1) 请用sumif或 sumifs在F3单元格实现计算洗面奶在201901的销量
(2) 请用函数实现计算洗面奶有几个月的销量超过了100万
(3) 请用函数计算洗面奶这个品类的月复合增长率

答案:
=SUMIFS(C4:C15,B4:B15,E4,A4:A15,F3)
=COUNTIFS(B2:B13,B2,C2:C13,">100")​
pow(160/120,1/3)-1

解析:
考察Excel的实际应用

第一题考察SUMIFS函数用法,这个函数是用来进行条件求和的,该函数至少有三部分参数:

  • sum_range:指进行求和的单元格或单元格区域(求和区域)
  • criteral_range:条件区域,在求和时,该区域将参与条件的判断
  • criterl:通常是参与判断的具体一个值,来自于条件区域
    把这个函数展开具体来看就很简单了:

第二题考察COUNTIFS函数的用法,这个函数是用来进行条件计数的,它的参数:

  • criteria_range[N]:指要进行计数的单元格或单元格区域(条件区域)
  • criteria[N]:条件值。
    这个公式展开后同样非常好理解:

第三题是复合增长率的计算,它的公式是:
(现有价值/基础价值)^(1/期数) - 1
这里要计算的是洗面奶的月复合增长率,Excel里用power函数计算乘幂。


17、有订单事务表orders:

orders

有收藏事务表favorites:

favorites

请用一句SQL取出所有用户对商品的行为特征,特征分为已购买、购买未收藏、收藏未购买、收藏且购买(输出结果如下表)

结果

答案:

SELECT o.user_id,o.item_id,
(CASE when o.pay_time is not null then 1 else 0 end) as '已购买',
(CASE when o.pay_time is not null and f.fav_time is null then 1 else 0 end) as '购买未收藏',
(CASE when o.pay_time is null and f.fav_time is not null then 1 else 0 end) as '收藏未购买',
(CASE when o.pay_time is not null and f.fav_time is not null then 1 else 0 end) as '收藏且购买'
FROM orders o
LEFT JOIN favorites f
ON o.user_id = f.user_id
AND o.item_id = f.item_id
UNION
SELECT
f.user_id,f.item_id,
(CASE when o.pay_time is not null then 1 else 0 end) as '已购买',
(CASE when o.pay_time is not null and f.fav_time is null then 1 else 0 end) as '购买未收藏',
(CASE when o.pay_time is null and f.fav_time is not null then 1 else 0 end) as '收藏未购买',
(CASE when o.pay_time is not null and f.fav_time is not null then 1 else 0 end) as '收藏且购买'
FROM orders o
RIGHT JOIN favorites f
ON o.user_id = f.user_id
AND o.item_id = f.item_id
ORDER BY user_id, item_id;

解析:
考察SQL语句中的case when、外连接、union的用法


18、好评率是用户对产品评价的重要指标。现在需要统计2019年3月1日到2019年3月31日,用户'小张'提交的"母婴"类目"DW"品牌的好评率(好评率=“好评”评价量/总评价量),请写出SQL/Python/其他语言查询语句:
用户评价详情表:a
字段:id(评价id,主键),create_time(评价创建时间,格式'2019-01-01'), user_name(用户名称),goods_id(商品id,外键) ,
sub_time(评价提交时间,格式'2019-01-01 23:10:32'),sat_name(好评率类型,包含:“好评”、“中评”、“差评”)
商品详情表:b
字段:goods_id(商品id,主键),goods_name(商品类目), brand_name(品牌名称)

答案:

select
sum(case when sat_name = '好评' then 1 else 0 end)/sum(case when sat_name is not null then 1 else 0 end) as '好评率'
from a join b on a.goods_id = b.goods_id
where a.user_name = '小张'
and goods_name = '母婴'
and brand_name = 'DW'
and create_time between '2019-03-01' and '2019-03-31'

解析:
考察SQL语句


19、经过一番研究后,我们开发出了商品页面上“相关商品”模块的一个新的推荐算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来对新的算法效果进行评估。假设你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?(假设需要数据都可取到)请按重要性列出最重要的三个指标并给出你的分析过程/思考。

解析:

  • 指标:相关商品的点击/曝光量;进入商品详情页后加购/立即购买的转化率;销售总额
  • 方法:假设检验

假设检验可以这样做:
1、确定原假设和备则假设
原假设:使用新算法后没有效果(上述指标不变或下降)
备则假设:使用新算法后有效果(上述指标提高)
2、选择一个时间段进行AB Test
3、T检验,计算P值
4、分析结果:如果使用新算法后的指标远低于没有用新算法的指标,如果新算法没有效果,出现这一结果的概率是很低的,因此拒绝原假设,即使用新算法后有效。

原理:小概率反证法


20、如果我们发现,某店铺的X品类在今年3月的销量,比去年3月的销量下降了50%,如果你是负责此次分析的数据分析师,你会如何分析?请写出你的分析思路/过程/想法。

解析:
开放性问题,放一个我的思路吧:

  • 排除数据本身的问题:首先是确定数据是否正确,数据来源、口径是否无误,然后再接下去分析;
  • 确认跌幅合理性:下降了50%,结合环比,同比,同期群分析它的跌幅是否合理;
  • 分析外部原因:有哪些可能的外部原因和下降有关,有关到什么程度,比如是否是其他相关部门进行了产品迭代、运营策略的调整、设备故障等因素;
  • 分析内部原因:这就可以从多个维度进行分析了,比如从用户、产品、市场的角度分别分析,还可以进行指标拆分;
  • 确认影响程度:确认到底是哪一环节出了问题导致指标的下降,该指标的下降对关键指标有无影响,影响程度如何;
  • 制定巩固措施:以后怎么避免该类问题发生。

21、某APP 7月份DAU比同年5月份上涨了10%,作为数据分析师,你会从哪些方面分析DAU增长的原因? 请列举至少两种以上拆分思路。

解析:
这题和上一道题很像,一个是指标为什么下跌,一个是指标为什么上涨。但这题更注重考查分析内部原因这块,但是首先最重要的,都是要检查数据的准确性。

这里贴一个网友的答案,思路非常清晰(来源:牛客网):


22、挑选任意一款你使用过的社区类APP(不包括小红书),回答以下问题:
(1)描述使用这款APP的用户特征,并比较该APP用户特征与小红书用户特征的异同
(2)预估每一天有多少人在这款app上发布内容。请写出你需要的辅助数据,并简述预估的方法
(3)你选择的这款APP近期拟邀请ABC三组艺人中的一组开展联动活动,活动的主要目的为提升DAU。
在活动形式完全一致的前提下,你将选择哪一组?
作答要求:1)简述分析思路,2)列出对应的数据指标

解析:
开放性题目。


23、经过一番研究,我们决定在新用户首次激活APP时增加一个短视频介绍页面来增加用户对产品的感知,并且打算通过AB Test(50%为控制组,50%的用户首次激活时会看到短视频介绍)来进行评估。假如你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?请列出你认为重要的指标,给出分析过程和可能用到的统计方法。

解析:
目的应该是了解用户在观看短视频介绍页面后的行为,以此来判断短视频介绍页面是否有用。

  • 指标:关注实验组短视频点击率,跳出率,观看时长,对比两个组的用户激活量,注册激活率,以及后续的留存情况。
  • 方法:假设检验

24、小红书上海办公室楼下有一便利店,面积约为20平方米,主要提供零食及饮料。请预估该便利店每周的营业额是多少?

解析:
预估这种问题,主要方向是进行一个逻辑拆解,把一个复杂的问题拆解成具体、简单的问题。贴其中的一种思路,大家看看吧:

营业额可以拆分为客流量X平均消费额。面积20平,10平放置货物,10平顾客区,可以同时容纳5个顾客,假设消费时长人均10分钟,那么一个小时客流量30人,人均消费25元,一天10个小时营业时间,每周营业额302510*7=52500元。


25、如果APP有一个功能是用户的位置信息能够每隔1分钟上传一次数据库,那么怎么发挥它的作用?

解析:
这题的回答方向应该是用这个用户的位置信息能做什么事。比如根据位置信息可以获取用户的行为轨迹,进而分析出用户的行为习惯,进行相应的实时推荐服务等。

总结

  • 有些题目考察统计学知识,如几何分布、二项分布的应用;
  • 有些题目是比较基础的数学题,如求二元一次方程最大值、增速等;
  • 考察Excel的基本用法,如公式写没写对;
  • 考察机器学习、统计学的一些基本知识点,如都有哪些聚类算法等,知道就行;
  • 考察SQL的应用,两道大题直接写SQL,比较重要;
  • 大题里重点考察A/B Test的应用,3道题的思路都有它,非常重要。

2020年小红书校招数据分析笔试题详解相关推荐

  1. 2020年小红书校招数据分析笔试题

    今天给大家带来2020年小红书校招的数据分析笔试题的详解 1.如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买:价格每增加1元,客人的流失的可能性就 ...

  2. 小红书2020校招数据分析笔试题卷四 解析

    小红书2020校招数据分析笔试题卷四 解析 单选题 多选题 填空题 简答题 题目来自小红书2020校招数据分析笔试题卷四 单选题 如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价 ...

  3. 迅雷2021校招数据分析笔试题 B卷

    时间:9.28投递的迅雷数据分析岗,10.15收到笔试通知于10.19号19:00-20:35参加迅雷2021校招数据分析笔试题 B卷. 试卷回忆版:共有三种题型:单选题(20个,每个3.5分).多选 ...

  4. 蘑菇街2015校招 Java研发笔试题 详解,2015java

    蘑菇街2015校招 Java研发笔试题 详解,2015java 1. 对进程和线程描述正确的是( ) A.  父进程里的所有线程共享相同的地址空间,父进程的所有子进程共享相同的地址空间. B.  改变 ...

  5. mysql 笔试题_MySQL笔试题详解(一)(中等难度)

    有一位学生在找数据分析工作的时候,遇到一个笔试题,内容如下: 现有注册用户表table_user,有两个字段:user_id(用户id).reg_tm(注册时间).有订单表table_order,有三 ...

  6. c语言进阶(3)——指针进阶笔试题详解

    1.指针和数组笔试题解析 关键:数组名在两种情况下是指整个数组: (1)sizeof(数组名)(2)&数组名 其它的情况下,都是代表数组的首元素地址. 例题 1 :一维数组 int main( ...

  7. 2020届IC企业校招部分笔试题

    1 AMD 1.1 if A=4'b0011,B=3'b110 and C=4'b1110,then which one is the correct result for expression of ...

  8. 2018 美团校招笔试题详解

    栈必考题目 栈和队列必考题目 不选安全性,可以猜出是ABD 操作系统死锁的题目经常考 这题也是一道必考题 二叉树必考题 第一张抽出红的,第二张抽出黑的,概率是P=1/2* 26/51 第一张抽出黑的, ...

  9. 2019 快手校招笔试题详解

    可以理解为把5本书插到14本书的中间,即加头尾的15个空格里,有多少种组合.因为不能相邻,所以是有C(15, 5) = 3003 种方法 实际做的时候可以先计算C(19,5),可以在A,B中选一个,大 ...

最新文章

  1. Non-Maximum Suppression,NMS非极大值抑制
  2. 蓝凌ekp开发_蓝凌EKP8.0产品白皮书(简).doc
  3. 怎样查看电脑系统版本_微信7.0.0自动更新后怎样去还原以前的旧版本?
  4. [Android] android的消息队列机制
  5. 换肤的css,换肤功能,css文件中准备三套颜色
  6. Excel中的数组函数
  7. AI 深度关键短语生成
  8. Tableau安装与破解
  9. 【转载】Android网络开发案例
  10. 解决域用户安装软件权限问题
  11. php 连接 mysql 8.0
  12. 离线安装mumu模拟器的方法
  13. 域远程管理计算机,远程控制局域网电脑 图解局域网怎么远程控制
  14. hacker与cracker区别
  15. php正则判断数字和英文,PHP正则匹配中英文、数字及下划线的方法【用户名验证】...
  16. Unity获取包名,产品名,版本号等
  17. java图片合成视频
  18. python爬虫动态加载页面_Python+Selenium爬取动态加载页面(2)
  19. 深圳Go培训:Go语言适合干什么?
  20. 为什么0x100是256个字节、0x400是1KB、0x800是2KB、0x1000是4KB?

热门文章

  1. Delphi7中不用控件连接sqlite
  2. NLP自然语言处理系列- week6-文本生成案例(4)(PGN模型代码)
  3. python 桌面标签显示电脑ip和mac地址
  4. 半导体器件与集成电路实验报告 实验二 PN结电容的测量
  5. 输出IMG格式SAR图像——Envi软件安装与看图
  6. 【代码审计】审计基础
  7. Typora 的下载安装 简单使用
  8. HI3521D 烧录128M nand flash文件系统
  9. java mysql 酒店信息,java+mysql酒店信息管理系统的设计论文
  10. android模拟器一直显示启动中,蓝手指安卓模拟器(BlueStacks)一直显示“启动中”如何解决?...