小红书2020校招数据分析笔试题卷四 解析
小红书2020校招数据分析笔试题卷四 解析
- 单选题
- 多选题
- 填空题
- 简答题
题目来自小红书2020校招数据分析笔试题卷四
单选题
- 如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买;价格每增加1元,客人的流失的可能性就会增加1%。那么该商户给客人报出最优价格为550元
题解:这里500元为成本,总利润 = 单件利润 * 成交数量
设 定价为x 总利润 = (x -500) * (1 - (x - 500)/100 ) = -1/100x2 +11x-3000
x = -b/2a = 550
- 在一次集卡活动中,有5种不同的卡片以相同的概率出现,每分享一次笔记就可以得到一张卡片,集齐所有卡片所需点赞的笔记数量的期望,与以下哪个结果最为接近?11
题解:对于一个几何分布,每次成功概率为p,期望就是1/p
首先考虑从拥有0种到拥有任意1种卡片需要抽取的卡片数量的期望,易知E0=1=5/5;
再考虑从拥有1种卡片到拥有任意2种卡片需要抽取的卡片数量的期望,此时每抽取一张卡片,有4/5的概率完成此事件,因此期望E1=5/4;
依次类推,收集5种卡片的期望是E=1+5/4+5/3+5/2+5/1≈11.42
- 在excel中如何将列a的字符值与列b的字符值合并为一个字符串c
题解:c=a&b
- 调查全公司1000名员工平均交通费用支出情况,采取不重置抽样,从其中抽取100名进行调查。根据以往调查可知总体方差s²为100,则样本均值的方差为 100/111
题解:在重置抽样时,样本均值的方差为总方差的1/n,即s2 /n
在不重置抽样时,样本均值的方差为 s2 /n * (N - n)/(N - 1)
100/100 * 900/999 = 100/111
- 已知2-5月环比增长速度分别为5.6%、7.1%、8.5%、6.4%,则5月对比1月的增速是
题解:由环比增长速度推算定基增长速度,可先将各环比增长速度加1后连乘,再将结果减1 定基增长速度:(105.6%×107.1%×108.5%×106.4%)-100%
- “鱼与熊掌不可得兼”的意思是:
- 要么得鱼,要么得熊掌
- 得熊掌就不得鱼
- 或者得鱼,或者得熊掌
- 不得熊掌就得鱼
题解:熊掌与鱼互斥(互斥时间),但并不互补(对立时间),可能还有其他东西可选
得熊掌就不得鱼
多选题
- 哪些是判别模型?
判别式模型:线性回归、逻辑回归、线性判别分析、支持向量机(SVM)、CART(决策树) 、神经网络(NN)、高斯过程、条件随机场(CRF)
生成式模型:朴素贝叶斯、K近邻、混合高斯模型、隐马尔科夫模型(HMM)、贝叶斯网络、马尔科夫随机场、深度信念网路
- 关于正态分布,下列说法正确的是 以下都是
正态分布具有集中性和对称性
正态分布的均值和方差能决定正态分布的位置和形态
正态分布的峰度为3
标准正态分布的峰度和偏度都为0
标准正态分布的均值为0,方差为1
填空题
- X服从区间(1,5)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于2的概率
题解:P(X>=2) = $ C_3^2 $ * (3/4) * (1/4) + C33C_3^3C33 * (3/4)3 = 27/32
- 抽样估计的优良标准有三个
- 无偏性
- 一致性
- 有效性
- 影响时间序列的因素有四个
- 长期趋势
- 季节变动
- 循环波动
- 不规则波动
- 三种常见的聚类算法
题解:1. K-means聚类
2. EM算法(期望最大化算法)
3. optics算法、dascan算法
简答题
- 小红书在首页上线了一个新的模块,目的是为了提升用户的浏览时长,请设计一套分析方案,衡量模块上线后对用户停留时长是否有提升?
题解:
采用假设检验的方法衡量模块上线后对用户停留时长是否有提升
假定,用户停留时长为stay_time
将用户均匀分为两组,一组为对照组,一组为实验组。对照组不上线新模块,实验组上线新模块,采集对照组和实验组用户每天的浏览时长,分别为stay_time_X0,stay_time_X1
(1)原假设:用户停留时长没有提升,即,stay_time_X0 = stay_time_X1
备择假设 :用户停留时长提升,即,stay_time_X0 < stay_time_X1
(2)选取5%为显著性水平临界值
(3)计算最小样本量,采集数据 考虑到指标的周期性,时间周期选取2周。采集实验开始前一天,两组用户的数据,是否存在明显差异,如无,继续观察前两天的数据,是否存在异常。如无异常,继续采集数据。(保证用户同分布)
(4)使用T检验,计算p值
(5)得出结论:若p值<5%,则推翻原假设,备择假设成立,新的模块能显著提升用户停留时长。反之,不能推翻原假设,不能判断新的模块是否能提升用户停留时长。
- 请用一句SQL取出所有用户对商品的行为特征,特征分为已购买、购买未收藏、收藏未购买、收藏且购买(输出结果如下表)
CREATE TABLE orders (id int(11) NOT NULL,user_id char(11) NOT NULL,item_id int(11) NOT NULL,pay_time date NOT NULL,item_num int(11) NOT NULL,PRIMARY KEY (id,user_id,item_id));INSERT INTO orders VALUES(1,'001',201,'2018-08-31',1);
INSERT INTO orders VALUES(2,'002',203,'1987-06-26',2);
INSERT INTO orders VALUES(3,'003',203,'1996-08-03',1);
INSERT INTO orders VALUES(4,'003',203,'1997-08-03',1);CREATE TABLE favorites (id int(11) NOT NULL,user_id char(11) NOT NULL,item_id int(11) NOT NULL,fav_time date NOT NULL,PRIMARY KEY (`id`,`user_id`,`item_id`));INSERT INTO favorites VALUES(1,'001',201,'2018-08-31');
INSERT INTO favorites VALUES(2,'002',202,'1987-06-26');
INSERT INTO favorites VALUES(3,'003',204,'1996-08-03');-- 目标框架
user_id item_id 已购买 购买未收藏 收藏未购买 收藏且购买
select o.user_id, o.item_id,
(case when o.pay_time is not null then 1 else 0 end) as '已购买'
(case when o.pay_time is not null and f.fav_time is null then 1 else 0 end) as '已购买未收藏'
(case when o.pay_time is not null and f.fav_time is not null then 1 else 0 end) as '已购买且收藏'
from orders as o
left join favorites as f on o.user_id = f.user_id and o.item_id = f.item_id
union
select f.user_id, f.iteam_id,
(case when o.pay_time is null and f.fav_time is not null then 1 else 0 end) as '收藏未购买'
from favorites as f
left join order as o on o.user_id = f.user_id and o.item_id = f.item_id
order by user_id,item_id
好评率是用户对产品评价的重要指标。现在需要统计2019年3月1日到2019年3月31日,用户’小张’提交的"母婴"类目"DW"品牌的好评率(好评率=“好评”评价量/总评价量),请写出SQL/Python/其他语言查询语句:
用户评价详情表:a
字段:id(评价id,主键),create_time(评价创建时间,格式’2019-01-01’),user_name(用户名称),goods_id(商品id,外键) ,sub_time(评价提交时间,格式’2019-01-01 23:10:32’),sat_name(好评率类型,包含:“好评”、“中评”、“差评”)
商品详情表:b
字段:goods_id(商品id,主键),goods_name(商品类目), brand_name(品牌名称)
select sum(case when sat_name = '好评' then 1 else 0 end)/
sum(case when sat_name is not null then 1 else 0 end) as '好评率'
from a join b on a.goods_id = b.goods_id
where a.user_name = '小张'
and b.goods_name = '母婴'
and b.brand_name = 'DW'
and a.create_time between '2019-03-01' and '2019-03-31'
- 经过一番研究后,我们开发出了商品页面上“相关商品”模块的一个新的推荐算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来对新的算法效果进行评估。假设你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?(假设需要数据都可取到)请按重要性列出最重要的三个指标并给出你的分析过程/思考。
指标:
销售总额(GMV),反映新的推荐算法是否为商家带来更高的利润。
进入相关商品页面后的付费率(转化率),反映推荐商品是否是顾客所需要的;
相关商品的点击量,**ctr(相关商品卡片的点击/曝光)**直观的反映新的推荐算法推荐的商品是否吸引顾客;
过程:假设分析
设原假设为使用新的推荐算法后上述指标降低或不变,备择假设为使用新的推荐算法后上述指标增加
选择显著性水平临界值为5%,采集数据选择周期时间为2周,在数据采集前检查两组数据是否有明显差异,若无,继续采集数据
使用T检验,计算P值
分析结论,如果P值小于5%,那么原假设不成立,备择假设成立,即使用新算法后指标提升,反之无法推翻原假设,不能证明使用新算法后指标提升
- 如果我们发现,某店铺的X品类在今年3月的销量,比去年3月的销量下降了50%,如果你是负责此次分析的数据分析师,你会如何分析?请写出你的分析思路/过程/想法。
- 检验数据是否正确
- 指标拆分
销量 = 日均销量30=订单数(1-订单取消率-退货率)30;
退货率 = 退货数/订单总数,进一步分析退货原因:质量问题/恶意退货/客服服务问题;
订单取消率 = 订单取消数/订单总数,进一步分析订单取消原因,竞品性价比高/服务好/店面设计好/店铺评分高
订单数 = 咨询数(1-咨询流失率)+加入购物车*(1-购物车流失率)+直接下单 咨询流失定位原因回复不及时/不准确- 用户群体,老用户销量 新用户销量 不同渠道转化率
产品分析 ,产品是否更新,价格变动、产品周期性
市场分析,有什么活动、政策
将指标与同期进行对比,定位问题,同时关注关键指标GMV是否下降明显
- 某APP 7月份DAU(日活)比同年5月份上涨了10%,作为数据分析师,你会从哪些方面分析DAU增长的原因? 请列举至少两种以上拆分思路。
按短期和长期因素拆分
此处DAU上升现将其拆分为长期因素和短期因素,长期因素表现在用户量的长期趋势,如一年来app的日活指标都是呈上升态,可估算5月到7月按既往趋势的DAU增长量(换算为量而非百分比),比如使用移动平均等预测手法计算;在剔除了趋势增长量的基础上,考虑短期因素,考虑在7月和5月间有无重大社会事件、商业事件,社会事件可以是某种舆论造成App的关注度提升,商业事件可考虑商业合作和商业活动(618),可以以各月的舆论热度作为对比的指标。按内外部变化拆分
日活的变化第一是产品本身某个改动点获得认可,可以通过ABtest、用户研究等方式来检验;外部变化是市场环境,可以从市场趋势和市场竞争(交互作用)两方面来分析,市场趋势开始提倡或推动本类产品的增长(用户增长潜力),而从分割市场的角度解释市场竞争,一个固定容量的市场,一些产品倒下或增加,必将导致用户量的集中和分散,因此可考虑分析近几个月的行业舆情和竞争对手运营情况。按时空来拆分
可以将日活细拆为地区、城市的粒度,然后进行相应的对比,分析具体的日活增长点是某一个城市、还是某些城市还是所有城市,如果是某个或某几个城市,如可以分析这些城市的渗透率的变化,是否和其他日活变化不大的城市的渗透率相差较大,则可以归结于业务推广的功劳。若所有城市日活都在上升,则可以考虑该增长与野夫分析无关,考虑其他因素,如竞品退出、市场趋势、产品改进等有关
- 如果APP有一个功能是用户的位置信息能够每隔1分钟上传一次数据库,那么怎么发挥它的作用?
App可以根据定位信息获取用户的生活区域,从而分析出用户的消费水平,推荐相应价格区间适合用户消费的商品。
App可以根据定位信息获取用户的生活以及活动习惯,例如如果用户经常出入健身房可以推荐运动器材,如果用户经常出入服装店,美容店餐厅等地可以为用户推荐服装,美容项目等。
还原用户行为轨迹,交通拥堵分析,热点区域确定,各区域停留时长,从而确定用户的行为习惯,进行更好的服务提供、及消费迎合
小红书2020校招数据分析笔试题卷四 解析相关推荐
- 小红书2020校招前端笔试题卷三
小红书2020校招前端笔试题卷三题目地址 第一题 第一题我做错了以为是选错误的 第二题 第三题 解: JS中的执行机制(setTimeout.setInterval.promise.宏任务.微任务), ...
- 小红书2020校招算法笔试题卷一
小红书2020校招算法笔试题卷一 字符串倒序 薯队长带着小红薯参加密室逃脱团建游戏,首先遇到了反转游戏,小红薯们根据游戏提示收集了多个单词线索,并将单词按要求加一个空格组 成了句子,最终要求把句子按单 ...
- 小红书2020校招前端笔试题卷一
题目1-下列说法正确的是()多选 A: requestAnimationFrame(foo) 确保使浏览器在下一次重绘之前调用 foo 方法B: 在 addEventListener 的处理方法中使用 ...
- 小红书2020校园招聘笔试题-笔记草稿问题答案
1.因为之前用栈写过括号匹配的问题,所以想直接用栈解决此问题.后来发现不用栈更简单,答案在后面一个代码里面展示. 首先判断当前待处理的字符是否是),如果是,就逐个弹出栈顶元素,直到左括号(弹出为止.( ...
- 迅雷2021校招数据分析笔试题 B卷
时间:9.28投递的迅雷数据分析岗,10.15收到笔试通知于10.19号19:00-20:35参加迅雷2021校招数据分析笔试题 B卷. 试卷回忆版:共有三种题型:单选题(20个,每个3.5分).多选 ...
- 2020年小红书校招数据分析笔试题
今天给大家带来2020年小红书校招的数据分析笔试题的详解 1.如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买:价格每增加1元,客人的流失的可能性就 ...
- 2020年小红书校招数据分析笔试题详解
1.如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买:价格每增加1元,客人的流失的可能性就会增加1%.那么该商户给客人报出最优价格为() A.520 ...
- 小红书2020校招测试开发后端笔试题卷一
"记录一下做的小红书的笔试" 题目描述: 薯队长写了一篇笔记草稿,请你帮忙输出最后内容. 1.输入字符包括,"(" , ")" 和 &quo ...
- 用友2020校招java笔试题_用友Java类笔试题大全
如下为大家汇总的是一份用友Java类笔试题,欢迎大家关注! 1.Hashtable和HashMap有什么区别? a.Hashtable是继承自陈旧的Dictionary类的,HashMap继承自Abs ...
最新文章
- 开发者在行动!中国防疫开源项目登上GitHub TOP榜
- 10个 我经常逛的国外技术社区,真的受益匪浅!
- HashMap为何从头插入改为尾插入
- [NOI2017]泳池
- 循环递归,相互结合,释放数据的价值
- [转]关于sizeof()的一些思考
- jupyternotebook运行python_jupyter notebook参数化运行python方式
- 总结并发编程常见面试题
- Layui表格刷新(重载)
- 方法二 NTC热敏电阻转换温度的计算方式
- OpenCV找圆系列(1)SimpleBlobDetector源码,凸度和圆度等检测原理
- 如何利用Python进行数据分析
- 六级阅读翻译——2017.11.13
- love2d角度,方向以及旋转
- MySQL无法启动,服务没有报告任何错误
- 【Matlab】mod函数和rem函数的区别
- python做项目编号_python docx中的项目符号列表
- 计算机考试不在学籍库,有消息!中考报名将由学籍库直接导入,取消学校考试排名........
- c语言响铃编程,C语言C加加编程新手快速入门基础学习
- HTML5新特性浅谈