2022年4月携程暑期实习 搜索推荐算法岗面试题
1、你所理解的推荐系统是什么样的?大致流程?所用模型?
推荐系统一方面是为了帮助消费者发现对自己有价值的商品,另一方面是帮助生产者把用户可能感兴趣的商品展现给用户,实现生产者和消费者的双赢。
大致流程主要包括:获取用户特征,召回过程,排序过程(粗排、精排)。
召回模型:
- 规则召回(兴趣标签top,热门top,新品top等)
- 协同召回(基于用户的协同过滤,基于商品的协同过滤)
- 向量召回(FM召回,Item2vec,Youtube DNN向量召回,Graph Embedding召回,DSSM双塔召回)
排序模型:GBDT + LR、Xgboost、FM/FFM、Wide&Deep、DeepFM、Deep & Cross、DIN、BST等
2、双塔模型优势,缺点,如何改进?
双塔模型的优势是速度快,但模型精度还有待提升。
速度快是因为将所有Item转化成Embedding,并存储进ANN检索系统,比如FAISS,以供查询。类似FAISS这种ANN检索系统对海量数据的查询效率高。
而双塔模型为了速度快,必须对用户和Item进行特征分离,而特征分离,又必然导致上述两个原因产生的效果损失。
改进:SENet双塔模型,把SENet放在Embedding层之上,目的是通过SENet网络,动态地学习这些特征的重要性:对于每个特征学会一个特征权重,然后再把学习到的权重乘到对应特征的Embedding里,这样就可以动态学习特征权重,通过小权重抑制噪音或者无效低频特征,通过大权重放大重要特征影响的目的。
3、粗排的目的是什么?
粗排是用来帮精排模型找到那些它本来就要打高分的item,只不过范围更广一些。.按照上面的例子,如果没有粗排,精排模型自己找出来的某top10的item。而粗排的任务就是要找到包含这10个item的一个更小的候选集,既保证了效果,又减少线上预测的负担。
4、wide&deep模型 为什么要有wide层结构,优缺点,如何改进?
wide&deep模型中的wide部分可以通过利用交叉特征引入非线性高效的实现记忆能力,但需要依赖人工特征工程。
改进:DeepFM在Wide&Deep的基础上进行改进,不需要预训练FM得到隐向量,不需要人工特征工程,能同时学习低阶和高阶的组合特征;FM模块和Deep模块共享Feature Embedding部分,可以更快的训练,以及更精确的训练学习。
5、推荐领域GBDT + LR的做法了解吗?
GBDT+LR 由两部分组成,其中GBDT用来对训练集提取特征作为新的训练输入数据,LR作为新训练输入数据的分类器。GBDT+LR的提出意味着特征工程可以完全交由一个独立的模型来完成,模型的输入可以是原始的特征向量,不必在特征工程上投入过多的人工筛选和模型设计的精力,真正实现了端到端的训练。
6、粗排有哪些指标?NDCG了解吗?
(1) NDCG,排序相似性的指标,看精排的排序结果和粗排有多相似
(2) 粗排的召回率/重叠率,粗排的topk和精排的topk有多大占比。
计算DCG,计算公式如下:
其中,rel 为这个排序list,结果i的一个等级得分;i 是指结果i的当前位置序号;
在搜索引擎中,rel等级得分,是由人工抽样数据,并且根据一定的规则打出来的等级得分。
步骤二:
计算IDCG(Ideal DCG),即完美序的DCG;计算方式也同步骤1,只是排序序列不是由算法得出,而是由人工对序列根据一定的评估准则排出来的最佳序列。
步骤三:根据前面2个步骤的出来的结果,计算NDCG,计算公式如下:
7、ROC,PR曲线含义,坐标轴代表什么?
ROC曲线以真正例率TPR为纵轴,以假正例率FPR为横轴,在不同的阈值下获得坐标点,并连接各个坐标点,得到ROC曲线。
PR曲线中的P代表的是Precision(精准率),R代表的是Recall(召回率),其代表的是精准率与召回率的关系,一般情况下,Precision设置为纵坐标,将Recall设置为横坐标。
8、AUC怎么求,实际意义?
AUC:随机取一个正样本和一个负样本,正样本的预测值大于负样本预测值的概率。
AUC计算的关键是找到所有正样本预测值大于负样本预测值的正负样本对。
首先,需要将样本按照预测值进行从小到大排序(最小score对应的sample的rank为1,第二小score对应sample的rank为2,以此类推);
其次,把所有的正类样本的rank相加,再减去两个正样本组合的情况。
2022年4月携程暑期实习 搜索推荐算法岗面试题相关推荐
- 【面经】携程暑期实习一面
一.简述 T0T感觉面试体验很好,面试官很耐心很温柔也很专业,就是我有点菜了捏,还有很多掌握得一般,经不起细问.希望不断查缺补漏,加油加油! 二.面试内容 1.笔试 '手写防抖节流函数 简介: - 防 ...
- 2022年找工作!我建了一个AI算法岗求职群
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 大家好,我是Amusi!2022 春招(面向2022届补招)和 2022春季/暑期实习(面向2023届)已经 ...
- 中国探月计算机考试时间,关于选拔2020年波兰罗兹大嫦娥三号登月时间
学暑期实习实训项目学员的通知...
具体如下: 一. 2020 年暑期学习项目简介 1. 项目名额:学生自主申报,如不遵照学院统一安排和临时退出,自费 10 名, 2. 项目费用: 900 欧元 / 人. 将严格遵循学院行程安排, 6. ...
- 华为苏州实习面试--机器学习算法岗
2019-4-20 下午四点多, 进去的时候人很多,摆的好像银行柜台一样,一边是叫号等待区,一边是面试区,我们进去先刷身份证签到,然后等着被面试.过程如下 自我介绍.balabala 问机器学习学了哪 ...
- 拼多多、蚂蚁、字节2022届(大三)后端研发暑期实习
(农业末流21,计算机专业) --------------------------------拼多多 3.22 在牛客里找了一个拼多多的内推人,投递简历. 4.7 在线笔试,好像4道a出2道半 4.1 ...
- 2022年5月远程网络教育大学英语B统考题库试题
2022年5月全国各奥鹏.网院网络统考,大学英语b.计算机应用基础,统考原题库,整体覆盖90%以上,已整理归类完毕,精心排版. 大学英语B各题均做了全中文翻译,重点标注,难点注释:计算机操作带视频演示 ...
- 福建师范大学2022年2月课程考试《形势与政策》作业考核试题
<形势与政策(公共课)>期末试卷 姓名: 专业: 学号: 学习中心: 成绩: 一.考试形式:小论文写作 二.小论文写作要求 1.不少于 1500字: 2.题目自拟:请在下列论文选题指南 ...
- 福建师范大学2022年2月课程考试《小学科学教育》作业考核试题
<小学科学教育>期末考试A卷 姓名: 专业: 学号: 学习中心: 成绩: 一. 单项选择题(请将答案填在下面的表格内,每题2分,共20分) 1 2 3 4 5 6 7 8 9 10 科学活 ...
- 字节跳动2019暑期实习生算法岗笔试题
目录 第一题 题意 思路 代码 第二题 题意 思路 代码 第三题 题意 思路 代码 第四题 题意 思路 代码 笔试共有4道编程题,每道题20分,两个小时.这个题感觉比腾讯的简单一点.以下内容的编写全凭 ...
- 腾讯2019暑期实习生提前批CV岗笔试题
目录 第一题 题意 思路 代码 第二题 题意 思路 代码 第三题 题意 思路 代码 第四题 题意 思路 代码 第五题 题意 思路 代码 笔试共有5道编程题,每道题20分,两个小时.以下内容的编写全凭记 ...
最新文章
- 从设计原则谈软件开发(二)
- 什么情况下可以不写PHP的结束标签“?”
- CNCF 官方大使张磊:什么是云原生?
- 项目杂记——在后台获取Repeater控件里面的控件
- Struts2异常处理机制
- linux 下备份MySQL数据库 并删除7天前的备份数据
- 得益于数据中心芯片业务提升,AMD公司财务表现令投资者欣喜
- 海康sdk java示例_调用海康SDK
- jks转换 p12、keystore、pk8、x509.pem 命令
- ECSHOP二次开发教程__连接
- 南阳oj入门题-cigarettes
- Photoshop2018安装
- JS之flatten手写实现
- NBS-Predict:基于脑网络的机器学习预测
- 《计算机通信与网络》学习笔记
- fprintf函数的的用法
- JavaScript实现双色球随机一注
- 大海捞针 Skia(C++) 第 1 期:Skia 环境搭建
- 微信小程序--公共组件使用
- 使用U-Net 进行图像分割
热门文章
- 记录自已学习之ARM汇编语言之bic和orr
- 空气质量等级c语言编程,华中科技大学C语言课设空气质量检测信息管理系统技术分析.docx...
- less css基础教程
- 吴恩达最受欢迎AI课程机器学习Cousera《Machine Learning》课程完整版
- Linux-2.6 open()打开文件涉及的内核处理和数据结构分析
- 股票实时行情接口如何获得快照历史数据?
- 关于路由器花生壳动态域名无法连接的解决方法
- 圆周率在java中的标识符_java 圆周率。
- PAT 1010 月饼
- ERP系统的操作方法是什么?