点击上方"AI职通车",选择"设为置顶or星标"

第一时间获取最实用的AI信息

写在前面首先说一下本人背景:算法岗,科班,本硕都是某 985。有一段两个半月的大厂非核心部门实习经历,一篇冷门方向的 SCI 一区期刊论文,一个小比赛的 TOP5。(实习比赛论文都有,但每样都一般般,所以秋招也是十分艰难)秋招结果:投递了大大小小 30 多家公司,目前是拿到一份意向书。

  • 意向书:字节(经历了一次笔试挂,一次三面挂,再被捞三面后上岸的)
  • 泡池子:京东物流,华为,360,OPPO(其中 360 和 OPPO 已经开过部分奖了,我应该排序比较靠后或者挂了)

  • 终面挂或者排序挂:网易互联网,百度提前批,拼多多拼越计划
  • 二面挂:阿里(二面完后很久状态都没改变),百度正式批,腾讯 PCG
  • 一面挂:美团,快手
  • 进行中:腾讯音乐,网易互娱

还有一些投了之后没消息或者笔试完后没消息,这里就不列出来了。

项目相关提问

项目相关提问我只列举一下可能对大家有借鉴意义的问题。

  1. 有没有观察单个特征和标签之间的联系
  2. 每次加入一个特征,如果效果没有提升则不使用该特征。那怎么处理特征组合的问题。(组合后可能变好或者差)
  3. ID embedding 怎么做
  4. 项目中 Embedding 学习到的是什么,特征交叉的作用是什么
  5. 为什么使用 DeepFM 来进行特征交叉
  6. DeepFM 和 Deep&Wide 区别,写一下 FM 公式,DeepFM 优点
  7. DeepFM 只是简单的交叉,其他复杂点的对特征进行交叉的网络了解吗
  8. 你说你发现了训练集和测试集分布不一致的问题。你是怎么发现这个问题的,怎么诊断定位,除了可视化还有没有其他直观的指标
  9. 对于一个算法课题,你觉得最重要的几个环节有哪些。
  10. 项目遇到了什么困难,如何解决?
  11. 项目取得了啥效果,项目的核心提升是哪些操作
  12. 项目中使用了哪些特征?如果要继续改进的话,还可以使用哪些特征?
  13. 有没有使用其他更好的算法来解决问题
  14. 你觉得你实习做的项目还有哪些地方可以做优化
  15. 项目遇到瓶颈,反映在业务上是怎么样的,你要怎么去解决这个问题
  16. 有没有调研过业界的做法
  17. 你的比赛任务,四分类,评估指标用 auc 合理吗
  18. 比赛的 LSTM 和 CNN 是怎么用的,为什么可以用。讲一下 RNN 和 CNN 的区别,为啥在你这个比赛中 LSTM 比 CNN 效果好

机器学习基础相关提问

特征相关

  1. 讲一下特征工程
  2. 类别特征编码方式有哪些?如何解决 target encoding 的 target leakage?count encoding 有个缺点:测试集和训练集分布不同,导致特征频率不一样。怎么解决?
  3. 如何进行特征选择
  4. 项目中如何做交叉特征,为什么这样交叉,基于业务意义?
  5. 为什么需要计算特征重要性,计算特征重要性的方法有哪些
  6. 连续特征怎么分箱,如何判断分箱的结果是好是坏
  7. 特征平滑方法有哪些
  8. 怎么处理长尾问题,从样本,模型的角度来看,从优化器的角度来看
  9. 什么样的 ID 经过 Embedding 后可能有效,如何筛选有效的 ID。有些 ID 数量级很大,怎么处理

神经网络相关

  1. 神经网络如何跳出局部最优
  2. 神经网络如何缓解过拟合, 讲一下 dropout,dropout 训练和预测的时候有什么不同, dropout 操作类似于机器学习中的什么操作
  3. batch normalization 和 layer normalization 区别,写一下 bn 公式
  4. 优化器了解哪些,adam 相对 sgd 的改进
  5. 激活函数的作用,各个激活函数的优缺点
  6. tf 处理特征的类有没有了解( tf.feature_column)
  7. 讲一下 word2vec,有哪两种形式,词的数量比较多,分类时怎么优化, word2vec 怎么做负采样
  8. item2vec 有没有了解
  9. 多分类如果有 10000 类别,怎么优化
  10. graph embedding 了解吗,神经网络做 graph embedding 了解吗
  11. 讲一下图神经网络
  12. tf embedding_lookup 原理
  13. 文本分类有了解吗,说一下 textcnn
  14. 如何缓解 RNN 的梯度消失
  15. 讲一下 LSTM。LSTM 为啥能缓解梯度爆炸和梯度消失?LSTM 激活函数可以使用 relu 吗
  16. 排序算法了解吗?说了快排,归并,冒泡等(后面发现好像问的是 ctr 中的排序算法)
  17. 了解哪些推荐算法,nlp 的预训练模型了解吗,attention, transformer,bert 了解吗
  18. CNN 和 RNN 在实际使用中有哪些优缺点?NLP 中,什么情况下使用 CNN,什么情况下使用 RNN?
  19. 神经网络权重全 0 初始化会有什么问题?应该怎样初始化?讲讲 Xavier 初始化

树模型相关

  1. 树模型怎么处理连续特征
  2. 随机森林的随机性体现在哪里?boosting 和 bagging 区别。随机森林是不是树越多越好。随机森林采样是有放回采样还是无放回采样
  3. c4.5 用来解决 ID3 什么问题,gbdt 和 rf 分别是集成的什么思想,解决什么误差
  4. GBDT 怎么生成一个新的树,怎么确定叶子节点的权重
  5. 随机森林和 xgboost 那个树的深度更深
  6. XGBoost 和 GBDT 的不同,为啥 XGBoost 选择决策树作为基分类器?
  7. XGBoost 和 GBDT 分裂叶子节点的不同之处,写一下 XGBoost 计算节点分裂收益的公式
  8. XGBoost 如果损失函数没有二阶导,该怎么办
  9. GBDT 和 XGBoost 用什么基分类器,如何分裂叶子节点,处理分类问题和回归问题有啥不同
  10. Lightgbm 相比于 XGBoost 的改进,LightGBM 为什么比 GBDT 快。LightGBM 怎么做并行
  11. 看过 XGBoost, Lightgbm 等的源码没?(没有。。)
  12. 讲一下 bagging,boosting,stacking
  13. stacking 和 nn 的区别?(nn 也可以搭积木,拼接)

其他相关

  1. 哪些算法需要对特征先进行归一化,这类算法有什么特点,不进行归一化的缺点是?
  2. 如何解决过拟合,讲一下 L1 和 L2,L1 为啥能得到稀疏解
  3. 如何处理样本不平衡
  4. 分类和回归任务有哪些评估指标
  5. 写 huber loss 公式
  6. auc 是啥,怎么解释。如果线下 auc 好,线上 auc 变差,有什么可能的原因
  7. auc 针对的是单个值的排序,那么怎么对 list 进行排序(ndcg ?)
  8. 多分类 auc 怎么算
  9. 交叉熵公式
  10. LR 的损失函数是啥,怎么来的,手推 LR
  11. LR 如何优化目标函数
  12. SVM 和 LR 区别
  13. 为什么 LR 使用交叉熵而不是 MSE
  14. 讲一下先验,后验,最大似然估计,最大后验估计
  15. 抛一次硬币,正面为上,是啥分布。抛 n 次硬币,正面为上的数目是啥分布
  16. 广义线性回归了解么

排序,操作系统,数据结构,计网

这方面问得比较少

  1. 快排时间复杂度
  2. 排序算法了解哪些,讲一下快排和堆排,堆排适用于哪些场景
  3. 讲一下哈希表,哈希表用什么数据结构实现,怎么解决哈希冲突,哈希表数组空间大小怎么确定
  4. 线程,进程是啥,进程间通信方式,如何保证线程安全
  5. 多进程和多线程区别,各自的适用场景,线程安全怎么解决,有哪些锁,乐观锁悲观锁了解吗,自旋锁适用于什么场景
  6. TCP 协议了解吗

编程语言,大数据相关

Hive 相关

  1. 了解 Spark,Hadoop,Hive,Scala 吗?(我基本不会,实习时写过一些简单的 Hive SQL)
  2. Hive SQL 大表 join 小表,可以怎么优化
  3. Hive sql union 和 union all 区别,行转列和列转行了解吗
  4. Hive 读取 json 某个 key 对应的值
  5. Hive 数据倾斜怎么处理

Python 相关

  1. 说一下 Python 中的 lambda
  2. Python copy 和 deepcopy 区别, if a 和 if a is not None 区别
  3. Python is 和 == 区别,两者分别在比较什么?Python 没有 switch... case.. ,如何优雅地实现
  4. Python 有哪些对象类型,哪些是可变对象,哪些是不可变对象
  5. Python 中,li = [0,1,2] ,那么 li[3] 和 li[:3] 分别返回什么
  6. Python 写过多线程吗
  7. 字典有 key, value,按照 value 进行排序

手撕

链表相关

  1. 链表翻转
  2. 合并两个有序链表
  3. 判断链表是否有环,返回环的入口

树相关

  1. 无序数组转二叉搜索树
  2. 两个树节点的最近公共祖先
  3. 二叉树先序遍历展开成链表 in-place
  4. 无序数组转平衡二叉搜索树(不能先对数组进行排序)
  5. 给你两颗二叉树 a,b(只有数的结构而没有 value),判断a 是否 b 的子树(只需要 b 的某个子树结构跟 a 一样就行),能否继续优化?

DFS,BFS

  1. 打印字符串所有子序列
  2. 字符串全排列(字符串可能有重复元素)
  3. 迷宫问题,迷宫里有多个人处于不同位置,每个人逃出迷宫有最短路径值,求这些最短路径值的最大值
  4. 划分为 k 个相等的子集:给定一个整数数组 nums 和一个正整数 k,找出是否有可能把这个数组分成 k 个非空子集,其总和都相等

排序,大小

  1. 子数组最大和
  2. 子矩阵和的最大值
  3. 两个有序数组的中位数
  4. 求数组的第 k 大数,时间复杂度是多少?
  5. 读取文本,统计,然后排序(有多个排序因素)
  6. 一个数组只包含0,1,2三个数,对这个数组进行排序
  7. 最大数组合:给定一个非负整数数组,求一个拼接出来的最大数。比如 [2, 32] => 322

DP

  1. 股票最大利润(只能交易一次)
  2. 走楼梯方法数,一次可以走一个台阶或者两个台阶,总共有 n 个台阶
  3. 01数组,长度为 n,1代表可达,0 代表不可到达,一次可以跳 3 到 5 步。求跨越该数组的最小步数(起点可以看成 index 为 -1,终点可以看成 index 为 n)

其他

  1. 顺时针打印二维矩阵
  2. 升序数组,求不同绝对值个数
  3. 二维平面判断一个点是否在三角形以内
  4. 给定数组,计算有多少个子数组和为 target
  5. 怎么编程求几何平均值,需要考虑什么情况,怎么解决
  6. 提供东西视图和南北视图,求城市体积最大值,最小值,leetcode 807 变种
  7. 正整数数组满足 2 * a[i] < a[i+1],给定数字 K,数组中是否存在两个数 x + y = K
  8. 协同过滤中,需要计算用户相似度矩阵。给定用户 ID,每个用户的听歌列表(music id 列表)。计算用户相似度矩阵
  9. 给一个数据表,有两个字段(user, login_time),用 SQL 求连续两天登录的用户占比

场景题,开放题

  1. 在搜索框输入文字的时候,会出现搜索提示,比如输入‘腾讯’可能会提示 ‘腾讯视频’。你觉得搜索提示是用什么数据结构来实现的
  2. 学校门口的十字路口车流量预测,怎么建模?(已有历史车流量数据)
  3. 年龄预测(范围 10 到 50),目标是最大化准确率,怎么设计损失函数?如果要求预测结果在正负 3 以内就行,怎么设计损失函数,如何优化?
  4. 有个商品库,商品库记录的车的型号,最低价格,最高价格(没有精准价格)。当前用户在浏览某个商品,要求推荐同个档次的商品,如何建模?假如商品库很大,要推荐相似度最大的 3 个商品,如何解决?
  5. 定义兄弟字符串如下:若两个字符串存在一样的字符,每个字符次数都一样,但是顺序有可能不同。比如 abbc 和 acbb 是兄弟字符串,abbc 和 acb 不是。现有一个很大的日志文件,每一行是一个单词。问题:给定一个单词,查询日志文件中该单词兄弟字符串有多少个。有多次查询操作。
  6. 怎么给 50 w 高考考生成绩排序,要求时间空间复杂度尽可能低
  7. 一副扑克牌,取出一张,剩下的 53 张给你看,如何判断抽出的是哪一张(要求时间,空间复杂度最优)
  8. 一个超级大文件,每一行有一个 ip 地址,内存有限,如何找出其中重复次数最多的 ip 地址
  9. 有一款新游戏,怎么识别出土豪(可能在新游里充大量钱的用户)
  10. 提供一个包含所有英文单词的字典,为手机的T9输入法设计一个索引,例如输入4能够提示出g、h、i开头的英文单词(greate、hello、……),输入43能够提示出ge、he、id、if (hello……) 等词开通的英文单词。

资料 | 1800页33章数学方法精要笔记 —深入数学建模, 机器学习和深度学习的数学基础

2020-10-12

干货 | Transformer模型深度解读

2020-10-10

干货 | 什么是Terraform?终极指南来了!

2020-10-05

AI研习社是AI学术青年和开发者社区,为大家提供一个顶会资讯、论文解读、数据竞赛、求职内推等的技术交流阵地,欢迎登陆www.yanxishe.com加入我们吧~

投稿、转载、媒介合作联系微信号 | bajiaojiao-sz

商务合作联系微信号 | LJ18825253481

排序算法有哪些_面经 | 超强整理,科班算法岗的秋招之路相关推荐

  1. 排序算法有哪些_超强整理,科班算法岗的秋招之路

    NewBeeNLP原创出品 作者 | 叶先生 面试锦囊之面经分享系列,持续更新中  欢迎后台回复"面试"加入讨论组交流噢  写在前面 首先说一下本人背景:算法岗,科班,本硕都是某 ...

  2. slope one 推荐算法python 代码_基于协同的SlopeOne推荐算法原理介绍和实现

    Slope One 算法是由 Daniel Lemire 教授在 2005 年提出的一个 Item-Based 的协同过滤推荐算法. --文章概要 该篇文章主要介绍Slope One算法.Slope ...

  3. 算法:线性时间选择_机器学习必修课!scikit-learn 支持向量机算法库使用小结

    本文从实践的角度对scikit-learn SVM算法库的使用做一个小结.scikit-learn SVM算法库封装了libsvm 和 liblinear 的实现,仅仅重写了算法了接口部分. 1. s ...

  4. 算法的优缺点_一文总结机器学习各算法优缺点

    关注上方"数据挖掘工程师",选择星标, 关键时间,第一时间送达! 转自Datawhale本期主题是详细总结一下机器学习各大常用算法的优缺点,十分值得收藏目录 正则化算法(Regul ...

  5. l bfgs算法java代码_数值优化:理解L-BFGS算法

    译自<Numerical Optimization: Understanding L-BFGS>,本来只想作为学习CRF的补充材料,读完后发现收获很多,把许多以前零散的知识点都串起来了.对 ...

  6. 非科班转行的2018秋招算法工程师面经:面试实录+人生经验

    这是一篇不太专业的算法工程师面经,希望能给非科班想要从事机器学习工作的同学或学弟学妹一些建议,同时也回馈给予我很大帮助的咕泡学院.目前拿到的offer有:网易.三星.联想.vivo.斗鱼.拼多多.猎聘 ...

  7. java8 同步队列_秋招之路8:JAVA锁体系和AQS抽象队列同步器

    整个的体系图 悲观锁,乐观锁 是一个广义概念:体现的是看待线程同步的不同角度. 悲观锁 认为在自己使用数据的时候一定有别的线程来修改数据,在获取数据的时候会先加锁,确保数据不被别的线程修改. 实现:关 ...

  8. 从零基础到斩获BAT算法岗offer,围观复旦大佬的秋招之路

    点击关注并置顶,江湖要事早提醒 侠影迷踪 作者:原果 原文链接:https://github.com/zslomo/2019-Autumn-recruitment-experience 本文作者是一位 ...

  9. 2017-我的秋招之路:机器学习/算法工程师(含大量面经)

    前言: 从今年的8月1号正式开启秋招到现在,过去三个多月了,发生了很多事情,经历了N多场笔试和面试,深深感慨到本硕双非的学生找算法岗的艰辛...,当经过了8.9月份的种种面试挂掉后,终于从十月下旬陆续 ...

  10. 2017-我的秋招之路 机器学习/算法工程师 含大量面经

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 本博文已 ...

最新文章

  1. android gradle.properties
  2. python绘制剖面图_干货!告诉你详细的剖面图绘图方法和步骤
  3. mysqldump 和 sql命令导入sql文件
  4. udp java_Java实现Udp网络编程
  5. 分布式系统的面试题5
  6. 负载均衡器 Ribbion
  7. 绳索受力分析的软件_【硕士论文】供热管网管道支架载荷分析与优化设计
  8. python实现天气预报_python实现智能语音天气预报
  9. java语言中 负责并发编程的机制是_Java并发编程艺术-并发机制的底层原理实现...
  10. 新知识点!一文告诉你如何调试运行在Docker容器中的远程Node.js应用程序
  11. 对话腾讯17级员工张正友博士:有关梦想、成长和焦虑
  12. GDC演讲翻译——看门狗2的载具同步
  13. 中国移动智慧城市建设惠及1.3亿用户
  14. uni-app打包上架vivo应用市场踩坑
  15. LIO-SLAM分析
  16. 安装程序无法打开注册表项 UNKNOWN\Components\…解决办法
  17. html5+交友app,国内5款高质量陌生人社交软件,你玩过几个
  18. 全网最详细IDEA导入eclispe项目
  19. c语言编写步进电机步数程序6,单片机步进电机程序问题
  20. Bluemix平台打造DC/OS云计算平台(一)

热门文章

  1. JavaScript的setTimeout与setInterval执行时机
  2. 【sed 工具的使用】
  3. IE9对CSS3的支持情况概述
  4. 关于 myeclipse 里面没有 add hibernate capabilities 问题解决方法
  5. 【深入理解webpack】library,libraryTarget,externals的区别及作用
  6. CentOS 6.7 配置JSP运行环境之resin
  7. 《C++面向对象高效编程(第2版)》——4.5 对象复制的语义
  8. UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position...的解决办法
  9. 0918类对象重载,作业5
  10. Discuz! X3.0/X3.1/X3.2通用 Apache伪静态规则