1. K-means算法的基本步骤,K-means算法和EM的联系与区别,为什么会陷入局部最优解?:EM算法(期望最大化)——从EM算法角度理解K-Means与GMM的区别

2.对于特征工程,样本不平衡,缺乏数据,冷启动都是实际工程容易遇到的

背景

连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程,比如在LR模型,由于是广义线性模型表达能力有限,因此通过特征离散化来了提高非线性学习能力

主要方法

等距离散:取值范围均匀划成n等份,每份的间距相等

等频离散:均匀分为n等份,每份内包含的观察点数相同

优化离散

大致有两类方法:
1. 卡方检验方法:(统计样本的实际观测值与理论推断值之间的偏离程度,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合)
- 分裂方法:找到一个分裂点看,左右2个区间,在目标值上分布是否有- 显著差异,有显著差异就分裂,否则就忽略。这个点可以每次找差异最大的点
- 合并方法:先划分如果很小单元区间,按顺序合并在目标值上分布不显著的相邻区间,直到收敛
2. 信息增益方法:
- 分裂方法:找到一个分裂点看,左右2个区间,看分裂前后信息增益变化阈值,如果差值超过阈值(正值,分列前-分裂后信息熵),则分裂。每次找差值最大的点做分裂点,直到收敛
- 合并方法:先划分 如果很小单元区间,按顺序合并信息增益小于阈值的相邻区间,直到收敛

特征工程整理流程和涉及技术点

对于样本不均衡问题:主要通过欠采样,过采样,阈值移动(优化代价函数)三种方法解决,但是数据分布不一定起决定作用,主要还是要分析特征,找到能够区分正负样本的特征,去掉冗余,正负样本重合的特征,找到有效特征,去掉无效特征。

在分类中如何处理训练集中不平衡问题

3. 最大熵和最大似然等价,说明什么:机器学习之从极大似然估计到最大熵原理以及EM算法详解

4. 正则化与数据先验分布的关系

5.缺值处理,冷启动问题: 推荐系统冷启动问题

5. 过拟合,欠拟合

欠拟合解决方法:

1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段,无论在什么场景,都可以照葫芦画瓢,总会得到意想不到的效果。除上面的特征之外,“上下文特征”、“平台特征”等等,都可以作为特征添加的首选项。

2)添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。例如上面的图片的例子。

3)减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。

过拟合解决方法:

1)重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据。

2)增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。

3)采用正则化方法。正则化方法包括L0正则、L1正则和L2正则,而正则一般是在目标函数之后加上对于的范数。但是在机器学习中一般使用L2正则,下面看具体的原因。

L0范数是指向量中非0的元素的个数。L1范数是指向量中各个元素绝对值之和,也叫“稀疏规则算子”(Lasso regularization)。两者都可以实现稀疏性,既然L0可以实现稀疏,为什么不用L0,而要用L1呢?个人理解一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。

L2范数是指向量各元素的平方和然后求平方根。可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0。L2正则项起到使得参数w变小加剧的效果,但是为什么可以防止过拟合呢?一个通俗的理解便是:更小的参数值w意味着模型的复杂度更低,对训练数据的拟合刚刚好(奥卡姆剃刀),不会过分拟合训练数据,从而使得不会过拟合,以提高模型的泛化能力。还有就是看到有人说L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题(具体这儿我也不是太理解)。

4)采用dropout方法。这个方法在神经网络里面很常用。dropout方法是ImageNet中提出的一种方法,通俗一点讲就是dropout方法在训练的时候让神经元以一定的概率不工作。具体看下图:

如上图所示,左边a图是没用用dropout方法的标准神经网络,右边b图是在训练过程中使用了dropout方法的神经网络,即在训练时候以一定的概率p来跳过一定的神经元。

2018顺丰视觉岗笔试几个知识点相关推荐

  1. 字节跳动2018.11校招测试岗笔试(回忆版)

    背景:           东北某985高校专场招聘,11月上旬,是字节跳动第二次来,本次是专岗招聘(测试工程师和测试开发工程师),据说是公司发展太快现缺测试.参加的人还是很多的,然而非计算机专业的不 ...

  2. 笔经-腾讯2018暑期实习生-数据分析岗笔试经历

    发现今年虽然很多公司有了数据分析岗位面向本科生开放,但几乎数据分析师的实习笔试几乎都没有考编程,注意是几乎都没有考!这也给了我们一些启发,也说明现在的数据分析岗位职能方向更细化. 不定项选择(每题4分 ...

  3. 2018校招迅雷测试岗笔试

    单选十道,不定选10到,填空5道(10分),问答两道(40分) 涉及内容有java,数据结构,数据库,软件测试 1.进程和程序的本质区别 2.最小堆,删掉根节点,重新排序 3.面向对象的三个基本特征( ...

  4. 华为2018届校招技术岗笔试题及个人解答

    前言 昨天(9.13)参加了华为2018届的技术岗笔试,特此总结一下笔试的题目和我个人的解答思路. 笔试题一共是三道编程题,大致是数值反向输出,比较和排序,相对较基础. PS:由于没有截图,所以题目是 ...

  5. 高中教师资格证笔试计算机学科知识与能力,2018下半年教师资格证考试笔试-高中信息技术学科知识与能力试题答案...

    2018年下半年山东教师资格证考试已于11月3日进行,山东教师资格证网(微信号sdjsks)根据学员反馈及时整理发布2018下半年教师资格证考试笔试-高中信息技术学科知识与能力试题答案,帮助各位考生对 ...

  6. IT:银行类金融科技岗笔试习题集合—各大行(工商+建设+农业+浦发+招商+平安+人民+邮政银行)计算机信息科技岗笔试集合(包括计算机基础知识+网络+操作系统+数据库系统原理)

    IT:银行类金融科技岗笔试习题集合-各大行(工商+建设+农业+浦发+招商+平安+人民+邮政银行)计算机信息科技岗笔试集合(包括计算机基础知识+网络+操作系统+数据库系统原理) 导读:因为博主后台留言太 ...

  7. Interview:算法岗位面试—11.05下午上海某银行信息(总行,四大行之一)技术岗笔试记录

    Interview:算法岗位面试-11.05下午上海某银行信息(总行,四大行之一)技术岗笔试记录 导读:这次记住了上次银行考试的教训,提前选择了离着学校较近的考点.这次笔试比上次银行考试相对简单,但是 ...

  8. Interview:算法岗位面试—11.02早上上海某银行(上海分行,四大行之一)信息技术岗笔试记录

    ML岗位面试:11.02早上上海某银行(上海分行,四大行之一)信息技术岗笔试记录 Interview:算法岗位面试-11.02早上上海某银行(上海分行,四大行之一)信息技术岗笔试记录 导读:预约考点的 ...

  9. (转)视觉工程师笔试知识汇总

    视觉工程师笔试知识汇总 2017年03月28日 20:32:06 NodYoung 阅读数:12978 版权声明:转载请注明出处,谢谢. https://blog.csdn.net/NNNNNNNNN ...

最新文章

  1. 【转载】 Python动态生成变量
  2. centos 7.2 yum mysql_20191209_Centos7.2使用yum安装mysql
  3. 《复联4》的这波操作,其实是在灭 bug
  4. ExtJs grid合并单元格
  5. filter vue 循环_vue v-for中使用filter筛选数据
  6. Zookeeper 的学习与运用
  7. python真的很厉害吗-学会Python后都能做什么?网友们的回答简直不要太厉害
  8. Nginx中浏览器缓存的相关概念
  9. Why manually change will not trigger text determination case 2
  10. apache php url重写语法,apache url重写实现伪静态
  11. nodejs开发工程师前景_Google NodeJS运行时团队的工程师Matt Loring访谈
  12. CPU的IPC调优:通过优化代码,提高每个时钟的指令数
  13. 访问不上服务器的任何端口
  14. 如何让应用程序托盘化
  15. button css背景透明,css背景透明
  16. 酷狗歌曲缓存kgtemp转mp3工具
  17. 酒店管理系统功能模块图
  18. 好看的女孩男生拍照姿势大全
  19. Kubernetes集群部署篇( 一)
  20. 【web前端开发】数据库MySQL在开发环境的操作

热门文章

  1. shell经典面试题根据文件创建用户名及密码(亲测)
  2. 源码安装MySQL5.5.20
  3. win10 家庭版系统,创建用户(users\account\ 中,文件的「所有者」属性)
  4. shell中变量的引用(两种方式:$变量名,${变量名})。
  5. mayaa的一些代码
  6. oracle客户端导入dmp文件格式,在linux服务器上导入oracle的DMP文件
  7. i5功耗最低的cpu_近年最大飞跃 Intel第11代低功耗酷睿处理器官宣:集显2倍、AI乘4...
  8. IOS图像拉伸解决方案
  9. Java并发(五)线程池使用番外-分析RejectedExecutionException异常
  10. springboot统一异常处理及返回数据的处理