找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。

  

下面是在找机器学习岗位工作时,总结的常见机器学习算法(主要是一些常规分类器)大概流程和主要思想,希望对大家找机器学习岗位时有点帮助。

实际上在面试过程中,懂这些算法的基本思想和大概流程是远远不够的,那些面试官往往问的都是一些公司内部业务中的课题,往往要求你不仅要懂得这些算法的理论过程,而且要非常熟悉怎样使用它,什么场合用它,算法的优缺点,以及调参经验等等。说白了,就是既要会点理论,也要会点应用,既要有点深度,也要有点广度,否则运气不好的话很容易就被刷掉,因为每个面试官爱好不同。

朴素贝叶斯:

  有以下几个地方需要注意:

  1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。

  2. 计算公式如下:

  

  其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是 的计算方法,而由朴素贝叶斯的前提假设可知, = ,因此一般有两种,一种是在类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本的总和;第二种方法是类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本中所有特征出现次数的总和。

  3. 如果 中的某一项为0,则其联合概率的乘积也可能为0,即2中公式的分子为0,为了避免这种现象出现,一般情况下会将这一项初始化为1,当然为了保证概率相等,分母应对应初始化为2(这里因为是2类,所以加2,如果是k类就需要加k,术语上叫做laplace光滑, 分母加k的原因是使之满足全概率公式)。

  朴素贝叶斯的优点:

  对小规模的数据表现很好,适合多分类任务,适合增量式训练。

  缺点:

  对输入数据的表达形式很敏感。

决策树:

  决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它。

  信息熵的计算公式如下:

  

  其中的n代表有n个分类类别(比如假设是2类问题,那么n=2)。分别计算这2类样本在总样本中出现的概率p1和p2,这样就可以计算出未选中属性分枝前的信息熵。

原文连接

机器学习基础知识!(ML,DL,SL相关知识整理)相关推荐

  1. DayDayUp:计算机技术与软件专业技术资格证书之《系统集成项目管理工程师》课程讲解之项目管理概述、项目管理基本基础知识、项目立项管理相关知识

    DayDayUp:计算机技术与软件专业技术资格证书之<系统集成项目管理工程师>课程讲解之项目管理概述.项目管理基本基础知识.项目立项管理相关知识 目录 一.项目管理概述 1.1.项目的定义 ...

  2. 事务管理基础:数据库的并发控制相关知识笔记

    1.并发操作的概念介绍 并发操作主要是指在多用户共享的系统当中,可能存在很多用户同时对同一个数据进行操作.并发操作会造成丢失更新.不可重复读.读脏数据.主要原因是事务的并发操作破坏了事务的隔离性. 2 ...

  3. 硬件知识:固态硬盘相关知识介绍

    今天就为大家全面科普一下固态硬盘的相关知识,让大家购买时做到心中有数,按需选择. 首先还是从SSD的结构来说起,SSD最基本的组成部件分为:主控芯片.闪存芯片.固件算法,下面我们分别阐述三者的工作职责 ...

  4. 医院信息化及计算机知识,医疗行业信息化相关知识

    编辑导读:本文围绕医疗行业信息化的相关知识进行展开,作者主要对医院科室分布.医院人才结构和医生职业发展进行了梳理,进而帮助大家形成对医疗行业的认识和了解,希望对你有用. 一直从事医疗领域的设计工作,这 ...

  5. 事务管理基础:排它锁和共享锁相关知识笔记

    1.排它锁.共享锁出现的意义 数据库的并发事务对数据库进行读写,可能会破坏事务的隔离性和数据一致性.为了保持事务的隔离性,系统必须对事务之间的相互作用加以控制.最典型的做法就是当一个事务访问某个数据对 ...

  6. 计算机网络基础:TCP/IP协议相关知识笔记​

    1.TCP/IP特性 逻辑编址:每一块网卡会在出厂时由厂家分配了唯一的永久性物理地址.针对Internet,会为每台连入因特网的计算机分配一个逻辑地址也就是IP地址. 路由选择:专门用于定义路由器如何 ...

  7. 计算机基础:图形、图像相关知识笔记

    1.图形.图像的基础知识 图形:由称为矢量的数学对象所定义的直线和曲线等组成. 图像:也称为栅格图像,由点阵图或位图图像.用像素来代表图像.每一个像素都被分配一个特点的位置和颜色值. 图形和图像之间在 ...

  8. 真彩色图像数据量 计算_计算机基础:图形、图像相关知识笔记

    1.图形.图像的基础知识 图形:由称为矢量的数学对象所定义的直线和曲线等组成. 图像:也称为栅格图像,由点阵图或位图图像.用像素来代表图像.每一个像素都被分配一个特点的位置和颜色值. 图形和图像之间在 ...

  9. snmp是什么层协议_计算机网络基础:TCP/IP协议相关知识笔记?

    1.TCP/IP特性 逻辑编址:每一块网卡会在出厂时由厂家分配了唯一的永久性物理地址.针对Internet,会为每台连入因特网的计算机分配一个逻辑地址也就是IP地址. 路由选择:专门用于定义路由器如何 ...

最新文章

  1. VS2010 win32项目windows窗体程序 向导生成代码解析
  2. ajax异步查询demo,ASP.NET中AJAX的异步加载(Demo演示)
  3. 小米笔记本充电实测追求速度牺牲兼容性小米笔记本充电驱动_是海尔?也是雷神?不足1千克MixBook Air超轻薄笔记本...
  4. python r语言培训_r语言和python学哪个
  5. 【296天】我爱刷题系列055(2017.11.28)
  6. SQLite.NET (32位) 在64位环境中无法正常调试
  7. 内存不足:杀死进程或牺牲孩子
  8. 新华计算机学校环境好吗,新华电脑校园环境好不好?(二)
  9. 全排列问题(洛谷P1706题题解,Java语言描述)
  10. gtone eclipse plugin install
  11. Jedis 1.0.0 版 源码分析系列3:JedisPool.java
  12. 二进制部署Kubernetes v1.13.4 HA可选
  13. 用户界面和逻辑应该分离
  14. 我的知识管理工具列表
  15. 堡垒机和跳板机的三大区别分析-行云管家
  16. xp下 c语言用什么编程软件,学C语言在windows XP环境下用什么编程软件好??
  17. 【基础篇】MySQL系列之where条件查询
  18. SPSS与对应分析(类别简单型)
  19. 面向AI 的数据生态系统
  20. 深入浅出带你学习报错注入

热门文章

  1. mysql explain扫描行数_mysql explain扫描行数问题
  2. 从零搭建直播聊天平台(二.nginx-rtmp)
  3. 淘宝618每日一猜答案(6月8日)明星孙怡最喜欢的显瘦单品?
  4. java web getrealpath_Java WebUtils.getRealPath方法代碼示例
  5. Openjudge6039 大师兄,师傅被妖怪抓走啦(模拟)
  6. leetcode-365——水壶问题
  7. [LeetCode解题报告] 365. 水壶问题
  8. MybatisPlus整合springCloud---去xml化
  9. 微信公众号开发者自动回复php,微信公众平台开发者模式的启用并自动回复
  10. 5G NR CSI Report在PUSCH和PUCCH上反馈