AI算法工程师手册

一、监督学习
感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归、支持向量机、提升方法、
二、无监督学习
聚类方法、奇异值分解、主成分分析

分类算法:knn,朴素贝叶斯、决策树、支持向量机、集成方法
回归算法:

knn:

对于离散型的因变量来说,从K个最近的已知类别样本中挑选出频率最高的类别用于未知样本的判断;
对于连续型因变量来说,则是将K个最近的已知样本的均值用于未知样本的预测。
步骤:
1)确定未知样本近邻的个数K值;
2)根据某种度量样本间的相似度的指标(如欧氏距离)将每一个未知类别样本的最近k个已知样本搜寻出来,形成一个簇;
3)对搜寻出的已知样本进行投票,将各簇下类别最多的分类用作未知样本点的预测。

朴素贝叶斯:

通过已知类别的训练数据集,计算样本的先验概率,然后利用贝叶斯概率公式测算未知类别样本属于某个类别的后验概率,最终以最大后验概率所对应的类别作为样本的预测值。

线性回归:

根据已知的变量(自变量)来预测某个连续数值变量(因变量)

逻辑斯蒂回归

非线性模型,专门用来解决二分类得到离散问题,相对于其他很多分类算法(SVM,神经网络,随机森林等)来说,具有很强的可解释性。
分类模型的评估方法:混淆矩阵(confusion_matrix) ,指标:accuracy,sensitivity(正例覆盖率)、specificity
ROC曲线(roc_curve):通过可视化的方法实现模型好坏的评估:x轴:1- specificity,y轴:sensitivity(折线下的面积:AUC,越大越好)
K-S曲线:
KS=sensitivity+specificity-1

决策树

if_then思想,可以用于数值型因变量的预测和离散型因变量的分类
随机森林:多颗决策树构成的集合

k-means

Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。

算法步骤:

1.(随机)选择K个聚类的初始中心;

2.对任意一个样本点,求其到K个聚类中心的距离,将样本点归类到距离最小的中心的聚类,如此迭代n次;

3.每次迭代过程中,利用均值等方法更新各个聚类的中心点(质心);

4.对K个聚类中心,利用2,3步迭代更新后,如果位置点变化很小(可以设置阈值),则认为达到稳定状态,迭代结束,对不同的聚类块和聚类中心可选择不同的颜色标注。

优点
1)原理比较简单,实现也是很容易,收敛速度快。
2)聚类效果较优。
3)算法的可解释度比较强。
4)主要需要调参的参数仅仅是簇数k。

统计学习方法之机器学习相关理论相关推荐

  1. 统计学习方法 pdf_机器学习的入门宝典!《统计学习方法》的代码实现

    李航:毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位.1990年至2001年就职于日本NEC 公司中央研究所,任研究员,2001年至2012年就职于微软亚洲研究院,任高级研究员与 ...

  2. 统计学习方法 pdf_机器学习基础教材-《统计学习与数据分析介绍》免费pdf分享...

    本书介绍 本入门级统计教科书主要讲解发展和培养统计思维所需的基本概念和工具.它提供了描述性,归纳性和探索性的统计方法,并指导读者完成定量数据分析的过程.在实验科学和跨学科研究中,数据分析已成为任何科学 ...

  3. 李航老师《统计学习方法》的代码实现、课件、作业等相关资源的最全汇总

    编辑 | Will 出品 | 字节AI 李航:毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位.1990年至2001年就职于日本NEC 公司中央研究所,任研究员,2001年至201 ...

  4. 白话机器学习算法理论+实战之PCA降维

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,比如我之前写过的一篇十大机器学习算法的小总结,在这简单的先捋一捋, 常见的机器学习算法: 监督学习算法:逻辑 ...

  5. 白话机器学习算法理论+实战之支持向量机(SVM)

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,比如我之前写过的一篇十大机器学习算法的小总结,在这简单的先捋一捋, 常见的机器学习算法: 监督学习算法:逻辑 ...

  6. 白话机器学习算法理论+实战之EM聚类

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,比如我之前写过的一篇十大机器学习算法的小总结,在这简单的先捋一捋, 常见的机器学习算法: 监督学习算法:逻辑 ...

  7. 白话机器学习算法理论+实战之K近邻算法

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,比如我之前写过的一篇十大机器学习算法的小总结,在这简单的先捋一捋, 常见的机器学习算法: 监督学习算法:逻辑 ...

  8. 分享丨国外20个机器学习相关博客推荐

    概述   最近一直在学习机器学习相关的知识,今天我就把我平时看到的一些国外的关于机器学习的博客和新闻站,分享给大家. Machine Learning - Reddit 网址:点击前往 介绍:关于大名 ...

  9. 缺失数据em算法python_重磅!李航《统计学习方法》Python 代码更新,适应第二版!...

    重磅!李航<统计学习方法>Python 代码更新,适应第二版! 点击上方"AI有道",选择"星标"公众号 重磅干货,第一时间送达 李航的<统计 ...

最新文章

  1. linux 裸设备 逻辑卷,Linux通过逻辑卷使用裸设备
  2. 13、Java菜单条、菜单、菜单项
  3. Java反射机制Reflection
  4. 软件工程课堂作业——寻找“水王”
  5. Could not delete .........May be locked by another process.
  6. spring学习(41):属性注入
  7. php http 类,php写的http请求封装类
  8. 飞鸽传书2011真正把用户利益放在股东的利益
  9. Delphi WebBrowser控件的使用
  10. 何时不应该使用 Rails?
  11. 对象序列化(六):应用实例-程序退出时保存状态
  12. 题目241-字母统计
  13. 【Python】爬取TapTap原神评论并生成词云分析
  14. 巅峰之战,一“码”当先!第三届“先导杯”强势来袭
  15. (JAVA)基于Socket的TCP和UDP编程(第一章)
  16. 3d Max 2014设置背景没有锁定选项的解决方法
  17. 【渝粤题库】陕西师范大学200521 普通语言学
  18. 【零基础跑项目】20代码教你基于opencv的人脸检测
  19. 常用SQL语句 - 基于MySQL数据库
  20. 【Vue3】vue3的keepAlive保存滚动位置

热门文章

  1. 太阳能工程联箱知识_暖通设计|太阳能热水系统设计参考手册(供参考)
  2. mysql 查询表总行数字段_mysql中怎么查询表中的字段个数
  3. web项目html引入css文件路径,详解Webpack和Webpack-simple中如何引入CSS文件_旧店_前端开发者...
  4. 适合零基础学python的书籍_适合零基础学习Python的书籍
  5. cstart做int型转换运算Java,Java实验练习题目-供练习参考
  6. ajax静态页面实例,AJAX实例:Ajax实现静态页面分页
  7. nexus5 刷原装android,nexus5 刷回原生系统
  8. ept技术_EPT技术在压载水处理中的运用
  9. 获取系统版本号_数据库系统原理
  10. 动画延迟效果css,每个子元素都有延迟的CSS动画