聚类算法:

        无监督学习算法,根据样本之间的相似度将样本分为多个类别。K-Means简单易懂易于实现,但也与生俱来有一些明显的缺陷,比如算法依赖K值的选择、初始点的选择、样本的分布,以及对异常值非常敏感、在大样本数据集上性能较差。K-means的损失函数是求所有数据点与所在簇的中心点的距离之和

逻辑回归:

        是一种广义的线性回归模型,主要用于数据挖掘、疾病自动诊断、经济预测等。常用于二分类场景,通过sigmoid来把输出结果映射为0-1的概率值

朴素贝叶斯:

        是基于贝叶斯定理与特征条件独立假设的分类方法,特点是结合先验假设

和后验概率的,避免出现了先验概率的主观偏见,也避免了单独使用样本信息的过拟合

SVM支持向量机:

        是一种按监督学习的方式来对数据进行二元分类的广义线性分类器,是N维空间的分类超平面,他将空间切分成两部分,对于二维空间的话,他是一条线,对于三维空间的话,他是一个平面,对于更高维空间,他是超平面

KNN近邻算法:

         k近邻分类算法是数据挖掘分类计算中最简单的方法之一。K近邻就是k个最近的邻居的意思,每个样本都可以用它最接近的k个近邻值来代表。就是你距离那个邻居近,那么你大概率也属于这个邻居的类

logistic 回归:

        是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。Sigmoid

        为什么用交叉熵而不用欧式距离做损失函数:欧式距离不是凸函数;交叉熵是凸函数;凸函数问题求解方便。

决策树:

        是一种树形结构,本质是一颗由多个判断结点组成的数,可以解决分类问题和回归问题。结点挂的样本类别都是同一个类别的、或者结点只有一个样本的时候才算决策树构建完毕

随机森林:

        是一个包含多个决策树的分类器,训练多个弱学习器集成在一块来进行预测,多个弱学习器来进行平权投票,得到最终的结果。但是如果出现过拟合的话容易出现互相遏制

XGBOOST

        极端梯度提升树,在树深为0的时候开始分裂,每次分裂后形成两个叶子结点,新分裂一个结点后,需要检测这次分裂是否会给损失函数带来增益,当树深度到最大深度时会停止分裂,但是深度值设置过大的时候会造成树分的太细,造成过拟合。核心思想:在GBDT的基础上,目标函数增加了正则化项,并且在求解时做了二阶泰勒展开

Adaboost:

        是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)

GBDT:

        是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。是回归树(不是分类树),GBDT用来做回归预测。核心思想:用加法模拟,更准确的说,是多棵决策树来拟合一个目标函数。每一棵决策树拟合的是之前迭代得到的模型的残差。求解时,对目标函数使用一阶泰勒展开,用梯度下降法训练决策树。

信息增益:

        信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好

ID3、C4.5、CART(基尼指数)、Adaboost、GBDT、XGBoost区别和联系

        1. ID3、C4.5(信息增益、信息增益率):使用多叉树,树过于简单,容易过拟合

        2. CART(基尼指数):使用二叉树,树过于复杂,容易过拟合

        3. 提升树(残差):多个弱学习器、通过拟合残差(真实值-预测值),提升预测精度

        4. GBDT(负梯度):通过拟合损失函数负梯度,提升预测精度

        5. XGBoost(自有分裂增益计算方法):通过拟合损失函数的二阶导,拟合精度提升,并在损失函数中考虑了树的复杂度

        6. LightGBM(自有分类增益计算方法):通过对 XGBoost 算法多方面的优化,提升训练速度、减少内存占用

---------:

1. 通过直方图算法减少待计算的分裂点数量

2. 基于 leaf-wise 的生长策略,减少了树的分裂计算量

3. 支持类别特征提升了训练效率

4. 支持特征、数据维度的并行

后期优化方法:

  1. 数据层面:回译数据、单词替换
  2. 训练策略方面:优化器替换(SGD, Adam, AdamW
  3. 部署优化(提速):量化、模型剪枝、知识蒸馏、GPU加速

混淆矩阵:

        准确率是(真正例TP+真反例TN)/(所有的元素)计算出来的

        精确率就是查的准不准 所有是 (真正例TP)/(真正例TP+伪正例FP)算出来的

        召回率就是 (真正例TP)/ (真正例TP+伪反例FN)

        f1值的话是 (2*真正例TP)/(2*真正例TP+伪反例FN +伪正例FP)

        图形的话通过浮点图来画这个曲线吧

什么是采样、欠采样、过采样:

采样

一句话概括 —— ML(机器学习)相关推荐

  1. 转--Python标准库之一句话概括

    作者原文链接 想掌握Python标准库,读它的官方文档很重要.本文并非此文档的复制版,而是对每一个库的一句话概括以及它的主要函数,由此用什么库心里就会有数了. 文本处理 string: 提供了字符集: ...

  2. tcp三次握手,一句话概括

    一句话概括:确认双方的接收与发送能力是否正常. 从图片可以得到三次握手可以简化为:C发起请求连接S确认,S也发起请求连接C确认 每次握手的作用: 第一次握手: S只可以确认 自己可以接收C发送的报文段 ...

  3. ML机器学习基于树的家族

    ML机器学习基于树的家族 目录 决策树模型与学习 特征选择 决策树的生成 3.1 决策树的编程实现 3.2 画出决策树的方式 决策树的剪枝 DBGT 随机森林 参考资料: 机器学习实战 统计学习方法 ...

  4. 经典!一句话概括的四大名著

    对于中国古代四大名著,仁者见仁,智者见智,甚至由此产生了很多种学问.请看网络牛人用一句话概括的四大名著吧! 最热门的答案 西游:<论西部开发--唐朝学者出国考察团调研报告> 红楼:< ...

  5. spark 逻辑回归算法案例_黄美灵的Spark ML机器学习实战

    原标题:黄美灵的Spark ML机器学习实战 本课程主要讲解基于Spark 2.x的ML,ML是相比MLlib更高级的机器学习库,相比MLlib更加高效.快捷:ML实现了常用的机器学习,如:聚类.分类 ...

  6. 22种代码的坏味道,一句话概括

    22种代码的坏味道,一句话概括: 如果一段代码是不稳定或者有一些潜在问题的,那么代码往往会包含一些明显的痕迹. 正如食物要腐坏之前,经常会发出一些异味一样. 我们管这些痕迹叫做"代码异味&q ...

  7. tcp 三次握手,一句话概括

    一.总体说明 由于客户端和服务端都需要各自可收发,因此需要三次握手. 从上图可知三次握手可以简化理解为:客户端发起请求连接服务端请求确认,服务端也发起请求连接客户端确认[1]. 客户端与服务端建立TC ...

  8. 用一句话概括Handler,并简述其原理

    目录 Q1:用一句话概括Handler,并简述其原理? (1)Handler是什么? (2)Handler的原理是什么? (3)Handler有什么作用? (4)为什么使用handler,Messag ...

  9. ML机器学习导论学习笔记

    机器学习的定义: 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以 ...

最新文章

  1. 如何设计一个安全的对外接口?
  2. 10.app后端选择什么开发语言
  3. MaxCompute2.0性能评测:更强大、更高效之上的更快速
  4. 如何在C语言里调用opencv C++函数?
  5. 2019 sample-free(样本不平衡)目标检测论文阅读笔记
  6. 对Spring Boot还陌生吗?
  7. STM32CubeMX使用(六)之RTC及制作时间戳
  8. mathtype 公式字体
  9. 允许更新此预编译站点的作用
  10. mac安装JDK及maven
  11. android上传到svn服务器端,上传Android项目到SVN
  12. 基于asp.net C#中小型超市库存管理系统
  13. php 获取第几周的时间,PHP获取一年有几周以及每周开始日期和结束日期
  14. 正则表达式:JAVA正则表达式运用
  15. 修复共享服务器,集群服务器共享磁盘柜的修复案例
  16. 1891-2100年php日历代码
  17. c++:vector sort()排序
  18. 智能化实验室设计是什么
  19. c语言日期计算器程序代码,旧计算器(C语言代码)
  20. TailwindCSS为前端开发者带来了什么?

热门文章

  1. 【iOS学习笔记】玩转字符串
  2. Centos7 配置Socks5代理
  3. 2017.08.20【NOIP提高组】模拟赛B组 【NOIP2014八校联考第4场第2试10.20】星球联盟(alliance)...
  4. 蚂蚁金服数据分析平台 附下载
  5. 磁盘处于脱机状态解决办法
  6. 悬镜安全与小佑科技达成战略合作,打造DevSecOps云原生安全技术创新生态
  7. 【Qt】Use multi-arg instead
  8. Chromium 基础库使用说明(入门必看)
  9. RabbitMQ-topic模式
  10. javaweb_一个用户注册的界面