机器学习特征

机器学习任务需要满足如下三个条件:

  • [可学习] 存在底层规律
  • [任务难] 无法直接编程求解
  • [可训练] 有关于这个任务的数据

机器学习过程

用数据计算出结果函数 ggg,用于逼近目标函数 fff(通常不可知)。

机器学习分类

按输出结果分类

分类任务 (Classification)

  • 二分类 (Binary Classification): γ={−1,+1}\gamma=\{-1,+1\}γ={−1,+1}
  • 多分类 (Multiclass Classification)
    • γ={1,2,...,K}\gamma=\{1,2,...,K\}γ={1,2,...,K}
    • One-vs-rest:对每个类别进行单独训练,判断 KKK 个分类器哪个得分高
    • One-vs-one:对于类别中每一对 pairpairpair 单独训练,判断 K2K^2K2 个分类器结果中哪个类别出现次数最多
    • Error-correcting output code:给每个类别编码,比如一共三个类别,第一个类别为 100,第二个为 010,第三个为 001,对每一个 bit 训练一个 01 分类器,最后对于一组输入,分别代入三个分类器中得到向量 [h1(x),h2(x),h3(x)][h_1(x),h_2(x),h3(x)][h1​(x),h2​(x),h3(x)],判断该向量与哪一个类别的编码距离最近

回归任务 (Regression)

  • γ=R\gamma=\mathbb{R}γ=R

多标签任务 (Multi-label)

  • 多个标签需要预测,即一个类别同时属于多个标签,如一个新闻属于多个话题
  • 对每个标签分开预测

按数据标签分类

  • 监督学习 (supervised):数据全标注

    • 主要目的在于预测

  • 无监督学习 (unsupervised):数据未标注

    • 主要目的是探究数据间的特性(如聚类)

  • 半监督学习 (semi-supervised):部分数据标注
  • 强化学习 (reinforcement): 根据具体行为给予奖赏

按训练方法分类

  • 离线学习 (batch)

    • 离线数据、离线训练、离线评估、最后再上线
  • 在线学习 (online)
    • 先将模型预测结果展现给用户
    • 再收集用户的反馈数据,用于训练模型,形成闭环
  • 主动学习 (active)
    • 数据很多,但标注代价高
    • 训练时主动选择部分关键数据进行标注

按输入数据分类

  • 具体特征 (concrete)

    • 有明确意义,如身高
  • 未经处理的特征 (raw)
    • 仅有物理意义,如图像
  • 抽象特征 (abstract)
    • 难以理解,如 (用户 ID, 物品 ID, 分数) 中的输入特征 (用户 ID, 物品 ID)

机器学习特征与类型概述相关推荐

  1. 机器学习-特征工程中的特征降维

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  2. 机器学习-特征工程中的特征选择

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  3. 机器学习-特征工程中的数据预处理

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  4. 何为优秀的机器学习特征 zz

    提供好的特征是机器学习任务中最重要的工作,那么何为优秀的机器学习特征?以及如何高效地组合这些特征? 以二分类问题为例,好的特征具有很好的区分性.例如学习任务是区分两种不同类型的狗:灰猎犬(Greyho ...

  5. 机器学习——特征工程——数据的标准化(Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer)

    数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. 比如线性回归模型.逻辑回归模型或包含矩阵的模型,它们会 ...

  6. 使用Amazon SageMaker Feature Store存储、发现并共享机器学习特征

    前言 Amazon SageMaker Feature Store https://aws.amazon.com/sagemaker/feature-store/  作为Amazon SageMake ...

  7. 小时转换为机器学习特征_通过机器学习将pdf转换为有声读物

    小时转换为机器学习特征 This project was originally designed by Kaz Sato. 该项目最初由 Kaz Sato 设计 . 演示地址 I made this ...

  8. 机器学习实战 | 机器学习特征工程最全解读

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

  9. 图像特征检测描述:SIFT、SURF、ORB、HOG、LBP特征的原理概述

    版权声明:本文为博主原创文章,转载请标明原始博文地址: https://blog.csdn.net/yuanlulu/article/details/82148429 </div>< ...

  10. 机器学习特征筛选:方差选择法VarianceThreshold

    机器学习特征筛选:方差选择法VarianceThreshold 方差是衡量一个变量的离散程度(即数据偏离平均值的程度大小): 变量的方差越大,我们就可以认为它的离散程度越大,也就是意味着这个变量对模型 ...

最新文章

  1. 从人类交互通信发展简史看元宇宙发展趋势及商业价值
  2. 1.17 StringBuffer类详解
  3. Spring AOP 实现业务和异常日志记录实战
  4. Win7 访问共享时输入正确密码仍然提示密码错误
  5. 查看安装软件/Select-object/Where-Object xxx -like
  6. 【剑指offer】十九,数组中出现次数超过一半的数字
  7. NLP 中的文本分类
  8. 蓝桥杯小结,下阶段规划
  9. vs2008中使用gdi+的设置
  10. android Cursor用法
  11. uni-app请求后台接口方法封装
  12. JavaScript + jQuery 知识复习总结(附超实用jQuery中文文档)
  13. 分布式系统架构、微服务架构等架构区别
  14. 苏州科技大学计算机考研资料汇总
  15. X509 PKCS7 PKCS12
  16. 监听浏览器返回,可清除历史记录(移动端:手势返回)(vue)
  17. 用UCWEB浏览器上网 省流量小技巧
  18. 使用busybox制作rootfs
  19. 智能家居系统解决方案
  20. php plaintext,php从邮件正文中提取text / plain

热门文章

  1. Fragment中获取Activity的Context
  2. Mysql 时间戳类型使用心得
  3. Cocos2d-x3.2 持续动作
  4. Exadata:Smart Scan(二) FAST FULL SCAN
  5. 计算机专业英语信息系统,信息系统项目管理师英语复习资料:计算机专业英语汇总[5]...
  6. FTP已登录,读取目录列表失败
  7. Java中成员变量、局部变量和静态变量的区别
  8. CodeBlocks中文乱码
  9. 前端-----文本类标签汇总
  10. ping 代理_linux命令行代理神器-proxychains