机器学习基本概念

  • 1. 特征工程
    • 1.1 特征工程的目的
    • 1.2 怎么做特征工程?
      • 1.2.1 特征构建
      • 1.2.2 特征提取
        • 1.2.2.1特征提取常用方法
      • 1.2.3 特征选择
        • 1.2.3.1 特征选择常用方法
  • 2. 结构化数据
  • 3. 非结构化数据

1. 特征工程

  • 特征工程师对原始数据进行一系列的工程处理,作为输入供算法和模型使用。
    举例:想让机器识别这个图片是不是苹果,可以选择 形状,颜色分布,边等作为特征
  • 从本质上讲,特征工程是一个表示和展现数据的过程。
  • 实际中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解问题与预测模型之间的关系

1.1 特征工程的目的

  • 去掉数据中的杂质

  • 构造更高级的高效的特征来描述数据。

1.2 怎么做特征工程?

特征工程一般包括三个子模块:特征构建->特征提取->特征选择

1.2.1 特征构建

根据原始数据构建新的特征,需要找出一些具有物理意义的特征。

1.2.2 特征提取

自动地构建新的特征,将原始特征转换为一组具有明显物理意义或者统计意义或核的特征。例如 Gabor、几何特征、纹理等。

1.2.2.1特征提取常用方法

PCA (Principal component analysis,主成分分析)
ICA (Independent component analysis,独立成分分析)
LDA (Linear Discriminant Analysis,线性判别分析)

1.2.3 特征选择

从特征集合中挑选一组最具统计意义的特征子集,把无关的特征删掉,从而达到降维的效果

1.2.3.1 特征选择常用方法

常用的方法:

filter 方法:Pearson相关系数,Gini-index(基尼指数),IG(信息增益)等
wrapper :有逐步回归(Stepwise regression 递归特征消除法)、向前选择(Forward selection)和向后选择(Backward selection)等
Embeded :Regularization(基于L1,L2惩罚项的特征选择法),或者使用决策树思想,Random Forest和Gradient boosting等

2. 结构化数据

结构化数据类型可以看做关系型数据库的一张表,每列都有清晰的定义,包含了数值型、类别型两种基本类型,每一行数据表示一个样本的信息。

3. 非结构化数据

非结构化数据主要包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值表示,也没有清晰地类别定义,并且每条数据的大小各不相同。

《百面机器学习》第零问:什么是特征工程?什么是结构化数据?什么是非结构化数据?相关推荐

  1. 机器学习之恶意流量检测的特征工程

    背景 传统的机器学习除了使用Tfidf-ngram的方式外还有其他做特征工程方式,还可以通过定义不同维度的特征来做特征工程,这种特征工程方式需要安全工程师对每一种攻击有良好特征提取能力.这种方法举个例 ...

  2. Python数据分析案例07——二手车估价(机器学习全流程,数据清洗、特征工程、模型选择、交叉验证、网格搜参、预测储存)

    案例背景 本次案例来自2021年matchcop大数据竞赛A题数据集.要预测二手车的价格.训练集3万条数据,测试集5千条.官方给了二手车的很多特征,有的是已知的,有的是匿名的.要求就是做模型去预测测试 ...

  3. 大厂面试机器学习算法(0):特征工程 | 数据预处理

    文章目录 数据分桶(分箱) 卡方分桶 等距分桶 等频分桶 聚类分桶 无量纲化 数据规范化 数据正则化 数据清洗 数据缺失 噪音数据 数据不一致 特征选择与特征提取 特征选择 特征提取 数据分桶(分箱) ...

  4. 机器学习入门研究(五)-特征工程之特征提取

    目录 为什么要用特征工程 特征提取(Feature Extraction) 1.目的 2.对应的工具 3.三种方法 4.对应的sklearn的API (1)字典特征提取 (2)文本特征提取 总结 特征 ...

  5. 《机器学习算法竞赛实战》-chapter4特征工程

    <机器学习算法竞赛实战>学习笔记,记录一下自己的学习过程,详细的内容请大家购买作者的书籍查阅. 特征工程 特征工程是算法竞赛中工作量最大,决定参赛者能否拿到较好名次的关键部分.吴恩达老师说 ...

  6. 重磅 | 《机器学习综述》算法分类及特征工程手推笔记!

    编辑:Sophia | 王博(Kings)笔记 计算机视觉联盟 报道 | 公众号 CVLianMeng 这是AI博士系列笔记的第一篇(欢迎关注王博的公众号[计算机视觉联盟],我们一起学习进步!) 笔记 ...

  7. 重磅 | 《机器学习综述》算法分类及特征工程手写笔记

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia           | 王博(Kings)笔记 计算机视觉联盟  报道  | 公众号 CVLia ...

  8. 【机器学习】机器学习从零到掌握之三 -- 教你使用K近邻算法改进约会网站

    本文是<机器学习从零到掌握>系列之第3篇 机器学习从零到掌握之一 -- 教你理解K近邻算法 机器学习从零到掌握之二 -- 教你实现K近邻算法 本篇使用的数据存放在文本文件datingTes ...

  9. 机器学习实战之特征工程

    机器学习实战与特征工程 1.机器学习概述 1.1 什么是机器学习 1.2 为什么要机器学习 1.3 机器学习应用场景 1.4 学习框架和资料的介绍 2.特征工程 2.1 特征工程介绍 2.1.1 数据 ...

  10. 机器学习特征工程之特征选择

                                                                 前言 本文总结了特征选择的常用方法,并附上Python实现代码,其中输入数据集 ...

最新文章

  1. UIPickerView和UIDataPicker
  2. 电脑常见故障处理_关于密封仪、密封试验仪器在使用上的常见故障及维护方面...
  3. HTML——meta
  4. windows nssm将应用程序做成服务的实例
  5. gpg加解密软件学习
  6. QPW 用户签到日志表(tf_user_signin_log)
  7. C程序语言表达式运算顺序,详解C++编程中表达式的语义与计算顺序
  8. 深入学习用Go编写HTTP服务器
  9. java linux driver,JAVA:使用GeckoDriver在Linux上运行Selenium测试:驱动程序不可执行
  10. 170628 逆向-安卓查壳软件ApkDetecter安装
  11. 【音视频流媒体】图像、视频编码、网络协议超详细介绍
  12. tan和cot的梗_tan与cot有什么区别和联系
  13. 为什么要做数据分析?数据分析给企业带来了什么?
  14. LAN9252 out端口识别不到的原因排查
  15. mysql查询高于平均_查询成绩高于平均分的成绩记录。
  16. 独立开发者为什么不需要运营也能月薪几万,甚至几十万?
  17. (Java)学习笔记1---入门篇
  18. Excel中Chart对象成员表
  19. AndroidStudio写的个人信息修改界面
  20. 大数据产业驱动智慧家庭发展

热门文章

  1. c语言 剪子包袱锤游戏,幼儿民间游戏:“剪子、包袱、锤”的多种玩法
  2. 海外社交媒体推广之Linkedln账号如何经营发帖做推广?
  3. 简述移动通信的网络制式
  4. 5018软件项目管理
  5. IDC:云效产品能力No.1,领跑中国DevOps市场
  6. 【观察】从《鲲鹏计算产业发展白皮书》,看万亿级计算产业大蓝海
  7. 机器学习入门--唤起你的数学记忆
  8. 正点原子STM32F103综合课程操作学习笔记(包含代码)
  9. 某大厂面试官问:你会Git工具?我怂了!
  10. 计算机唤醒休眠快捷键,电脑休眠真的不耗电么?唤醒有快捷键么?