当我们说到机器学习时,一个很高频的词:“分类”,会经常出现,那当我们说“分类”的时候,我们到底在说什么?

我查了很多博客、书籍、资料,提到“分类”,马上就进入“分类算法”的介绍描述,又是KNN(K最近邻算法),又是朴素贝叶斯等等。当然,可能是因为“分类”太常见了,所以大家都不肖一提。但对我们自己来说,要建立宏伟的“机器学习”能力大厦,一些基础的概念就好似大厦的地基,是必须稳固坚实的。

我们看一看“分类”的原始定义,根据百度百科的定义:

分类是指按照种类、等级或性质分别归类。

这个定义其实隐含有“分类”的2个重要信息:一是“按照种类、等级或性质”,意思是我们事先已经知道了“种类、等级或性质”,即我们知道要分成几类,分成哪些类。例如我们要把收到的电子邮件分类,我们分类之前已经知道要分为2类,一类是“正常邮件”,另一类是“垃圾邮件”。二是分类是个过程,例如将100封电子邮件,分别归类到“正常邮件”和“垃圾邮件”这2个类别名下。

有了这个基本认识,我们再来看一个大家容易忽视的问题:

我们为什么要分类?

先看看如果我们“不分类”有什么问题。今天你上餐馆吃饭,老板问你要吃什么菜?你说吃蔬菜。吃什么蔬菜?老板一脸茫然!你去奥特莱斯,对服务员说,给我来一件衣服。什么衣服?服务员一脸懵逼。

看到没,没有“分类”我们是无法正常生活的。

那么我们分类的目的其实就是把大量的事物细分成不同的种类,使得我们对某一个具体的事物有共同的理解和认识。例如把蔬菜分类成菠菜、小白菜、大白菜、芹菜、胡萝卜、白萝卜等等,把衣服分成外套、内衣、衬衣、短裤、长裤等等,这样我们才有正常沟通交流的基础

当然,除了日常生活中的沟通交流,分类其实还有更多方面的考虑和应用。例如,垃圾的分类,既可以提高垃圾的回收利用水平,又可减少垃圾处理工作量。企业把客户分成大客户、优质客户、普通客户等,也是增强营销针对性、集中企业资源、发现市场机会,更好的提升企业竞争力和效益的重要手段和措施。银行把客户分成铂金用户、黄金用户、白银用户、黑名单用户等等,分别给予不同的贷款利率或理财产品,也是基于风险和利润的综合权衡。事实上,各行各业都有分类的需要和广阔的应用场景。那在机器学习中,“分类”一般用来干吗?应用场景也很多,垃圾邮件检测,人脸识别,文字识别,语音识别,医疗分析,客户分类,贷款审查等等

所以,分类很重要。这也是为什么“分类”是机器学习领域非常核心的内容。

那具体的分类过程是怎样开展的呢?我们来举个例子:假设你是一位超市的蔬菜采购员,今天到一位农户那里采购辣椒,农户的辣椒很多,给了你10箩筐,每框大约1000个,有好有坏。你先挑第1框,挑了10分钟,挑出来400个品相好的辣椒,剩下的600个是品相不好的辣椒。这就是一个“分类”应用,你把农户的辣椒分成了品相好的和品相不好的2个种类。

注意,这个实际例子中隐含着几个非常重要的信息。首先,你靠什么判断辣椒是品相好的,还是品相不好的?那就是辣椒的特征,例如大小、颜色、光泽、表面平整度等等,也就是说,这些特征已经存储在你的大脑中,那这些特征是怎样存储在你的大脑中的,是因为你以前挑选过无数的辣椒,经历过长期的选辣椒“训练”,那些好辣椒的特征已经存储在你的大脑中。其次,你挑出一个辣椒,按照这些特征与你大脑中的品相好的辣椒进行对比,类似的就是品相好的,不类似的就是品相不好的。这就是“相似度计算”,或者叫“距离计算”。计算方法就是根据辣椒的这些特征进行综合计算,可以简单加权,可以单项决策,看你自己的大脑怎样定了,这就是“相似度计算方法”或叫“距离计算方法”。最后,什么是类似,什么是不类似?靠什么标准判断?这个标准就是你大脑中设置的“阈值”,例如相似度大于50%这个阈值,你就归到品相好的一类,相似度低于50%的阈值,你就归到品相不好的一类。

看到这里,你应该明白了这个现实场景与“机器学习”的关系了。我们再延伸一步,假设今天你带了一位实习采购员,以前从来没有采购过辣椒。你在挑这第1框1000个辣椒的时候,他在旁边看着,哪个是好辣椒,哪个是不好的辣椒。然后这一箩筐你挑完了,农户那还有9箩筐呢,你告诉实习采购员,让他去挑剩下的9箩筐。他刚刚在一旁看你挑第1框的1000个辣椒,这就是“训练”,然后他去挑剩下的9箩筐,就是“预测”,最终的效果是将9箩筐的辣椒分成了2类。如果这个实习采购员是一个机器人或电脑,这就是“机器学习”的“分类”,也可以说是“机器学习”进行了一次“分类”方面的应用。

当我们说“分类”的时候,我们到底在说什么?相关推荐

  1. 用神经网络的分类行为理解质量到底是什么?

    关于神经网络的两个假设 假设1:完全相同的两个对象无法被分成两类,与之对应的分类迭代次数为无穷大,分类准确率是50%,50%.在不同的训练集之间,相等收敛标准下迭代次数越大表明两个分类对象差异越小. ...

  2. 神经网络的分类准确率是100%到底意味着什么?

    (A,B)---n*m*2---(1,0)(0,1) 做一个网络分类A和B,随着迭代次数的增加A与B的分类准确率会不断的增加并无限的接近或达到100%.所以是否有一个物理过程与这个现象相对应? 先引入 ...

  3. 用户运营的核心本质是什么?分级、分类、分阶段

    ---- / BEGIN / ---- 长久以来,人们对于用户运营这个岗位有诸多的看法和误解,甚至有过些许争论. 比如: 有的人认为:促进产品的用户增长.留存.活跃,都是用户运营工作的范畴内--这样想 ...

  4. 数据中台为什么要建标签体系,分类它不香吗?

    数据中台为什么要建标签体系,分类它不香吗? 在众多的数据中台的解决方案中,一个叫做"标签中心"或"标签体系"的应用,几乎成了数据中台的"标配" ...

  5. 特征提取 notes

    特征获取     从N个特征集合中选择M个特征的子集, 并满足M<=N     1, 特征提取:是一种变换,将处于高位空间的样本通过映射或变换的方式转换到低维空间,达到降维目的     2, 特 ...

  6. GBDT(回归树)原理详解与python代码实现

    GBDT算法 1.算法原理 2.对数据的要求 3.算法的优缺点 4.算法需要注意的点 5.python代码实现(待更......) 导入相关包 读取数据并预处理 训练及评估 1.算法原理 步骤: 1. ...

  7. Python数据挖掘与机器学习,快速掌握聚类算法和关联分析

    摘要:前文数据挖掘与机器学习技术入门实战与大家分享了分类算法,在本文中将为大家介绍聚类算法和关联分析问题.分类算法与聚类到底有何区别?聚类方法应在怎样的场景下使用?如何使用关联分析算法解决个性化推荐问 ...

  8. 20210510_AI方面常见试题

    记录下自己开始学AI方面的一些日常习题 目录 第一天_2021.5.10 1,为什么要对特征做归一化 2,什么是组合特征?如何处理高维组合特征? 3,请比较欧式距离与曼哈顿距离? 4,为什么一些场景中 ...

  9. (五)不只是 huohuo 的 JS 面试题

    写过最多的是 JS 相关的文章,做过最完整的是 JS 的思维导图,敲过最多的依然是 JS 代码,我觉得自己的 JS 还算可以了.写到这里的时候,我已经离职一周,也参加了几次面试,大多数问题都能按自己的 ...

  10. 手机淘宝构架演化实践及优化,天猫,淘宝服务

    > 天猫App 安全模式:天猫App启动保护实践- https://mp.weixin.qq.com/s?__biz=MzUxMzcxMzE5Ng==&mid=2247488429&am ...

最新文章

  1. LeetCode简单题之旅行终点站
  2. 姚期智:中国金融科技发展的真正挑战是什么?如何解决? 本文作者:温晓桦 2017-09-17 18:31 导语:“在金融科技里面,计算机科学的用途已经从台后走到了台中,对核心金融体系的运作上产生一定的
  3. Redis之通用的key操作命令
  4. IDEA阿里巴巴Java开发规约插件使用
  5. kvm虚拟化管理平台WebVirtMgr部署-完整记录(2)
  6. sql基础教程亚马逊_针对Amazon,Apple,Google的常见SQL面试问题
  7. 如何用python32位开发词典软件_Python如何实现字典?
  8. unity 的Cinemachine组件运用
  9. Linux服务器之间传输文件 scp命令
  10. 结构体对齐 大小 位域问题
  11. 《Android权威编程指南(The Big Nerd Ranch Guide)(第二版)》12.4挑战练习
  12. Arena4D点云数据处理软件简介
  13. Si5341时钟芯片使用说明
  14. Photoshop(简称Ps)制作个人logo
  15. 计算机应届生面试,计算机应届生面试技巧
  16. 使用FileZilla下载Jason2和Jason3雷达高度计数据
  17. “去中心化”是区块链的目的吗
  18. 关于项目连接docker数据库报错不存在表的问题
  19. vue 将地址转换为二维码
  20. 图像处理与识别学习小结

热门文章

  1. 推荐3个快速开发平台 前后端都有 项目经验又有着落了
  2. leetcode的回溯算法题目用这个模板解题,一网打尽,so easy!!!
  3. apt-get update 出现E: Could not get lock /var/lib/apt/lists/lock问题的解决
  4. Java7 HashMap详解
  5. 蓝桥杯-合并石子(java)
  6. Java连接数据库(JDBC)之三:java访问数据库MySQL实例
  7. 前端实现mac笔记本停靠栏效果
  8. springMVC如何接收和发送json数据对象
  9. 计算机机房门内开还是外开,卫生间的门是朝内开还是朝外开好?原来这样开,入住才方便!...
  10. python 生成001开始的序号_你知道嘛:Python内建序列通用操作有6种实现方法(赶快收藏)...