当我们说“分类”的时候,我们到底在说什么?
当我们说到机器学习时,一个很高频的词:“分类”,会经常出现,那当我们说“分类”的时候,我们到底在说什么?
我查了很多博客、书籍、资料,提到“分类”,马上就进入“分类算法”的介绍描述,又是KNN(K最近邻算法),又是朴素贝叶斯等等。当然,可能是因为“分类”太常见了,所以大家都不肖一提。但对我们自己来说,要建立宏伟的“机器学习”能力大厦,一些基础的概念就好似大厦的地基,是必须稳固坚实的。
我们看一看“分类”的原始定义,根据百度百科的定义:
分类是指按照种类、等级或性质分别归类。
这个定义其实隐含有“分类”的2个重要信息:一是“按照种类、等级或性质”,意思是我们事先已经知道了“种类、等级或性质”,即我们知道要分成几类,分成哪些类。例如我们要把收到的电子邮件分类,我们分类之前已经知道要分为2类,一类是“正常邮件”,另一类是“垃圾邮件”。二是分类是个过程,例如将100封电子邮件,分别归类到“正常邮件”和“垃圾邮件”这2个类别名下。
有了这个基本认识,我们再来看一个大家容易忽视的问题:
我们为什么要分类?
先看看如果我们“不分类”有什么问题。今天你上餐馆吃饭,老板问你要吃什么菜?你说吃蔬菜。吃什么蔬菜?老板一脸茫然!你去奥特莱斯,对服务员说,给我来一件衣服。什么衣服?服务员一脸懵逼。
看到没,没有“分类”我们是无法正常生活的。
那么我们分类的目的其实就是把大量的事物细分成不同的种类,使得我们对某一个具体的事物有共同的理解和认识。例如把蔬菜分类成菠菜、小白菜、大白菜、芹菜、胡萝卜、白萝卜等等,把衣服分成外套、内衣、衬衣、短裤、长裤等等,这样我们才有正常沟通交流的基础。
当然,除了日常生活中的沟通交流,分类其实还有更多方面的考虑和应用。例如,垃圾的分类,既可以提高垃圾的回收利用水平,又可减少垃圾处理工作量。企业把客户分成大客户、优质客户、普通客户等,也是增强营销针对性、集中企业资源、发现市场机会,更好的提升企业竞争力和效益的重要手段和措施。银行把客户分成铂金用户、黄金用户、白银用户、黑名单用户等等,分别给予不同的贷款利率或理财产品,也是基于风险和利润的综合权衡。事实上,各行各业都有分类的需要和广阔的应用场景。那在机器学习中,“分类”一般用来干吗?应用场景也很多,垃圾邮件检测,人脸识别,文字识别,语音识别,医疗分析,客户分类,贷款审查等等。
所以,分类很重要。这也是为什么“分类”是机器学习领域非常核心的内容。
那具体的分类过程是怎样开展的呢?我们来举个例子:假设你是一位超市的蔬菜采购员,今天到一位农户那里采购辣椒,农户的辣椒很多,给了你10箩筐,每框大约1000个,有好有坏。你先挑第1框,挑了10分钟,挑出来400个品相好的辣椒,剩下的600个是品相不好的辣椒。这就是一个“分类”应用,你把农户的辣椒分成了品相好的和品相不好的2个种类。
注意,这个实际例子中隐含着几个非常重要的信息。首先,你靠什么判断辣椒是品相好的,还是品相不好的?那就是辣椒的特征,例如大小、颜色、光泽、表面平整度等等,也就是说,这些特征已经存储在你的大脑中,那这些特征是怎样存储在你的大脑中的,是因为你以前挑选过无数的辣椒,经历过长期的选辣椒“训练”,那些好辣椒的特征已经存储在你的大脑中。其次,你挑出一个辣椒,按照这些特征与你大脑中的品相好的辣椒进行对比,类似的就是品相好的,不类似的就是品相不好的。这就是“相似度计算”,或者叫“距离计算”。计算方法就是根据辣椒的这些特征进行综合计算,可以简单加权,可以单项决策,看你自己的大脑怎样定了,这就是“相似度计算方法”或叫“距离计算方法”。最后,什么是类似,什么是不类似?靠什么标准判断?这个标准就是你大脑中设置的“阈值”,例如相似度大于50%这个阈值,你就归到品相好的一类,相似度低于50%的阈值,你就归到品相不好的一类。
看到这里,你应该明白了这个现实场景与“机器学习”的关系了。我们再延伸一步,假设今天你带了一位实习采购员,以前从来没有采购过辣椒。你在挑这第1框1000个辣椒的时候,他在旁边看着,哪个是好辣椒,哪个是不好的辣椒。然后这一箩筐你挑完了,农户那还有9箩筐呢,你告诉实习采购员,让他去挑剩下的9箩筐。他刚刚在一旁看你挑第1框的1000个辣椒,这就是“训练”,然后他去挑剩下的9箩筐,就是“预测”,最终的效果是将9箩筐的辣椒分成了2类。如果这个实习采购员是一个机器人或电脑,这就是“机器学习”的“分类”,也可以说是“机器学习”进行了一次“分类”方面的应用。
当我们说“分类”的时候,我们到底在说什么?相关推荐
- 用神经网络的分类行为理解质量到底是什么?
关于神经网络的两个假设 假设1:完全相同的两个对象无法被分成两类,与之对应的分类迭代次数为无穷大,分类准确率是50%,50%.在不同的训练集之间,相等收敛标准下迭代次数越大表明两个分类对象差异越小. ...
- 神经网络的分类准确率是100%到底意味着什么?
(A,B)---n*m*2---(1,0)(0,1) 做一个网络分类A和B,随着迭代次数的增加A与B的分类准确率会不断的增加并无限的接近或达到100%.所以是否有一个物理过程与这个现象相对应? 先引入 ...
- 用户运营的核心本质是什么?分级、分类、分阶段
---- / BEGIN / ---- 长久以来,人们对于用户运营这个岗位有诸多的看法和误解,甚至有过些许争论. 比如: 有的人认为:促进产品的用户增长.留存.活跃,都是用户运营工作的范畴内--这样想 ...
- 数据中台为什么要建标签体系,分类它不香吗?
数据中台为什么要建标签体系,分类它不香吗? 在众多的数据中台的解决方案中,一个叫做"标签中心"或"标签体系"的应用,几乎成了数据中台的"标配" ...
- 特征提取 notes
特征获取 从N个特征集合中选择M个特征的子集, 并满足M<=N 1, 特征提取:是一种变换,将处于高位空间的样本通过映射或变换的方式转换到低维空间,达到降维目的 2, 特 ...
- GBDT(回归树)原理详解与python代码实现
GBDT算法 1.算法原理 2.对数据的要求 3.算法的优缺点 4.算法需要注意的点 5.python代码实现(待更......) 导入相关包 读取数据并预处理 训练及评估 1.算法原理 步骤: 1. ...
- Python数据挖掘与机器学习,快速掌握聚类算法和关联分析
摘要:前文数据挖掘与机器学习技术入门实战与大家分享了分类算法,在本文中将为大家介绍聚类算法和关联分析问题.分类算法与聚类到底有何区别?聚类方法应在怎样的场景下使用?如何使用关联分析算法解决个性化推荐问 ...
- 20210510_AI方面常见试题
记录下自己开始学AI方面的一些日常习题 目录 第一天_2021.5.10 1,为什么要对特征做归一化 2,什么是组合特征?如何处理高维组合特征? 3,请比较欧式距离与曼哈顿距离? 4,为什么一些场景中 ...
- (五)不只是 huohuo 的 JS 面试题
写过最多的是 JS 相关的文章,做过最完整的是 JS 的思维导图,敲过最多的依然是 JS 代码,我觉得自己的 JS 还算可以了.写到这里的时候,我已经离职一周,也参加了几次面试,大多数问题都能按自己的 ...
- 手机淘宝构架演化实践及优化,天猫,淘宝服务
> 天猫App 安全模式:天猫App启动保护实践- https://mp.weixin.qq.com/s?__biz=MzUxMzcxMzE5Ng==&mid=2247488429&am ...
最新文章
- LeetCode简单题之旅行终点站
- 姚期智:中国金融科技发展的真正挑战是什么?如何解决? 本文作者:温晓桦	2017-09-17 18:31 导语:“在金融科技里面,计算机科学的用途已经从台后走到了台中,对核心金融体系的运作上产生一定的
- Redis之通用的key操作命令
- IDEA阿里巴巴Java开发规约插件使用
- kvm虚拟化管理平台WebVirtMgr部署-完整记录(2)
- sql基础教程亚马逊_针对Amazon,Apple,Google的常见SQL面试问题
- 如何用python32位开发词典软件_Python如何实现字典?
- unity 的Cinemachine组件运用
- Linux服务器之间传输文件 scp命令
- 结构体对齐 大小 位域问题
- 《Android权威编程指南(The Big Nerd Ranch Guide)(第二版)》12.4挑战练习
- Arena4D点云数据处理软件简介
- Si5341时钟芯片使用说明
- Photoshop(简称Ps)制作个人logo
- 计算机应届生面试,计算机应届生面试技巧
- 使用FileZilla下载Jason2和Jason3雷达高度计数据
- “去中心化”是区块链的目的吗
- 关于项目连接docker数据库报错不存在表的问题
- vue 将地址转换为二维码
- 图像处理与识别学习小结
热门文章
- 推荐3个快速开发平台 前后端都有 项目经验又有着落了
- leetcode的回溯算法题目用这个模板解题,一网打尽,so easy!!!
- apt-get update 出现E: Could not get lock /var/lib/apt/lists/lock问题的解决
- Java7 HashMap详解
- 蓝桥杯-合并石子(java)
- Java连接数据库(JDBC)之三:java访问数据库MySQL实例
- 前端实现mac笔记本停靠栏效果
- springMVC如何接收和发送json数据对象
- 计算机机房门内开还是外开,卫生间的门是朝内开还是朝外开好?原来这样开,入住才方便!...
- python 生成001开始的序号_你知道嘛:Python内建序列通用操作有6种实现方法(赶快收藏)...