文章目录

  • I . 分类概念
  • II . 分类 ( 离散值 ) 和 预测 ( 连续值 )
  • III . 分类过程
  • IV . 分类过程中使用的数据集 ( 训练集 | 测试集 | 新数据 )
  • V . 数据预处理
  • VI . 分类方法评价
  • VII . 分类算法举例
  • VIII . 有监督学习 和 无监督学习

I . 分类概念


1 . 数据挖掘任务分类 : 数据挖掘任务分为 模型挖掘 和 模式挖掘 , 其中 模型挖掘 包含 描述建模 和 预测建模 ;

2 . 分类任务类型 : 分类 属于 模型挖掘 任务 , 任务类型是 预测建模 类型 ;

3 . 预测建模 : 根据 已知的数据特征 , 预测未知的数据特征 ; 如 : 数据有 n 个变量 , 已知 n - 1 个变量的值 , 预测未知的那个变量的值 ;

4 . 预测建模 示例 : 根据顾客的 年龄 , 收入 , 是否是学生 , 信用等级 , 预测该顾客是否会购买电脑 ;

II . 分类 ( 离散值 ) 和 预测 ( 连续值 )


1 . 分类 ( 离散值 ) : 先构造出模型 , 然后使用该模型对未知样本进行 类别判定 ; 类别是固定的几个类 ;

分类使用场景 : 预测 离散数据 , 如 : 信用等级评估 , 疾病诊断 ;

2 . 预测 ( 回归 | 连续值 ) : 先构造出模型 , 然后使用该模型对未知样本的 某个值进行估计 ; 这个值是一个数值 ;

预测使用场景 : 预测 连续的数据 , 如电影票房 , 国家 GDP 等 ;

III . 分类过程


1 . 分类过程 : 分类分为 建立模型阶段使用模型阶段 ;

2 . 建立模型 ( 学习 ) : 又叫学习阶段 , 训练阶段 ;

① 训练集 : 学习训练阶段使用的模型叫训练集 ;

② 模型表示形式 : 分类规则 , 决策树 , 数学公式 等 ;

3 . 使用模型 : 先测试模型 , 测试通过开始使用 ;

① 测试模型 : 测试模型的准确性 , 如果认可该准确性 , 就使用该模型对未知新数据进行分类 ;

② 测试集 : 使用 模型 对测试集数据进行分类 , 将分类结果与真实结果进行对比 ;

③ 准确率 : 使用模式分类的结果 , 与测试集真实数据 , 分类正确的比例是 准确率 ;

④ 测试集要求 : 测试集 与 训练集 不相关 ;

IV . 分类过程中使用的数据集 ( 训练集 | 测试集 | 新数据 )


1 . 分类过程中使用的数据集 :

① 训练集 : 使用训练集训练 模型 ;

② 测试集 : 使用测试机验证 模型 的准确性 , 如果准确就使用该模型 , 如果不准确继续训练 ;

③ 新数据 : 使用模型 预测 新数据的未知字段的分类 ;

④ 相同点 : 三种数据集的格式是一样的 ;

2 . 有监督学习 : 分类属于有监督的学习 , 有监督学习必须有 训练模型阶段 和 测试模型阶段 , 最后才能使用模型 ;

3 . 已知数据 : 通常 训练集 与 测试集集 是一体的 , 本质是完全相同的 , 将数据随机分为 训练集 和 测试集 ;

V . 数据预处理


1 . 数据清洗 : 预处理数据 ;

① 删除 : 删除数据的噪音 ;

② 修补 : 修补缺失数据 , 使用常用值 , 平均值 , 统计学中的最大概率出现的值替代缺失数据 ;

2 . 相关分析 : 分类 类型的数据挖掘任务中 , 该步骤叫做 特征选择 ;

① 主要工作 : 筛选 模型 中使用的 属性 ( 特征值 ) , 屏蔽 冗余 或 不相关 的 属性 ( 特征值 ) ; 如 信用等级与人的星座无关 , 此类特征值就可以在模型中进行删除 ;

② 分类工作 : 数据有 nnn 个 属性 ( 特征 ) , 已知 n−1n-1n−1 个特征值 , 预测未知的那个特征值 ;

③ 模型复杂程度 : 选择使用哪些 属性 ( 特征 ) 值 进行预测 , 关系到模型的复杂程度 , 模型中使用的特征值个数越多 , 越复杂 ;

④ 特征工程 : 这里引入 特征工程 概念 , 特征处理的工作就是特征工程的核心 ;

3 . 数据转换 :

① 概括数据 : 将连续值离散化 , 如 100 分满分 , 低于 60 不及格 , 高于 60 及格 , 这样就将 0 ~ 100 的数值分成 及格 与 不及格两个特征 ;

② 数据规范 : 将数据规范化 , 规范单位 , 如身高有的使用 cm , 有的使用 m , 有的使用英尺 , 将数据单位都设置成统一单位 ;

VI . 分类方法评价


分类方法评价标准 :

① 准确性 : 保证性能的前提下 , 越准确越好 ;

② 速度 : 构造模型的速度 ( 训练 和 测试 时间 ) , 使用模型的速度 ;

③ 容错性 ( 鲁棒性 ) : 能处理数据中的噪音 , 和数据缺失等情况 ;

④ 伸缩性 : 内存中数据可以使用 , 磁盘中的数据也可以使用 ;

⑤ 交互性 : 模型解释性好 , 易于理解 ; 如深度学习中的神经元网络不易理解 , 被人称为炼金术 ;

VII . 分类算法举例


分类算法示例 :

① 决策树分类

② 贝叶斯分类

③ 支持向量机

④ 神经元网络

⑤ K 近邻分类

VIII . 有监督学习 和 无监督学习


1 . 有监督学习 : 明确地分为两个阶段 ; 训练模型阶段 , 使用训练集数据 ; 使用模型阶段 , 预测新数据某个特征 ;

有监督学习举例 : 分类过程 是典型的有监督学习过程 ;

2 . 无监督学习 : 没有训练阶段 和 预测阶段 的明显划分 ;

无监督学习举例 : 聚类分析 ;

3 . 半监督学习 : 介于 有监督学习 和 无监督学习之间 ;

【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )相关推荐

  1. python尝试不同的随机数进行数据划分、使用卡方检验依次计算不同随机数划分下训练接和测试集所有分类特征的卡方检验的p值,如果所有p值都大于0.05则训练集和测试集都具有统计显著性、数据划分合理

    python尝试不同的随机数进行数据划分.使用卡方检验依次计算不同随机数划分下训练接和测试集所有分类特征(categorical)的卡方检验的p值,如果所有p值都大于0.05则退出循环.则训练集和测试 ...

  2. 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization

    1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...

  3. 机器学习 数据挖掘 数据集划分 训练集 验证集 测试集

    机器学习数据挖掘之数据集划分: 训练集 验证集 测试集 Q:将数据集划分为测试数据集和训练数据集的常用套路是什么呢? A:three ways shown as follow: 1.像sklearn一 ...

  4. 【图像分类】实现猫狗图片的训练集和测试集的分类:python + Asirra

    数据集下载地址为 Dogs vs. Cats | Kaggle 下载下来的图片包是,包含有猫狗的图片,但是命名方式就是以猫狗来命名的,所以我们可以很快将他们分类出来,并把他们以90%作为训练集,剩下的 ...

  5. 随机挑选分类训练集和测试集

    # -*- coding: utf-8 -*-import os import random import shutil from shutil import copy2 from tqdm impo ...

  6. 文本分类训练集 测试集_【AI1000问】训练为什么要分测试集和验证集?

    9 往期视频 点击边框调出视频工具条 为什么要分训练集和测试集呢? 在很多的书以及一些公开数据集中,都会将数据集分为训练集,验证集和测试集,看起来验证集和测试集并没有区别,为什么要分这两个呢? 作者/ ...

  7. 检测恶意软件分类模型中的概念漂移

    科研笔记 论文题目-检测恶意软件分类模型中的概念漂移 共形预测 (conformal prediction)是一种置信度预测器,它生成具有用户定义的错误率的预测.在某个置信度水平下,所有预测范围的那部 ...

  8. python函数库分类及实例_Python中Scikit-Learn库的分类方法总览

    译者丨野生大熊猫 https://mp.weixin.qq.com/s/hmNKdM3pA3Mq9vq0TQXgOg 简介 你是一个正在进入机器学习领域的Python程序员吗? 掌握Scikit-Le ...

  9. 机器学习算法(七): 基于LightGBM的分类预测(基于英雄联盟10分钟数据判断红蓝方胜负)

    机器学习算法(七)基于LightGBM的分类预测 1. 实验室介绍 1.1 LightGBM的介绍 LightGBM是2017年由微软推出的可扩展机器学习系统,是微软旗下DMKT的一个开源项目,由20 ...

最新文章

  1. 2022-2028年中国橡胶漆产业发展动态及未来趋势预测报告
  2. Linux下ACL权限控制以及用sudo设置用户对命令的执行权限
  3. Linux Shell常用技巧(九) 系统运行进程
  4. PrintWriter和ServletOutputStream的区别
  5. HDU 3068 最长回文
  6. 系列TCP/IP协议-动态IP选路协议(008)
  7. Google的Project Stream准备在Chrome中播放AAA控制台游戏
  8. [数据结构-严蔚敏版]P37定义一个带头结点的线性链表
  9. 矩形键盘 linux,基于ARM的矩阵键盘设计及其linux驱动实现
  10. Linus Torvalds的安全性,Facebook的AI工具等
  11. html table列平均,html table 列求和
  12. java连接unix_Java 使用 UnixSocket 调用 Docker API
  13. Java中的各种数据类型的转换
  14. Python爬虫简单入门
  15. BUUCTF笔记之Basic部分WP
  16. rstudio 连接mysql_RStudio 操作MySQL数据库
  17. java上GUI表格按钮_Java swing选项卡中有表格,表格中有按钮,按钮按不到
  18. 阿里云拨测:主动探测Web应用质量,助力提升用户体验
  19. JAVA算术右移与无符号右移
  20. 2022年登高架设考试练习题及答案

热门文章

  1. (网页)SQLserver中在上线的项目中遇到科学计数法怎么办?
  2. Arduino学习笔记35
  3. JConsole远程连接配置
  4. iOS 集成银联支付swift
  5. Python学习(四)数据结构 —— set frozenset
  6. 如何再发行 SAPI 5.1 核心组件
  7. 云计算入门学习资料,linux云计算学习大纲
  8. 微信小程序实现图片是上传、预览功能
  9. Eclipse如何从SVN更新和上传修改部分项目
  10. webRTC开启摄像头