数据挖掘中的机器学习
机器学习的含义
机器学习的核心目标是从经验数据中推导出规律,并将这种规律运用于新的数据中。我们把机器从经验数据中推导并找到规律的这一过程称为“学习”,把将规律应用于新数据这一过程称为“预测”,其中的规律称为“模型”。

机器学习处理的问题
监督学习
分类
分类的经验数据属于两个或更多个标记类别
回归
无监督学习

机器学习的框架
人类学习步骤:
选择知识
选择学习方法
学习或记忆
运用
评测学习效果
知识保存到脑海中

使用Python第三方模块Scikit-learn来构建机器学习的基本框架,机器学习的步骤:
数据的加载
选择模型
模型的训练
模型的预测
模型的评测
模型的保存

数据的加载和分割
启动一个python解释器,然后加载iris和digits数据集。
数据集是一个类似字典的对象,它保存有关数据集的所有数据和一些样本特征数据,通常储存在.data成员中。而在监督的学习中,一个或多个标记类别存储在,.target成员中。列如在digits数据中,digits.data保存的是分类的样本特征。
而digit.target表示数据集内每个数字的真实类别,也就是我们期望从每个手写数字图像中的学得到相应的数字标记。

在训练有监督的学习的机器学习模型的时候,会将数据划分为训练集和测试集,划分比例一般为0.75:0.25。对原始数据进行两个集合的划分,是为了能够选出效果(可以理解为准确率)最好的、泛化能力最佳的模型。
机器学习是从数据的属性中学习经验,并将它们运用到新数据的过程。
训练集的作用是用来拟合模型。
通过训练集,使用测试集进行模型预测。
机器学习的模型
模型的选择
数据的大小、质量及性质
可用计算时间
任务的紧迫性
数据的使用用途

学习和预测
从数据中学得模型的过程称为“学习”,这个过程通过执行某个学习模型算法来完成。模型对应了关于数据的某种潜在的规律,亦称“假设”;这种潜在规律则称为“真相”或“真实”,学习过程就是为了找出或逼出真相。
实现机器学习模型
模型的评估和保存
分类、回归、聚类不同的评判指标
把模型的实际预测输出与样本的真实输出之间的差异称为“误差”,模型在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”。我们希望得到泛化误差小的模型。我们事先并不知道新样本是什么,实际能做的就是努力使经验误差最小化。得到一个经验误差很小、在训练集上表现很好的模型。
评判性能:依据不同的模型选择不同的评判标准。

分类、回归、聚类关心的常用指标
准确率:分类器正确分类的样本数及总样本数之比
AUC是一个概率值。对应的AUC更大的分类器效果更好
回归分析中我们关心的常用指标有
均方误差(MSE)差平方
平均绝对误差(MAD)绝对值,反映了实际预测误差的大小。

交叉验证
模型在训练集上表现良好,往往其在测试集上也可能会出现表现不佳的情况。
测试集的反馈足以推翻训练模型,并且度量不再能有效地反映模型的泛化性能。
验证集:解决问题
交叉验证是将数据集D划分为k个大小相似的互斥子集飞空切,ai不等于解,每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到,调用cross_val_score辅助函数。

支持向量机
支持向量机可用于监督学习算法分类、回归和异常检测。
支持向量机有以下特点:
支持向量机的优势:
在高维空间中非常有效
即使在数维度比样本数量大的情况下仍然有效
在决策函数(称为支持向量)中使用训练集的子集,因此它也是高效利用内存的。
支持向量机的缺点:
如果特征数量比样本数量大得多,在选择核函数时要避免过拟合
支持向量机通过寻找支持向量找到最优分割平面,是典型的二分类问题,因此无法解决多分类问题
不直接提供概率估计

实现支持向量机分类
支持向量机的决策函数取决于训练集的一些子集,称作支持向量。

过拟合问题
过拟合
学习计把训练样本学得“太好”的时候,把训练本身的一些特点当作所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象在机器学习中称为“过拟合”,欠拟合是指对训练样本的一般性质尚未学好,具体表现就是最终模型在训练集上效果好、在测试集上效果差,模型发能力弱。

过拟合问题产生的原因:
使用的模型比较复杂,学习能力过强
有噪声存在
数据量有限

解决过拟合的办法
提前终止(当验证集上的效果变差的时候)
数据集扩增
寻找最优参数

数据挖掘——机器学习相关推荐

  1. 数据挖掘机器学习[七]---2021研究生数学建模B题空气质量预报二次建模求解过程:基于Stacking机器学习混合模型的空气质量预测{含码源+pdf文章}

    相关文章: 特征工程详解及实战项目[参考] 数据挖掘---汽车车交易价格预测[一](测评指标:EDA) 数据挖掘机器学习---汽车交易价格预测详细版本[二]{EDA-数据探索性分析} 数据挖掘机器学习 ...

  2. 数据挖掘机器学习[六]---项目实战金融风控之贷款违约预测

    相关文章: 特征工程详解及实战项目[参考] 数据挖掘---汽车车交易价格预测[一](测评指标:EDA) 数据挖掘机器学习---汽车交易价格预测详细版本[二]{EDA-数据探索性分析} 数据挖掘机器学习 ...

  3. B.数据挖掘机器学习[五]---汽车交易价格预测详细版本{模型融合(Stacking、Blending、Bagging和Boosting)}

    [机器学习入门与实践]入门必看系列,含数据挖掘项目实战:数据融合.特征优化.特征降维.探索性分析等,实战带你掌握机器学习数据挖掘 专栏详细介绍:[机器学习入门与实践]合集入门必看系列,含数据挖掘项目实 ...

  4. [机器学习数据挖掘]机器学习实战决策树plotTree函数完全解析

    [机器学习&数据挖掘]机器学习实战决策树plotTree函数完全解析 http://www.cnblogs.com/fantasy01/p/4595902.html点击打开链接 import ...

  5. 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载...

    人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的 ...

  6. 北美18名校的数据挖掘机器学习课程汇总

    北美18名校的数据挖掘机器学习课程汇总 问答 http://www.quora.com/What-is-data-science  数据科学是什么? http://www.quora.com/How- ...

  7. 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载

    人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的 ...

  8. B.数据挖掘机器学习[二]---汽车交易价格预测详细版本{EDA-数据探索性分析}

    [机器学习入门与实践]入门必看系列,含数据挖掘项目实战:数据融合.特征优化.特征降维.探索性分析等,实战带你掌握机器学习数据挖掘 专栏详细介绍:[机器学习入门与实践]合集入门必看系列,含数据挖掘项目实 ...

  9. Python核心资料:Django+Scrapy+Hadoop+数据挖掘+机器学习+精选视频(免费领)

    现在转 Python 还来得及吗?来得及!目前企业招聘 Python 相关岗位的需求很大,现在上车虽然稍晚,但刚好也是 Python 的红利期.学会 Python 可以做测试开发.运维.Python ...

  10. [转] 数据挖掘 机器学习 模式识别的关系

    数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述<机器学习与数据挖掘>可以帮助大家理解.数据挖掘受到很多学科领域的影响,其中数据库.机器学习.统计学无疑影响最大.简言之,对数据挖掘而 ...

最新文章

  1. android profiler 简书,使用AndroidStudio提供的Android Profiler工具和mat进行内存泄漏分析...
  2. C++应用程序性能优化
  3. leetcode算法题--唯一元素的和
  4. 日常工作必备之 linux 常用命令分类归纳
  5. 计算机应用领域变化,计算机应用领域与发展阶段.ppt
  6. python专业方向 | 文本相似度计算
  7. 原生JS大揭秘—数据类型
  8. [转载] Python快速编程入门课后程序题答案
  9. dojo动态创建widget
  10. 前缀树(字典树,单词查找树,Trie树)
  11. 湖南计算机保密防范系统,保密技术防护专用系统
  12. 虚拟机桥接模式连不上网问题(非桥接网卡原因)
  13. MyBatis事务管理
  14. Android数据库SQLite的读写
  15. 软件工程标准与软件文档
  16. python老鼠书和蛇鼠_哪种编程语言更好?抓到‘老鼠’就是‘好猫’
  17. ASP.NET建筑工程管理系统
  18. Android 7.0 插卡后APN信息的加载流程、UI界面编辑APN的流程及Android中APN配置相关的漏洞
  19. 【tool】动态注释LOG_NDEBUG宏定义
  20. 小白服务器编程指北(2)——用Docker编配你的服务器环境

热门文章

  1. 基于BP神经网络改进的DSS工具箱盲源分离系统
  2. #define的常见用法
  3. 学习PHP 第七天 die() 函数,及Mysql的操作
  4. TcPlayer.js 实现文字朗读
  5. 数据分析案例-数据科学相关岗位薪资可视化分析
  6. 表示微型计算机系统稳定性,计算机选择题
  7. html使用手机修改密码,moshujiacn手机设置修改密码步骤
  8. 人脸识别 ArcFace 实现
  9. 透析阿里3亿元投资的如涵:孵化张大奕,吸金但苦逼
  10. 宝岛眼镜全员MCN,玩转私域kol