什么是机器学习?

机器学习能让我们从数据集中受到启发。我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的真实含义。

机器学习就是把无序的数据转换成有用的信息。可以这么说,机器学习对于任何需要解释并操作数据的领域都有所裨益。

机器学习领域的关键术语

下表是用于区分不同鸟类需要使用的四个不同的属性值。

现实中,你可能会想测量更多的值。通常的做法是测量所有可测属性,然后再挑选出重要部分。

上面测量的这四种值称之为特征,也可叫属性,特征是专业的称呼。表中的每一行都是相关特征的实例

特征可以分为两类:数值型和**标称型。**标称型的结果只在有限目标集中取值,如真与假、有与无、分类集合{棕色、灰色、黑色}。数值型则可以从无限的数值集合中取值,如0.01、42.0001、125.0等。这两类还可以继续细分。

上表中前两种特征即为数值型特征,后两种为标称型特征。更具体的,第三种是二值型,只可以取0或1、真或假、有与无,第四种是{棕色、灰色、黑色}的枚举类型。

机器学习的主要任务是什么?

分类、回归预测等

机器学习中分类问题的假设

我们通常将分类问题中的目标变量称为类别,并假定分类问题只存在有限个数的类别。

机器学习实现分类任务的步骤有哪些?

  1. 获取原始数据,进行数据预处理,得到含有所需的全部特征信息和目标变量的数据集。目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。

  2. 划分数据集,通常划分为两套独立的样本集:训练数据测试数据,或训练集和测试集。训练集是用于训练机器学习算法的数据样本集合。测试集是用于测试模型训练效果的数据样本集合。

  3. 决定使用某个机器学习算法进行分类。分类机器学习算法有很多:k-近邻算法、决策树、朴素贝叶斯、Logistic回归、支持向量机等。

  4. 训练模型,为算法输入测试集。训练完成后输入测试集,注意的是测试集不提供目标变量,结果由算法模型进行预测。

  5. 比较测试样本预测的目标变量值与实际样本类别之间的区别,就可以得出算法的实际精确度。如100个测试集实例,算法预测对了78个,那么精确度就是78%

机器学习的分类

机器学习的另一项任务是回归,它主要用于预测数值型数据。

分类和回归属于监督学习,这类算法必须指导预测什么,即目标变量的分类信息。

与监督学习相对应的是无监督学习,数据没有类别信息,也不会给定目标值。

在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计

此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维图形或三维图形更加直观地展示数据信息。

开发机器学习应用程序的步骤

  1. 收集数据,如制作网络爬虫从网站上抽取数据。为了节省时间和精力,可以使用公开可用的数据源。
  2. 准备输入数据。要确保数据格式符合要求
  3. 分析输入数据。确保数据集中没有垃圾数据。如空置和极大极小数据实例。
  4. 训练算法
  5. 测试算法
  6. 使用算法

为什么推荐用Python语言开发机器学习应用程序

语法清晰、易于操作纯文本文件、使用广泛,存在大量的开发文档。

Python比较流行,有丰富的模块库可以利用,缩短开发周期:

  • SciPy 和 NumPy等科学函数库都实现了向量和矩阵操作。
  • Matplotlib库可以绘制2D、3D图形

Python唯一的不足是性能问题,代码跑得慢。Python程序运行的效果不如Java或者C代码高,但是我们可以使用Python调用C编译的

机器学习实战笔记(一)机器学习基础相关推荐

  1. 机器学习实战笔记(Python实现)-04-Logistic回归

    转自:机器学习实战笔记(Python实现)-04-Logistic回归 转自:简单多元线性回归(梯度下降算法与矩阵法) 转自:人工神经网络(从原理到代码) Step 01 感知器 梯度下降

  2. 《机器学习实战》chap1 机器学习概览

    <机器学习实战>chap1 机器学习概览 Chap1 The Machine Learning Landscape 这本书第三版也已经出版了:https://github.com/ager ...

  3. 机器学习实战笔记(Python实现)-01-机器学习实战

    今天发布一篇图片博客,看一下效果如何,如果效果,以后的博客尽量发图片上来. 机器学习实战 本博客来自于CSDN:http://blog.csdn.net/niuwei22007/article/det ...

  4. 机器学习实战笔记(Python实现)-03-朴素贝叶斯

    --------------------------------------------------------------------------------------- 本系列文章为<机器 ...

  5. 机器学习实战笔记(Python实现)-02-k近邻算法(kNN)

    k近邻算法(kNN) 本博客来源于CSDN:http://blog.csdn.net/niuwei22007/article/details/49703719 本博客源代码下载地址:CSDN免费下载. ...

  6. python实现线性回归预测_机器学习实战笔记(Python实现)-08-线性回归

    --------------------------------------------------------------------------------------- 本系列文章为<机器 ...

  7. 机器学习实战 基于_机器学习实战:基于Scikit-Learn和TensorFlow—第四章笔记

    机器学习实战:基于Scikit-Learn和TensorFlow---第四章笔记 一.学习目标 之前用了那么多的机器学习的模型,但是它们各自的训练算法在很大程度上还是一个黑匣子,我们对对系统内部的实现 ...

  8. 机器学习入门 笔记(二) 机器学习基础概念

    第二章 机器学习基础概念 1.机器的数据 2.机器学习的主要任务 3.监督学习和非监督学习 4.批量.在线学习.参数.非参数学习 5.哲学思考 6.环境的搭建 1.机器的数据 我们以鸢尾花的数据为例. ...

  9. 机器学习实战——笔记(第一章)

    机器学习基础 目录 机器学习的简单概述 机器学习的主要任务 算法选择与开发步骤 Python语言的优势 一.机器学习的简单概述 机器学习应用领域十分广泛,如人脸识别.推荐系统.手写数字辨识及垃圾邮件过 ...

  10. 机器学习实战 | AutoML自动化机器学习建模

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

最新文章

  1. Activiti实战. 导读
  2. eclipse if代码折叠_仅需一页Java代码就能实现网页源码爬取
  3. Python 全栈开发:python字符串切片
  4. NormalMap 贴图 [转]
  5. javaPNS进阶-高级推送技巧
  6. Postgres客户端编码问题
  7. 通过curl获取网页访问时间
  8. 如何在一分钟内实现微服务系统下的架构可视化
  9. 浅析vue2.0的diff算法
  10. 程序员这口饭,职业规划解决方案---程序员职业规划(二)
  11. python爬虫+selenium模拟点击+网页内容需要点击打开
  12. Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读
  13. 免费手机号码归属地API接口 查询手机号码归属地信息
  14. 人在职场,都长点心吧
  15. 为什么高一的学生都说数学难?
  16. mysql的flush privileges指令执行必要性问题
  17. Arduino KY-024线性磁力霍尔传感器
  18. Force Dimension 全系列触觉反馈装置
  19. 未来智能互联汽车长啥样
  20. RS485总线调试记录

热门文章

  1. 【模式识别与机器学习】模式识别中的一些基本概念
  2. javaee jsp实现留言板(eclipse+mysql),五个界面,留言、登陆、注册等
  3. 云知声持续发挥企业优势,赋能AIoT 落地,让未来生活更进一步
  4. 服务器客户端证书,客户端如何验证HTTPS服务端证书信息
  5. 大连理工大学GlobalProtect使用方法
  6. win10打开计算机加载很慢,win10我的电脑打开慢怎么办_win10此电脑打开慢解决方法-win7之家...
  7. 百度搜索技术沙龙感悟
  8. 外贸企业oa移动办公管理系统
  9. 名编辑电子杂志大师教程 | 如何打开名编辑电子杂志大师帮助文档?
  10. 如何用VB实现半透明控件