文章目录

  • 1.何为机器学习
  • 2.机器学习的主要任务
  • 3.如何选择合适的算法
  • 4.使用机器学习算法的通用步骤
  • 5.python语言的缺点

1.何为机器学习

机器学习是利用计算机来彰显数据背后的真实含义,将无序的数据转化为有用的信息。
很多时候我们无法为现实问题建立精确的数学模型,为解决这一问题,引入统计学工具

2.机器学习的主要任务

监督学习:有目标值,即这类算法必须知道预测什么;可分为分类与回归
分类:主要任务是将实例数据划分到合适的分类中
回归:主要用于预测数值型数据

监督学习算法: k-近邻算法、朴素贝叶斯算法、支持向量机、决策树、线性回归、局部加权线性回归、Ridge回归、Lasso最小回归系数估计

无监督学习: 没有目标值
聚类:将数据集合分成由类似对象组成的多个类的过程
密度估计:寻找描述数据统计值的过程
无监督学习还可以减少数据特征的维度,以便使用二维或三维图形来直观展示数据信息

无监督学习算法: K-均值、EM-算法、DESCAN、Parzen设计

3.如何选择合适的算法

选择实际可用的算法需考虑两个问题

  1. 使用机器学习算法的目的,想要算法完成何种任务
    大多数情况下可如下选择
    如果想要预测目标变量的值,则选择监督学习算法,否则,选择无监督学习算法。
    确定选择监督算法之后,需要确定目标变量的类型,若是离散型,则可以选择分类算法;若是连续型
    数值,则选择回归算法
    如果不想预测变量的值,则选择无监督学习方法。进一步分析是否需要将数据划分为离散的组,如果
    这是唯一要求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计
    算法。
  2. 需要分析或收集的数据是什么
    充分了解数据的特性:
    特征值是离散型还是连续型
    特征值中是否存在缺失值,何种原因造成缺失值
    数据中是否有异常值,某个特征发生的频率如何
    一般来说,发现最好算法的关键环节是反复试错的迭代过程

4.使用机器学习算法的通用步骤

1. 收集数据
2. 准备输入数据。得到数据后必须确保数据格式符合要求,为机器学习算法准备特定的格式
3. 分析输入的数据(人工分析)
最简单的办法是用文本编辑器打开数据文件,查看得到的数据是否为空值。
还可以进一步浏览数据,分析是否可以识别出模式,数据中是否存在明显的异常值。可以通过提炼数
据的方法,使得多维数据可以压缩到二维或者三维,方便我们图形化展示数据。
这一步的主要作用是确保数据集中没有垃圾数据

4. 训练算法。
将前两步得到的格式化数据输入到算法中,从中抽取知识与信息
如果是无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相关的内容集
中在第五步
5. 测试算法(评估算法)
为了评估算法,必须测试算法工作的效果。
对于监督学习,必须已知用于评估算法的目标变量值
对于无监督学习,必须用其他手段来检验算法的成功率
6. 使用算法
将机器学习算法转换为应用程序,执行实际任务,以检验上述步骤是否可以在实际环境下
工作。

5.python语言的缺点

python语言唯一不足是性能问题,运行效率不如java或者c代码高,但是我们可以用python调用c编译的代码,这样就可以同时利用c和python的优点。
我们可以首先使用python编写实验程序,如果进一步想要在产品中实现机器学习,转换成c代码也不困难。
如果程序是按照模块化原则组织的,我们可以先构造可运行的python程序,然后在逐步使用c代码替换核心代码以改进程序的性能。C++Boost库就适合完成这个任务。

机器学习实战笔记1-机器学习基础相关推荐

  1. 机器学习实战笔记(Python实现)-04-Logistic回归

    转自:机器学习实战笔记(Python实现)-04-Logistic回归 转自:简单多元线性回归(梯度下降算法与矩阵法) 转自:人工神经网络(从原理到代码) Step 01 感知器 梯度下降

  2. 《机器学习实战》chap1 机器学习概览

    <机器学习实战>chap1 机器学习概览 Chap1 The Machine Learning Landscape 这本书第三版也已经出版了:https://github.com/ager ...

  3. 机器学习实战笔记(Python实现)-01-机器学习实战

    今天发布一篇图片博客,看一下效果如何,如果效果,以后的博客尽量发图片上来. 机器学习实战 本博客来自于CSDN:http://blog.csdn.net/niuwei22007/article/det ...

  4. 机器学习实战笔记(Python实现)-03-朴素贝叶斯

    --------------------------------------------------------------------------------------- 本系列文章为<机器 ...

  5. 机器学习实战笔记(Python实现)-02-k近邻算法(kNN)

    k近邻算法(kNN) 本博客来源于CSDN:http://blog.csdn.net/niuwei22007/article/details/49703719 本博客源代码下载地址:CSDN免费下载. ...

  6. python实现线性回归预测_机器学习实战笔记(Python实现)-08-线性回归

    --------------------------------------------------------------------------------------- 本系列文章为<机器 ...

  7. 机器学习实战 基于_机器学习实战:基于Scikit-Learn和TensorFlow—第四章笔记

    机器学习实战:基于Scikit-Learn和TensorFlow---第四章笔记 一.学习目标 之前用了那么多的机器学习的模型,但是它们各自的训练算法在很大程度上还是一个黑匣子,我们对对系统内部的实现 ...

  8. 机器学习入门 笔记(二) 机器学习基础概念

    第二章 机器学习基础概念 1.机器的数据 2.机器学习的主要任务 3.监督学习和非监督学习 4.批量.在线学习.参数.非参数学习 5.哲学思考 6.环境的搭建 1.机器的数据 我们以鸢尾花的数据为例. ...

  9. 机器学习实战——笔记(第一章)

    机器学习基础 目录 机器学习的简单概述 机器学习的主要任务 算法选择与开发步骤 Python语言的优势 一.机器学习的简单概述 机器学习应用领域十分广泛,如人脸识别.推荐系统.手写数字辨识及垃圾邮件过 ...

  10. 机器学习实战 | AutoML自动化机器学习建模

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

最新文章

  1. Nginx初学第一步
  2. 深入Python(2): __init__.py 用法
  3. 动态修改属性设置 easyUI
  4. 【C语言】最大的两个数(指针专题)
  5. 国外游戏开发商吐槽:开发VR游戏付账单的钱都赚不到
  6. 将DEX反编译成Java源代码
  7. Linux selinux关闭方法和防火墙关闭方法
  8. How to convert any valid date string to a DateTime.
  9. 流水灯电路设计实验--VHDL
  10. 迅雷x下载的东西都变成php格式化,关于文件下载后变成PHP格式的解决办法
  11. linux下学习db2
  12. HTML5期末大作业 基于HTML+CSS+JavaScript学校官网首页
  13. 闲来无事,用java写了一个魔方小程序。附源码
  14. 「收藏」关于机器学习的知识点,全在这篇文章里了
  15. 360手机刷机:360N5S刷机
  16. firefox无法使用yslow的解决方案
  17. 黄金分割线在UI设计中的应用
  18. 照片秒变卡通风!教你用PaddleGAN快速生成你的专属卡通头像
  19. ShaderToy上后处理练习1——故障
  20. Goroutine交替执行的相关问题与方法

热门文章

  1. oracle迁移数据到mysql
  2. JavaScript 函数参数是传值(byVal)还是传址(byRef)?
  3. 安装列表阿里云UBUNTU 12下安装LAMP
  4. 2017 ACM/ICPC Asia Regional Beijing Online 记录
  5. java知识总结-24
  6. javascript 对象(四)
  7. HTML中行内元素与块级元素的区别:
  8. 【C#】开发可以可视化操作的windows服务
  9. HDU 3966 dfs序+LCA+树状数组
  10. 数组排序使得数组负数在正数左边且按照原来的顺序