带你搞懂什么是机器学习?

  • 机器学习介绍
    • 什么是机器学习:
    • 机器学习应用案例:
    • 机器学习程序开发流程:
      • 1. 获取数据:
      • 2. 清洗数据:
      • 3. 训练模型:
      • 4. 测试模型:
      • 5. 投入使用:
    • 开发环境:
  • Scikit-Learn库介绍:
    • 历史由来:
    • 特点
    • 主要功能:
    • 官方文档:

机器学习介绍

什么是机器学习:

机器学习是一门多领域交叉学科,涉及概率论、统计学、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。大白话讲就是:通过根据已有的数据使用算法获取这些数据的特性(模型),然后预测未知数据的走向。

机器学习应用案例:

如今因为数据量的增加,硬件条件越来越好,给机器学习提供了非常多的发展空间。目前在很多领域都用到了机器学习,比如:计算机识别、抖音推荐算法、360异常流量监控、信用卡欺诈检测、AI游戏玩家、医学诊断等都有很多非常成功的案例。

机器学习程序开发流程:

1. 获取数据:

机器学习最核心的东西,还是大量的数据作为基本基础。数据可以通过多个渠道获取,比如通过网络爬虫抓取,通过公司自有产品收集,通过与第三方公司合作等。

2. 清洗数据:

获取到数据后,可能存在很多问题,比如字段缺失,比如数据格式不一致,异常数据等,这时候需要将数据进行清洗,然后再送到机器学习程序进行训练。

3. 训练模型:

在这一步通过一定的算法,对数据进行建模,然后不断的调整各个参数的值已达到最优的训练模型。

4. 测试模型:

使用其他的数据对这个模型进行测试,看下这个模型的准确率,如果准确率偏低,则重复第3步,直至最优的模型。

5. 投入使用:

将做好的机器学习模型和算法转化为可以在生产环境中使用的产品。比如提供一个网站,或者一个app,通过接口的方式访问机器学习程序。在这个过程中也要不断的循环3、4来测试和优化模型。

开发环境:

Anaconda3(python3.7+jupyter notebook5.7)
其中用到的包:numpy 1.15.4pandas 0.24.1scikit-learn 0.20.2

Scikit-Learn库介绍:

scikit-learn是基于Python语言的机器学习工具,具有以下特点:

  1. 简单高效的数据挖掘和数据分析工具。
  2. 可供大家在各种环境中重复使用。
  3. 建立在NumPySciPymatplotlib上。
  4. 开源,可商业使用 - BSD许可证
  5. 目前最新的文档版本是0.20

历史由来:

Python语言有所了解的科研人员可能都知道SciPy——一个开源的基于Python的科学计算工具包。基于SciPy,目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本,它们被统一称为Scikits,即SciPy工具包的意思。而在这些分支版本中,最有名,也是专门面向机器学习的一个就是Scikit-learn
Scikit-learn项目最早由数据科学家David Cournapeau在2007 年发起,需要NumPySciPy等其他包的支持,是Python语言中专门针对机器学习应用而发展起来的一款开源框架。
它的维护也主要依靠开源社区。

特点

作为专门面向机器学习的Python开源框架,Scikit-learn可以在一定范围内为开发者提供非常好的帮助。它内部实现了各种各样成熟的算法,容易安装和使用,样例丰富,而且教程和文档也非常详细。

另一方面,Scikit-learn也有缺点。例如它不支持深度学习和强化学习,这在今天已经是应用非常广泛的技术。此外,它也不支持图模型和序列预测,不支持Python之外的语言,不支持PyPy,也不支持GPU加速。

看到这里可能会有人担心Scikit-learn的性能表现,这里需要指出的是:如果不考虑多层神经网络的相关应用,Scikit-learn的性能表现是非常不错的。究其原因,一方面是因为其内部算法的实现十分高效,另一方面或许可以归功于Cython编译器;通过CythonScikit-learn框架内部生成C语言代码的运行方式,Scikit-learn消除了大部分的性能瓶颈。

主要功能:

Scikit-learn的基本功能主要被分为六大部分:分类回归聚类数据降维模型选择数据预处理(特征工程)等。

官方文档:

https://scikit-learn.org/stable/


加油!

感谢!

努力!

【回炉重造】带你搞懂什么是机器学习?相关推荐

  1. 《回炉重造 Java 基础》——集合(容器)

    整体框架 绿色代表接口/抽象类:蓝色代表类. 主要由两大接口组成,一个是「Collection」接口,另一个是「Map」接口. 前言 以前刚开始学习「集合」的时候,由于没有好好预习,也没有学好基础知识 ...

  2. RPC框架:从原理到选型,一文带你搞懂RPC

    大家好,我是华仔,RPC系列的文章是我去年写的,当时写的比较散,现在重新进行整理.对于想学习RPC框架的同学,通过这篇文章,让你知其然并知其所以然,便于以后技术选型,下面是文章内容目录: RPC 什么 ...

  3. 一文带你搞懂C#多线程的5种写法

    一文带你搞懂C#多线程的5种写法 1.简介 超长警告! 在学习本篇文章前你需要学习的相关知识: 线程基本知识 此篇文章简单总结了C#中主要的多线程实现方法,包括: Thread 线程 ThreadPo ...

  4. 机器人学回炉重造(1-2):各种典型机械臂的正运动学建模(标准D-H法)

    文章目录 写在前面 三连杆平面机械臂 平行四边形操作臂 闭链结构 例:平行四边形操作臂 球形臂 拟人臂 球腕 斯坦福机械臂 带球形手腕的拟人化机械臂 DLR机械臂 参考文献 写在前面 本文所有机械臂均 ...

  5. 图文结合带你搞懂MySQL日志之Error Log(错误日志)

    GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. GreatSQL是MySQL的国产分支版本,使用上与MySQL一致. 作者:KAiTO 文章来源:社区原创 往期回顾: 图 ...

  6. Vue回炉重造之封装一个实用的人脸识别组件

    你好,我是Vam的金豆之路,可以叫我豆哥.2019年年度博客之星.技术领域博客专家.主要领域:前端开发.我的微信是 maomin9761,有什么疑问可以加我哦,自己创建了一个微信技术交流群,可以加我邀 ...

  7. 学习最新大厂付费视频时整理的万字长文+配图带你搞懂 MySQL

    万字长文+配图带你搞懂 MySQL MySQL SQL的介绍 SQL分类 MySQL语法 创建数据库 修改.删除.使用数据库 DDL查询数据表 DDL创建数据表 修改数据表结构 删除数据表 DML添加 ...

  8. 机器人学回炉重造(2-2):雅可比矩阵的求法——矢量积法、微分变换法、Manipulator Jacobian(Jacobian for short)

    文章目录 写在前面 矢量积法--改进D-H法 微分变换法--改进D-H法 Manipulator for Jacobian(Jacobian for short)--标准D-H法 微分变换法--标准D ...

  9. 一文带你搞懂从动态代理实现到Spring AOP

    摘要:本文主要讲了Spring Aop动态代理实现的两种方式. 1. Spring AOP Spring是一个轻型容器,Spring整个系列的最最核心的概念当属IoC.AOP.可见AOP是Spring ...

最新文章

  1. list转torch tensor
  2. RDMA技术详解(三):理解RDMA Scatter Gather List
  3. TortoiseSvn
  4. 使用 BenchmarkDotnet 测试代码性能
  5. leetcode25. K 个一组翻转链表
  6. js for in 获得遍历数组索引和对象属性
  7. linux 查看触摸屏信息,英创信息技术eGalax触摸屏在Linux/X11下的标定方法
  8. ueditor 覆盖下拉框问题解决
  9. mysql InnoDB 行锁分析
  10. inteliJ maven 打包时把依赖的包一起打
  11. SQL Server 中添加表注释
  12. CentOS7中rpm,yum软件安装命令
  13. 个人阅读作业2016.1.10
  14. 用 MQL5 连接 EA 交易程序和 ICQ
  15. opencv的dct和scipy.fftpack里dct的区别
  16. [源码阅读]解析Anime(JS动画库)核心(1)
  17. 用C语言解“计算工资”题
  18. 文件共享服务器onedrive,共享 OneDrive 文件和文件夹
  19. 【JavaScript】offset、client、scroll
  20. ACM-ICPC 2018 徐州赛区网络预赛 I. Characters with Hash

热门文章

  1. c语言pl是什么意思,【问答】求助!PL-L PL-S PL-C PL-后面的字母什么意思? - 邦阅网-发现真实的外贸服务商...
  2. 华为g9android,华为G9和华为p8区别在哪?华为G9青春版和华为p8区别对比评测
  3. Flume介绍和使用
  4. 问题步骤记录器——Windows系统下自带的录屏神器?
  5. k线图 TradingVeiw --简介篇
  6. JSON--就是键值对
  7. 洛谷月赛T2 P6858[深海少女与胖头鱼]题解
  8. php 自动拉伸图片,实例详解Javascript防止图片拉伸的自适应处理
  9. 基于FPGA的DDS信号发生器
  10. 扫描建模在三维建模中有多厉害?