机器学习理论基础详解

  • 一.大数据时代究竟改变了什么
  • 二.大数据的4V特征
  • 三.大数据架构
    • 1.要明确的
    • 2.项目描述--以电信日志分析为例
    • 3.大数据架构--以电信日志分析为例
    • 4.大数据架构--医疗
  • 四.人工智能
    • 1.人工智能的发展和应用场景
    • 2.人工智能、机器学习、深度学习的关系
    • 3.数据、数据分析、信息、数据挖掘
    • 4.多技术交叉
  • 五.机器学习概念
    • 1.什么是机器学习
    • 2.基于规则的学习
    • 3.基于模型的学习
    • 4.举例说明:房价预测问题
    • 5.基于规则的学习和基于模型的学习区别

一.大数据时代究竟改变了什么

  1. 数据的重要性
    数据资源转变为数据资产
  2. 方法论
    基于知识的理论完美主义转变为基于数据的历史经验主义
  3. 数据分析
    统计学(抽样)转变为数据科学(大数据)
    数据科学家出现,拥有(大数据+算法+更加丰富的业务知识)
  4. 计算智能
    基于复杂算法的数据分析转变为简单算法(MapReduce)
  5. 决策
    基于目标决策(先制定目标)转变为基于数据决策
  6. 业务方面
    基于业务的数据化;有一大堆业务,可以利用业务产生数据再去分析数据-------转变为基于数据的业务化:先有数据,再分析数据,再决策业务,
  7. 产业竞合
    以战略为中心转变为以数据为中心

二.大数据的4V特征




**价值高:**有价值的数据多了,大数据架构能解决价值密度低的问题吗?

**价值密度低,**如何从低价值密度的全量数据中挖掘出有价值的数据,这就是机器学习算法能解决的问题。
即如何利用数据来盈利?需要通过大数据平台存储和处理后的数据,利用算法来构建模型,从而对现实事件做出欲测。
大数据和机器学习的区别:大数据作基础的数据存储和数据统计计算,而机器学习要通过大数据已经存储好处理好的数据中挖掘大量存在价值的数据。

三.大数据架构

1.要明确的

  1. 以大数据项目架构为例分析大数据和机器学习在整个项目架构中的层次,
    如何描述大数据的项目/对数据项目有一些更深刻的理解。
  2. 作数据类项目/大数据项目要明确几个点:
  • 数据是如何流向的:从基础的数据获取–数据的存储–数据分析–数据的可视化

2.项目描述–以电信日志分析为例

以书写简历的方式来展开项目描述

1. 项目名称:电信日志分析系统
2. 项目描述:电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户上网产生的访问日志和触犯安全条例的安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词的过滤、违规违法用户的处理,整个项目数据量是在1T--20T左右(小城市1T,大城市/省份20T),集群数量在10台到100台
要点是;要干什么,数据来源,通过大数据平台做了什么事情,最后达到什么功能,数据量有多大,集群数量多大。
3. 项目架构分析* 数据采集层:ftp,socket方式* 数据存储层:HDFS* 数据分析层:MR\HIVE\IMPALA\SPARK* 机器学习层:在大数据处理后的应用* 数据展示层:oracle+SSM
4. 项目职责:大家在项目中负责干啥* 重点负责:实时or离线* 处理分析了哪些字段,通过何种手段进行分析* 项目有无优化
5. 项目优化:* HDFS+Spark(一站式的分析平台)

3.大数据架构–以电信日志分析为例


对于数据来讲,首先了解数据是如何传到系统中的,如何跟业务系统对接?

4.大数据架构–医疗




四.人工智能

1.人工智能的发展和应用场景

  1. 人工智能的三次浪潮

    符号:类似于神经网络中过的神经元
    专家系统: 先让人去学习东西,把学到的东西理论化,把理论模型化,把模型程序化,程序化后输出结果
  2. 人工智能应用场景:

2.人工智能、机器学习、深度学习的关系


机器学习、数据挖掘、模式识别都是人工智能的分支。
深度学习用来解决机器学习领域中(比如人脸识别)处理不好的场景,可以把深度学习理解为机器学习中的一种方法。

3.数据、数据分析、信息、数据挖掘


从数据到信息的过程是数据分析

从信息到有价值的信息的过程是数据挖掘

**数据挖掘和机器学习的区别:**机器学习可以给数据挖掘提供算法模型上的优势

模式识别:图像识别,模式识别也是一件事情,是利用机器学习方法来作的。

机器学习:方法,解决数据挖掘中存在的问题

深度学习方法

数据–数据分析–信息–数据挖掘–有价值信息

4.多技术交叉

五.机器学习概念

1.什么是机器学习


什么是机器学习


什么不是机器学习

如何判断问题是否为机器学习问题

2.基于规则的学习


规则:制定依赖于专家自己发现的规律。规则属于硬编码(条件判断),
所以不属于机器学习的范畴

3.基于模型的学习

区别于硬编码

4.举例说明:房价预测问题

5.基于规则的学习和基于模型的学习区别

机器学习导论--1.机器学习理论基础详解相关推荐

  1. 图解机器学习算法(6) | 决策树模型详解(机器学习通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/34 本文地址:https://www.showmeai.tech/article-d ...

  2. 图解机器学习算法(13) | 聚类算法详解(机器学习通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/34 本文地址:https://www.showmeai.tech/article-d ...

  3. 大一计算机导论问题,计算机导论习题及问题详解

    计算机导论习题及问题详解 (33页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.90 积分 实用文档第1章 计算机与信息技术习题:一.判断题(该题若 ...

  4. 《算法导论》红黑树详解(一):概念

    在学习红黑树之前,读者应先掌握二叉查找树的相关知识.学习红黑树或者二叉查找树,推荐大家看<算法导论>.<算法导论>原书第3版 高清PDF 带详细书签目录下载 密码:acis & ...

  5. 机器学习第五篇:详解决策树-CART算法

    01|前言: 本篇接着上一篇决策树详解,CART是英文"classification and regression tree"的缩写,翻译过来是分类与回归树,与前面说到的ID3.C ...

  6. 机器学习经典算法决策树原理详解(简单易懂)

    ↑ 点击上方[计算机视觉联盟]关注我们 最经典的决策树算法有ID3.C4.5.CART,其中ID3算法是最早被提出的,它可以处理离散属性样本的分类,C4.5和CART算法则可以处理更加复杂的分类问题, ...

  7. 机器学习第四篇:详解决策树算法

    01|背景: 我们在日常生活中经常会遇到一些选择需要去做一些选择,比如我们在找工作的时候每个人都希望能找到一个好的工作,但是公司那么多,工作种类那么多,什么样的工作才能算是好工作,这个时候就需要我们对 ...

  8. 机器学习之模型融合(详解Stacking,Blending)

    模型融合 Ensemble Generation 常见模型融合的方法 boosting bagging Stacking blending 各种模型融合的区别 Bagging,Boosting二者之间 ...

  9. 机器学习实战 | LightGBM建模应用详解

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

  10. 机器学习框架及评估指标详解

    目录 机器学习的步骤 train_test_split函数的详解 机器学习评估指标 分类模型评估指标

最新文章

  1. 2008 noip 传纸条
  2. 软件测试中需求分析谁去做的,软件项目在进入需求分析阶段,测试人员应该开始介入其中。 - 问答库...
  3. 案例 github_2019年12月Github上最热门的Java开源项目,速来围观!
  4. 5g信号频率是多少赫兹_5G的网速为什么那么快?这得从一个简单的公式说起
  5. 一把误操作卖出500万股,TCL科技李东生致歉:收益归公司
  6. 微软总裁呼吁:AI刷脸,美国政府该管一管了
  7. android 多线程 handler使用方法
  8. BZOJ1008[HNOI2008] 越狱
  9. android wifi信号检测工具,推荐4个专业又实用的WiFi检测工具,了解一下
  10. 阈值分割之大津法OTSU
  11. 【勒索病毒数据恢复】Phobos勒索病毒家族之.[back23@vpn.tg].makop
  12. 详解Mysql执行计划explain
  13. c语言 fflush stdin,C语言函数:fflush(stdin)
  14. Webpack Chunk 分包规则
  15. GraphPad Prism的八种数据表格式
  16. 宽带显示不能建立到远程计算机,宽带连接错误820:不能建立到远程计算机的连接 正确处理办法...
  17. c语言子函数作用是什么意思,C语言编译器中常见的函数用法以及作用详解
  18. 使用Python调用百度地图的API在地图上添加标记
  19. supervisor 介绍,启动uwsgi失败,端口被占用
  20. 多媒体技术基础知识——简要知识点

热门文章

  1. 计算机病毒是以独立的文件形式存在的对吗,计算机病毒以什么形式存在?
  2. D7000、60D、K5、E5的详细对比评价(转)_我是亲民_新浪博客
  3. 【UML】UML基础教程之顺序图、协作图、状态图、活动图、构件图、部署图
  4. 常用iOS URL Scheme附录 大全
  5. Resource Hacker(可以修改.exe文件)
  6. 盛大如何再次“盛大”
  7. 科学计算机imissyou,imissyou是什么意?imissyou – 手机爱问
  8. Xilinx FPGA bit 文件加密
  9. 【小游戏】AB猜数字
  10. 如何使用Python生成二维码