如何成为机器学习工程师
https://keras-cn.readthedocs....
http://www.tensorfly.cn/tfdoc...

机器学习 vs 数据分析

  数据特点 数据分析 机器学习
数据类型 交易数据 行为数据
数据量 少量数据 海量数据
分析方法 采样分析 全量分析  
  解决业务问题不同 数据分析(OLAP 报告过去的事情) 机器学习(预测未来的事情)
过去3年里,那些人是我们前100名优质客户 前100个最有利润潜力的客户将是谁
过去2年里哪些用户拖欠贷款 哪些客户可能有坏账风险
和年初的计划比上季度的销售业绩如何 明年各地区的销售额预计是多少  
今年四季度中,哪些销售业绩超过他们的配额 明年哪些销售有可能超额完成  
哪些门店今年销售额超过去年 未来1年里,哪些门店可能表现的更好  

 

机器学习:利用计算机从历史数据中寻找规律,并把这些规律用到对未来不确定场景的决策

  • 基于专家经验
  • 数据分析(基于统计)--> 主体主要是人去分析  `受制于经验&知识水平`
  • 机器学习--> 计算机

  -

从历史数据中寻找规律 -->依赖于算法,其实这个规律就是找到一个数学函数(公式)

传统的统计学一直受制于计算能力的显示,用的是抽样的方式。
统计中: 抽样--> 描述统计 --> 结论 --> 假设检验 
现在计算能力已经不是问题,所以是用全量的数据:

观察数据(可视化后)-->用模型刻画(拟合)规律(函数-函数曲线-拟合)
在实际的多维,n维数据中,是很难用可视化的方式展示数据的,无法用图形方式发现规律,这时候只能靠数学运算

机器学习

概述

机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

  • 海量的数据
  • 获取有用的信息

机器学习的典型应用

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

一种经常引用的英文定义是:A computer program is said to learn from experience E
with respect to some class of tasks T and performance measure P, if
its performance at tasks in T, as measured by P, improves with
experience E.

机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

深度学习 vs 机器学习 vs 模式识别

深度学习 vs 机器学习 vs 模式识别

细分场景

购物篮分析

  • 关联规则

用户细分精准营销

  • 聚类

垃圾邮件识别

  • 朴素贝叶斯

信用卡欺诈

  • 决策树

互联网广告

  • ctr预估

推荐引擎

  • 协同过滤

自然语言处理

  • 情感分析
  • 实体识别

图像识别

  • 深度学习

语音识别
个性化医疗
情感分析
人脸识别
自动驾驶
智慧机器人
私人虚拟助理
手势控制
视频内容自动识别
机器实时翻译

机器学习组成

主要任务

  • 分类(classification):将实例数据划分到合适的类别中

    • 应用实例:判断网站是否被黑客入侵(二分类 ),手写数字的自动识别(多分类)
  • 回归(regression) :主要用于预测数值型数据

    • 应用实例:股票价格波动的预测,房屋价格的预测等。

监督学习(supervised learning)

监督学习中,我们只要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。
机器从输入数据预测合适的模型,并从中计算目标变量的结果

  • 必须确定目标变量的值 以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。 (包括:分类和回归)
  • 样本集:训练数据 + 测试数据

    • 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
    • 特征通常是训练样本集的列,它们是独立测量得到的。
    • 目标变量: 目标变量是机器学习预测算法的测试结果

      • 在分类算法中目标变量的类型通常是标称型(如:真与假),而在回归算法中通常是连续型(如:1~100)。

监督学习使用两种类型的·目标变量: 标称型和数值型
标称型目标变量的结果只在有限目标集中取值, 如真与假,动物分类集合{爬行类、鱼类、哺乳类、两栖类}
数值型目标变量可以从无限的数值集合中取值,如0.100、42.001、1000.743等。数值型目标变量主要用于回归分析

  • 监督学习需要注意的问题:

    • 偏置方差权衡
    • 功能的复杂性和数量的训练数据
    • 输入空间的维数
    • 噪声中的输出值
  • 知识表示:

    • 可以采用规则集的形式【例如:数学成绩大于90分为优秀】
    • 可以采用概率分布的形式【例如:通过统计分布发现,90%的同学数学成绩,在70分以下,那么大于70分定为优秀】
    • 可以使用训练样本集中的一个实例【例如:通过样本集合,我们训练出一个模型实例,得出 年轻,数学成绩中高等,谈吐优雅,我们认为是优秀】
机器学习中,对数据进行分类的算法大概有两种:- 感知器- 适应性的线性神经元- 学习算法(learning algorithm),从数据中产生模型的方法- 数据集(data set):一组记录的合集- 示例(instance):对于某个对象的描述- 样本(sample):也叫示例

附:机器学习专业术语

  • 模型(model):计算机层面的认知
  • 属性(attribute):对象的某方便表现或特征
  • 特征(feature):同属性
  • 属性值(attribute value):属性上的取值
  • 属性空间(attribute space):属性张成的空间
  • 样本空间/输入空间(samplespace):同属性空间
  • 特征向量(feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
  • 维数(dimensionality):描述样本参数的个数(也就是空间是几维的
  • 学习(learning)/训练(training):从数据中学得模型
  • 训练数据(training data):训练过程中用到的数据
  • 训练样本(training sample):训练用到的每个样本
  • 训练集(training set):训练样本组成的集合
  • 假设(hypothesis):学习模型对应了关于数据的某种潜在规则
  • 真相(group-true):真正存在的潜在规律
  • 学习器(learner):模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
  • 预测(prediction):判断一个东西的属性
  • 标记(label):关于示例的结果信息,比如我是一个“好人”。
  • 样例(example):拥有标记的示例
  • 标记空间/输出空间(label space):所有标记的集合
  • 分类(classification):预测时离散值,比如把人分为好人和坏人之类的学习任务
  • 回归(regression):预测值时连续值,比如你的好人程度达到了0.9,0.6之类的
  • 二分类(binary classification):只涉及两个类别的分类任务
  • 正类(positive class):二分类里的一个
  • 反类(negative class):二分类里的另外一个
  • 多分类(multi-class classification):涉及多个类别的分类
  • 测试(testing):学习到模型之后对样本进行预测的过程
  • 测试样本(testing sample):被预测的样本
  • 聚类(clustering):把训练集中的对象分为若干组
  • 簇(cluster):每一个组叫簇
  • 监督学习(supervised learning):典范--分类和回归
  • 无监督学习(unsupervised learning):典范--聚类
  • 未见示例(unseen instance):“新样本“,没训练过的样本
  • 泛化(generalization)能力:学得的模型适用于新样本的能力
  • 分布(distribution):样本空间的全体样本服从的一种规律
  • 独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。

参数(parameters)和超参数(hyperparameters)

  • 参数:就是模型可以根据数据可以自动学习出的变量,应该就是参数。比如,深度学习的权重,偏差等
  • 超参数:就是用来确定模型的一些参数,超参数不同,模型是不同的(这个模型不同的意思就是有微小的区别,比如假设都是CNN模型,如果层数不同,模型不一样,虽然都是CNN模型哈。),超参数一般就是根据经验确定的变量。在深度学习中,超参数有:学习速率,迭代次数,层数,每层神经元的个数等等。

参考

慕课网机器学习
TensorFlow中文社区
apachecn/MachineLearning
Natalia Konstantinova 博客
神经网络的黑客指南

机器学习与数据挖掘: 基础概念相关推荐

  1. 西瓜书入门辅助【机器学习 周志华】一些关于机器学习的重要基础概念提炼

    周志华. 机器学习 = Machine Learning. 清华大学出版社, 2016. Print. 文章目录 周志华. 机器学习 = Machine Learning. 清华大学出版社, 2016 ...

  2. 机器学习基础概念及简单框架

    机器学习要知道的基础概念和简单框架 机器学习相关的基础概念 机器学习的简单框架 机器学习相关的基础概念 All models are wrong but some are useful(所有模型都是错 ...

  3. 机器学习(Machine Learning)基础

    机器学习(Machine Learning)基础 概念及用途 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能.它是人工智能的核心,是使计 ...

  4. AI:人工智能领域之AI基础概念术语之机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)

    AI:人工智能领域之AI基础概念术语之机器学习.深度学习.数据挖掘中常见关键词.参数等5000多个单词中英文对照(绝对干货) 导读      本博主基本收集了网上所有有关于ML.DL的中文解释词汇,机 ...

  5. 机器学习里面的基函数_机器学习系列(一)——基础概念及分类

    机器学习基础(一) emm... 那个第一篇文章,简单的自我介绍一下,机器学习小白,希望和大家一起进步,有什么问题可以留言一起探讨. 本文撰写于2020/1/1 是本人学习机器学习时,做的笔记摘要,为 ...

  6. 机器学习——基础概念

    一. 机器学习基础概念 总结过层中,我结合了头歌上的相关公开课程:详见 (一).什么是机器学习? 机器学习致力于通过计算的手段,利用经验来改善系统的性能. "经验"-->通常 ...

  7. 机器学习、数据挖掘、人工智能和其他大数据基础技术,之间的业务逻辑关系?

    不管是学习技术还是开发产品,分析和理解这个大数据产业版图都十分必要.版图细节不做赘述,我们重点从学习的角度来看DT(Datatechnology)技术泛型下包括那些核心技术,各技术领域之间是什么样的逻 ...

  8. 机器学习的9个基础概念和10种基本算法总结

    https://blog.csdn.net/libaqiangdeliba/article/details/41901387 1.基础概念: (1) 10折交叉验证:英文名是10-fold cross ...

  9. ML与math:机器学习与高等数学基础概念、代码实现、案例应用之详细攻略——基础篇

    ML与math:机器学习与高等数学基础概念.代码实现.案例应用之详细攻略--基础篇 目录 一.ML与高等数学 0.基础数学 1.导数.方向导数.梯度 1.1.概念简介 1.2.代码实现 2.Taylo ...

最新文章

  1. Are you missing a call to unregisterReceiver()?
  2. Dockerfile ENV和ARG的区别与应用
  3. 源码WIFI--扫描和连接
  4. 将MSRA-TD500标签转换成逆时针输出标签+labeleme json格式转四个点的txt
  5. 修改 Joomla! 1.5 的 HTML 输出而不动核心文件 (附api文档)
  6. 面试官 | Java转List三种方式,你说说吧。我。。懵逼。啥时候有三种了
  7. python两个dataframe求差集_spark计算两个DataFrame的差集、交集、合集
  8. 4~20mA变送器量程与输入电流、输出电流的关系
  9. QQ浏览器文章评论的BUG:评论者错了
  10. Python3 Cobalt strike shellcode 免杀过 360 卫士和360杀毒
  11. 淘宝十年数据和轶事整理
  12. 引用 USB启动盘,将DOS工具集成到WinPE的grub - Windows
  13. 神经网络程序设计课学习心得
  14. heritrix3.x--SURT / 限定heritrix的爬行域
  15. 运动装备什么牌子好?运动装备品牌排行榜推荐
  16. 简简单单做股票读书笔记(4/8)
  17. 算法与数据结构——美团、大众点评笔试题
  18. Hdfs的一系列坑坑洼洼,认证,认证,还是***认证
  19. 联想MIIX 510-12ISK 改Win7系统
  20. 小乌龟怎么拉取最新代码_TotoiseSVN(中文名:小乌龟)使用教程

热门文章

  1. Java的jar文件安装成windows 服务
  2. (转)iOS7界面设计规范(9) - UI基础 - 动画
  3. Bootloader
  4. 甚长基线干涉测量技术(VLBI)基础
  5. 【leetcode】974. Subarray Sums Divisible by K
  6. Shadow mapping
  7. 如何创建高性能、可扩展的Node.js应用?
  8. Android 面试系列 Dn.1---- Service?
  9. js 判断字符串是否包含某字符串
  10. 到隔壁便利商店买东西,不要开车!