1、概念

机器学习,就是通过历史数据找出一定的规律,并使用这些规律对将来不确定的场景进行决策。

机器学习VS数据分析

数据分析,是人为的从历史交易数据中找规律,从而决策。
机器学习,是机器使用算法,从历史行为数据中找规律,从而决策。

交易数据是少量的,行为数据是海量的。

数据分析的准确性,主要取决于分析的这个专家的能力高低。
机器学习的准确性,主要取决于历史数据。

专家再厉害,他的判断也会带有片面性和个人主观性。

所以由数据分析到机器学习,其实就是用数据代替专家的过程。

机器学习VS统计学

统计学,海量数据抽样分析,得到结论,反向校验,优化结论。
机器学习,海量数据全量分析,得到结论。

统计学,最早是因为数据量太大,没法全量处理,才不得已用了抽样的方法。
当有了机器学习,这个问题其实也算被解决了。

离线机器学习VS在线机器学习

大部分机器学习,都是离线的,比如攒一天的数据,每天凌晨批量机器学习一次。
特殊业务场景,需要在线实时机器学习。不断的通过新数据去刺激模型,电商的推荐一般都是实时的。比如猜你喜欢,总能在你搜索完一个商品后,在后续的浏览中就把你刚刚搜索过的类似商品推荐给你。

2、机器学习的应用

购物分析(关联规则算法)

经典案例:美国的啤酒和纸尿裤,总是同时被购买。商家进行对应的捆绑营销,提高销售额。

精准营销(聚类算法)

将人精确的分为不同的类,每类进行不同的营销。

垃圾邮件的识别(朴素贝叶斯算法)

识别垃圾邮件

信用卡欺诈(决策树算法)

信贷风险识别(还款能力不足和骗贷)

互联网广告(ctr预估算法,线性逻辑回归)

对用户的点击率进行预估,比如搜索,对于展示的每一条结果,都会评价一个用户点击的概率,然后按照这个概率的大小进行排列展示,让最有可能点的排在最前面。

推荐系统(协同过滤算法)

电商的推荐系统,猜你喜欢。通过推荐一些用户可能买的东西,提高销量。

自然语言处理

情感分析,通过一个人的评论,分析出这个人的可能性格,从而归类。
实体识别,提取一篇文章的主干信息,比如人名地名等,从而尝试确定一个实体。
等等。。。

图像识别(深度学习)

人脸识别,还有支付宝那个扫一扫就知道是什么植物的功能

其他

语音识别
自动驾驶
视频识别
手势控制
智慧机器人
等等。。。

3、常用算法分类

3.1、按监督分类

y=f(x)

有监督学习:明确指出数据属于哪些标签,再去学习,最终得到模型。

分类算法
回归算法

无监督学习:提前不知道要训练成什么样子

聚类算法

半监督学习:也叫强化学习,一开始训练效果不好,随着时间慢慢强化模型

3.2、按模型分类

生成模型(万事好商量)

使用生成模型,最终你给一个入参,模型会给你不同结果的概率。

判别模型(非黑即白)

判别模型,最终模型会给你一个函数,你给他入参,他就给你出参。

4、机器学习解决问题的套路

4.1、确定目标

1、根据业务需求,确定目标
2、收集历史数据
3、做特征工程(数据预处理,清理,整合),提取出特征

最终的模型,能达到多大的效果,绝大部分因素取决于特征工程做的好不好。所以特征工程是最重要的一步

4.2、训练模型

1、定义模型:定义好一个公式,各个参数需要训练得出
2、定义损失函数:定义最终结果的偏差的大小,最终能量化的知道预测结果和真实结果的差值
3、优化算法:损失函数取最小

4.3、模型评估

1、交叉验证
2、效果评估

机器学习笔记(了解)相关推荐

  1. 一份520页的机器学习笔记!附下载链接

    点击上方"视学算法",选择"星标"公众号 第一时间获取价值内容 近日,来自SAP(全球第一大商业软件公司)的梁劲(Jim Liang)公开了自己所写的一份 52 ...

  2. 700 页的机器学习笔记火了!完整版开放下载

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 作者       梁劲(Jim Liang),来自SAP(全球第一大商业软件公司). 书籍特点       条理清晰 ...

  3. 机器学习笔记十四:随机森林

    在上一篇机器学习笔记十三:Ensemble思想(上)中,简要的提了一下集成学习的原理和两种主要的集成学习形式.  而在这部分要讲的随机森林,就算是其中属于bagging思路的一种学习方法.为了篇幅,b ...

  4. 机器学习笔记七:损失函数与风险函数

    一.损失函数 回顾之前讲过的线性回归模型,我们为了要学习参数使得得到的直线更好的拟合数据,我们使用了一个函数 这个函数就是比较模型得到的结果和"真实值"之间的"差距&qu ...

  5. 吴恩达机器学习笔记55-异常检测算法的特征选择(Choosing What Features to Use of Anomaly Detection)

    吴恩达机器学习笔记55-异常检测算法的特征选择(Choosing What Features to Use of Anomaly Detection) 对于异常检测算法,使用特征是至关重要的,下面谈谈 ...

  6. Python机器学习笔记:sklearn库的学习

    自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学习算法.还包括了特征提取,数据 ...

  7. 神经网络与机器学习 笔记—LMS(最小均方算法)和学习率退火

    神经网络与机器学习 笔记-LMS(最小均方算法)和学习率退火 LMS算法和Rosenblatt感知器算法非常想,唯独就是去掉了神经元的压制函数,Rosenblatt用的Sgn压制函数,LMS不需要压制 ...

  8. 神经网络与机器学习 笔记—基本知识点(下)

                   神经网络与机器学习 笔记-基本知识点(下) 0.1 网络结构: 神经网络中神经元的构造方式与用于训练网络的学习算法有着密切的联系,有三种基本的网络结构: 0.7 知识表示 ...

  9. 神经网络与机器学习 笔记—基本知识点(上)

    神经网络与机器学习 笔记-基本知识点(上) 0.1 什么是神经网络: 神经网络是由简单处理单元构成的大规模并行分布处理器,天然具有存储经验知识和使之可用的特性.神经网络在两个方面与大脑类似. 神经网络 ...

  10. 机器学习笔记:为什么要对数据进行归一化处理?

    机器学习笔记:为什么要对数据进行归一化处理? rocling 于 2019-06-22 17:03:39 发布 7090  收藏 9 分类专栏: 人工智能 文章标签: 机器学习 归一化 版权 人工智能 ...

最新文章

  1. c++中类的申明和定义
  2. PHP的http_build_query
  3. 对HashMap对象的键值对内容进行排序
  4. jquery在html中显示文字居中,jquery单击文字或图片内容放大并居中显示
  5. C#限制float有两位小数
  6. 深度梯度压缩:减小分布式训练的通信带宽
  7. 记忆的酒坛里,辛苦会酿成充实和幸福
  8. 江苏大学数字图像处理MATLAB人脸识别,MATLAB人脸识别代码
  9. IoTP2PGate 两台物联网设备点对点通信快速实现方案
  10. Python编程实现后剪枝的CART决策树
  11. 《程序员修炼之道》解读
  12. 泡泡龙游戏开发系列教程(四)
  13. 计算机显示器分辨率,电脑分辨率多少合适,详细教您电脑显示器分辨率怎么调整...
  14. mysql锁机制和索引_MySql锁机制及索引 · 十年饮冰,难凉热血
  15. git name consists only of disallowed characters
  16. 读《Oracle 数据库应用与实践》
  17. 统计学基础之常用统计量和抽样分布
  18. 最新高品质+西安市区建筑物范围面shp格式+小区大厦学校医院占地面积
  19. 太强了!华为自研鸿蒙编程语言,行业大佬都已经偷偷学起来了
  20. SHU运筹与优化上机实验

热门文章

  1. day21 面向对象之继承和组合
  2. 不要在意七十亿分之一对另七十亿分之一的看法
  3. 日期选择控件-laydate
  4. 保留小数点位数和格式
  5. linux基础知识——mmap
  6. 大数据技术原理与应用-概述
  7. Leetcode--152. 乘积最大子序列
  8. JSP中get和post请求方式的区别及乱码解决方法
  9. python实现邮件客户端_利用python实现简单的邮件发送客户端示例
  10. 学云计算能干什么_陌陌主播等级计算?陌陌主播升级明细表?