机器学习基础,入门介绍
什么是机器学习
利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定性场景的决策
确定性:太阳
不确定性:公司业绩销量
如何解决?规律?从历史数据中挖出来的
1.主体是计算机----机器学习
主体是人----数据分析,效果依赖于人的经验知识水平
机器学习可以看作是框架,算法
2.数据:历史数据
3.规律:从数据中寻找规律,机器学习算法找出的结果规律
算法找出一个数学函数,数学公式
规律落实到程序中:机器学习系统自动生成
从数据中寻找规律
概率论(基石)和统计学
统计学:运算能力的限制,依赖于采样,(样本计算平均值,反作用于整体),描述统计,验证结论是否靠谱(假设检验)
机器学习:单机,集群,不需要抽样,对全量数据处理找规律
预测温度变化,
观察数据,可视化展示发现规律,直观感受(上下波动,总体上升)、
量化做计算比较,用模型刻画(拟合)规律:函数---函数曲线:正确的反应变化特征,寻找模型
维度增高(上百维),无法可视化发现规律,只能用数学模型
函数曲线拟合
机器学习发展的原动力
从历史书籍中找出规律,把这些规律用到对未来自动做出决定
用数据代替专家(网站推荐,业务逻辑,专家根据经验定义规则;用数据告诉规律)
经济驱动,数据变现(大数据概念的出现)
业务系统发展的历史
基于专家经验(运营产品头脑风暴)
基于统计----分维度统计(业务报表)OLAP分析,数据仓库,维度指标,定义规则
机器学习----在线学习
离线机器学习:p处理,晚上根据之前数据跑算法,模型,上线,第二天使用;再生成新模型
存在的问题:电商,双十一大量下单,消费模式与之前不同,离线模式推荐可能很不适合,用当天消费者的行为实时训练模型来推荐
在线学习:在线实时调整模型,用模型对消者指导(电商,百度)
机器学习典型应用
1.关联规则(啤酒和尿布)
购物篮分析:同时购买:捆绑销售,调整货架位置等
算法:关联规则,典型的数据挖掘算法
2.聚类
用户细分精准营销
移动套餐:品牌和用户定位(全球通,动感地带,神州行)
聚类:用户消费数据,运行算法,为用户分类,分析共同的消费特征,业务人员推品牌
3.朴素贝叶斯算法,决策树
垃圾邮件识别
决策树
信用卡欺诈(信贷风险识别(是否放贷:还款能力达不到,是否骗贷))
4.ctr预估和协同过滤
互联网广告,搜索引擎
搜索词条显示顺序
ctr预估,点击率预估,评估用户可能点击的概率排序-----线性逻辑回归
推荐系统
协同过滤
组合购买,
5.自然语言处理,图像识别,图像识别
情感分析,文本,评论
实体识别,提取文章中的人名地名企业名时间,提取文章主干
图像识别
深度学习
6.others
语音识别
个性化医疗
情感分析
人脸识别
自动驾驶
智慧机器人
私人虚拟助理
手势控制
视频内容自动识别
机器实时翻译
数据分析和机器学习的区别
1.数据特点:
交易数据(电商网站:用户下单;银行:用户存取款;电信:用户打电话发信息;跟钱有关的数据)vs行为数据(用户的搜索历史,点击浏览历史,评论)
少量数据vs海量数据
采样分析(交易数据:要求数据的一致性,用户转账,事务来保证)vs全量分析(行为数据:多一批少一批都无所谓(点击数据),不会影响整体分析,提取用户特征)
NOSQL数据库 Not Only SQL数据库,只能用来处理行为数据,分布式,CAP理论(保证吞吐量的前提下对一致性打折扣)
交易型数据:一定用于关系型数据库
2.解决业务问题不同
OLAP(报告历史发生的事)vs预测未来发生的事
过去两年那些用户拖欠贷款vs哪些用户可能会有坏账风险
3.技术手段和方法不同
分析方法:用户驱动(分析师分析)(交互式分析)(数据维度和属性受限)(OLAP工具)(成熟落伍)vs数据驱动(自动进行知识发现)(计算机算法自动计算给出结果)(大量维度属性)(发展阶段,部分已经成熟流行:推荐系统,点击预估)
4.参与者和受众不同
数据分析师(分析师能力决定结果)vs数据+算法(数据质量决定结果)
算法效果差异不悬殊,关键数据质量
服务用户不同:公司高层vs具体用户,个体(推荐产品)
机器学习常见算法和分类
算法分类:
1.对样本数据训练
有监督:训练数据中已经给出每一个样本类别(分类问题:提前打好标签),根据已知的y训练参数:分类算法和回归算法,模型目标训练出的y与已知的尽可能接近
无监督:训练数据没有y,聚类,提前不知道几类
半监督:强化学习,训练越来越好
2.对要解决的问题分类
分类与回归
聚类
标注:文本切分,标注动词形容词名词
3.根据算法的本质*****非常重要(两个算法的本质区别)
分类问题,训练数据模型的方法不同
生成模型:陪审团:给出属于各个类的概率,概率小不意味着不是该类别(模棱两可)
判别模型:法官给出结果:直接有一个函数,数据丢进去,给出类别(武断)
常见算法
1.决策树
分类 C4.5
CART(不再使用)
2.聚类Kmeans,无监督
3.分类,回归SVM(I曾经推崇的最好的算法),基础统计学习,数学理论****必考,推过程,应用问题,分类问题
4.关联分析Apriori(淘汰的算法,代价高,多次访问数据库,解决频繁项集挖掘),FP-growth,推荐系统解决的就是关联规则的
5.EM算法,统计学习,不是为了解决某一类问题,一个算法的框架
6.PageRank,链接挖掘
7.AdaBoost,集装与推进,决策树改进版,分类分类,人脸识别,有监督
8.KNN分类算法,有监督
9.朴素贝叶斯算法,分类
10.流行算法
FP-growth华人发明
逻辑回归,百度Google推荐,搜索结果排序
RF. GBDT,随机森林,决策树算法的改进
推荐算法,电商网站
LDA,文本分析,自然语言处理
Word2Vector,Google文本挖掘
HMM,CRF隐马尔科夫模型,条件随机场
深度学习
机器学习解决问题的框架
机器学习解决的问题:1,预测(所属分类,数值)(变量是连续型,离散型)2,聚类
解决同一个问题,共同的指导原则和思想
分类问题为例,逻辑回归,svm,随机森林,朴素贝叶斯
区别,共同地方
1.确定目标:
1.1业务需求,解决什么问题,预测产品推荐,预测需求量(滴滴打车天气)
1.2数据,收集历史数据,更精准
1.3特征工程,数据预处理,清晰整合,提取特征(打车需求,天气数据)70%时间精力
2.训练模型
2.1定义模型:回归分类问题,希望得到一个公式,参数是未知的,通过训练数据获得
*2.2定义损失函数:定义预测结果与真实结果的偏差大小,假设得到一个线性回归模型,无法得到精确解,寻找一个近似解,到底哪个模型更适合。针对数据集,只关心绝对值或平方;回归问题:数值预测-真实,分类问题误差评估;评价相似程度(评价模型)
*2.3优化算法:问题如何优化,在损失函数取最小值时,参数是什么;求函数极小值的优化问题;优化问题,凸优化问题,梯度下降等数学问题
3.模型评估
模型是学习的历史经验,验证能否预测未来
3.1交叉验证
3.2效果评估,评估结果报告,指标:准确率,召回率,平均方差
流程:
得到数据raw data with labels 回归分类问题
训练数据 验证数据
特征工程
模型训练结果,迭代,验证
效果评估(调整模型参数,或者特征工程)
机器学习图片识别demo演示
图片按照色彩聚类
特征工程:图片转换为可以运算的数据流,图片rgb二进制存储转换为可处理的数据格式
rgb转为hls格式(12个数字组成的一个数组或列表或向量),再提取特征
Kmeans聚类,跑结果,调整聚成几类
评价指标,用肉眼观察,看什么时候效果最好
机器学习基础,入门介绍相关推荐
- 机器学习 --基础入门介绍 他来啦!!!
行业热词解释 机器学习基本术语 假如我们有一组天气数据,是来自全世界不同国家和地区的每日天气,内容包括最高温度.最低温度.平均湿度.风速之类的相关数据,例如数据的一部分是这样的: 城市 最高温度 最低 ...
- 吴恩达机器学习(一)机器学习的入门介绍
文章目录 一.入门知识 二.什么是机器学习? 1.机器学习的定义 2.机器学习算法 一.入门知识 -从人工智能的工作中长大 -计算机的新功能 例如: -数据挖掘 自动化/网络发展带来的大型数据集. 例 ...
- Python基础入门介绍
第一章 Python入门 目录 第一章 Python入门 一.Python介绍 简介 特点 版本和兼容问题解决方案 Python 开发环境 交互模式(脚本 shell 模式) IDLE 开发环境使用入 ...
- 存储过程while_超详细的Oracle存储过程基础入门介绍
概述 前面已经对存储过程.函数.包做了个介绍,但是毕竟是写成了一篇,所以没那么细,今天单独介绍一下存储过程基础方面,后面再说遍历什么游标啊,数组啊~ 1.语法 CREATE [OR REPLACE] ...
- 1、图机器学习基础入门
数学基础 Dijkstra路径搜索算法 Dijkstra算法是目前开源实现里比较多的一种最短路径搜索的优化算法 我们以到达地为节点,不同节点间的边的权重为实际的距离,通过Dijkstra算法寻找单源最 ...
- 【HEC-RAS】基础入门介绍教程-初步原理01
说明 本人因工作需要自学hecras,学艺不精,在此将自己的学习成果记录下来,知识无价,但整理费事费力,如有错误,欢迎私信或留言进行探讨. HEC-RAS简介 HEC-RAS用于河道稳定和非稳定流一维 ...
- Android monkey 基础入门介绍
目录 一.为什么要用Monkey 测试? 二.简介 三.怎么用的? 1.首先用一个最简单的例子分析: 2.以下是monkey命令行的一些参数: 3.Monkey测试结果 : 四.总结:monkey测试 ...
- 橙子01-大数据基础入门简介
橙子01-大数据基础入门简介 大数据的概念 volume variety velocity value 大数据技术 大数据处理的基本流程 云计算的三个关键技术 大数据的应用 相关视频内容可在b站观看大 ...
- 《Ansible权威指南 》一第2章 Ansible基础元素介绍
本节书摘来自华章出版社<Ansible权威指南 >一书中的第2章,第2.1节,李松涛 魏 巍 甘 捷 著更多章节内容可以访问云栖社区"华章计算机"公众号查看. 第2章 ...
最新文章
- SUSE LINUX下文件系统变只读的问题解决
- [CF314C](Sereja and Subsequences)
- opencv图像边界的填充
- 阿里云服务器如何安装memcached
- 前端学习(1359) :学生档案信息管理1
- 有三个数a,b,c,要求按大小顺序输出。
- 【OpenCV 例程200篇】22. 图像添加非中文文字
- 信息学奥赛一本通 1031:反向输出一个三位数 | OpenJudge NOI 1.3 13
- apache FilesMatch
- CF 799B T-shirt buying
- 图像分类——EfficientNet的学习笔记
- 2011年八大赚钱爆发点
- 计算机考研2017真题408,2017计算机408考研真题.pdf
- 国务院:同意浙江省实施施工图分类审查,低风险项目可不图审!
- somachine3.1 注册
- 8.找出链表环的入口结点
- 现代控制理论(机器人方向)习题与实践补充资料和复习说明(2019版)
- 华为mate40pro+和华为p40pro+哪个好
- mysql 1308_Mysql恢复数据报ERROR1308:LEAVEwithnomatchinglabel_MySQL
- 磨金石教育分享||想转行学习插画,应该怎么做,需要什么基础?