机器学习问与答(二):线性学习
问题一:
①这里的假设数据分布是什么意思?哪些分类器需要事先假设数据分布?
网络上相关资料好少,贴点相关知识辅助理解。
数据分布就是数据在它对应的特征空间中的位置,数据是如何在空间排布的。
为什么机器学习中常常假设数据是独立同分布的?
独立、相关的关系:
独立,两个事件的发生没有任何关系
相关,一般指线性相关,不相关指不线性相关,但或许满足非线性相关
同分布:
意味着X1和X2具有相同的分布形状和相同的分布参数,对离散随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。
独立同分布(iid):
在不少问题中要求样本(数据)采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集,使用同分布假设能够使得这个做法解释得通。
(机器学习就是利用当前获取到的信息(或数据)进行训练学习,用以对未来的数据进行预测、模拟。因此需要我们使用的历史数据具有总体的代表性。)
②好吧,其实优点3)也没怎么看懂,要不也解释解释?
直接点来说,就是逻辑斯蒂函数是任意阶可导的凸函数,有很好的数学性质,能应用许多数值优化算法。
什么是凸函数的定义和判定?
线性回归的目标函数是一个凸函数。一个闭区间上凸函数,必须在这个区间上满足“两点中点处函数值≤两点各自函数值和的一半”,而不要想当然的理解为形状朝一个方向“凸出”就是凸函数。比如,y=x²是凸函数,y=-x²就不是。从数学角度,可以通过二阶导数判断:若在区间上二阶导数非负,则称为凸函数;若二阶导数在区间上恒大于0,则称为严格凸函数。
关于数值优化,内容过多,贴个网页:
https://blog.csdn.net/fangqingan_java/article/details/46289691
问题二:
“序”关系是什么意思?可以举例说明吗?
答:属性值之间存在“序”的关系,既属性值之间有明显的大小之分或高低之分,如“难看,一般,好看”是明显的长相由差到好,故可按序量化为(1,0.5,0);若属性值之间不存在“序”的关系,既属性值之间没有明显的递增递减关系,如人的性格有“冷漠、可爱、孤僻、成熟”,就可以用四维向量表示(1,0,0,0),(0,1,0,0),(0,0,1,0),(0,0,0,1)。如果对于无序的属性按有序属性的方式量化,则会不恰当的引入序关系,后面如果有涉及距离的计算,有可能会造成误导。这里实际上对应的是编程实现时的数据预处理部分。
问题三:
这恐怕是个蠢问题,但是还是想问问,线性回归、岭回归、Lasso回归等等这些回归的区别是什么?是联系函数不一样还是进行预测的函数不一样?
线性回归、岭回归、Lasso回归的区别:
线性回归、岭回归、Lasso回归的主要区别在于损失函数的不同。贴公式太麻烦了,直接截个自己写的Word…
内容来源:https://www.cnblogs.com/wuliytTaotao/archive/2019/05/11/10837533.html
Lasso回归和岭回归的同与异:
相同:
都可以用来解决标准线性回归的过拟合问题。不同:
Lasso回归可以用来做特征选择,而岭回归不行。或者说,Lasso回归更容易使得权重变为0,而岭回归更容易使得权重接近0。
从贝叶斯角度看,Lasso回归(L1正则)等价于参数w的先验概率分布满足拉普拉斯分布,而岭回归(L2正则)等价于参数w的先验概率分布满足高斯分布。
为什么说线性回归容易造成过拟合,而加入L1或L2正则化后,则可以解决过拟合问题:
加入L1或L2正则化,能让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。
可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什幺影响,一种流行的说法是『抗扰动能力强』。
问题四:
“其输出值在z=0附近变化很陡”这句话对具体的分类来说有什么意义..
好像,是没什么特殊的意义,只是单纯的描述逻辑斯蒂函数的图像。
写点相关知识:
Sigmoid函数
Sgimoid函数即形似S的函数,也称为S函数。在机器学习中经常用作分类,如逻辑斯蒂回归和神经网络(Neural Networks)中的逻辑斯蒂函数。
典型的Sigmoid函数,它把可能在较大范围内变化的输入值“挤压到”(0,1)的输出范围内,因此又时也成为“挤压函数”(SquashingFunction)。
机器学习问与答(二):线性学习相关推荐
- python3简明教程-实验楼_#python实验楼教程#学Python哪里有一问一答的Python学习?求具体的~...
学Python哪里有一问一答的Python学习?求具体的- 实的会员课程 慕课网 实验楼是IT在线学习网站,为用户提供的不频,而是配置好的虚拟机,通过虚拟的实验环境,学习者可边看文档边动手操作,从而提 ...
- 超全大厂算法岗百问百答(推荐系统/机器学习/深度学习/C++/Spark/python)
之前在准备秋招的时候,每次看到牛客网上那些大神手握七八个大厂的offer,就羡慕到不行,那会儿自己的机器学习算法水平还没法搬上台面,顶多也就是看了几个课程.做了两个比赛的水平,然后比赛还没得到任何的名 ...
- 机器学习常见知识点自查50问与答
机器学习常见知识点自查50问与答 1.什么是机器学习 2.机器学习与数据挖掘的区别 3.什么是机器学习的过度拟合现象 4.过度拟合产生的原因 5.如何避免过拟合 6.什么是感应式的机器学习 7.机器学 ...
- 操作系统学习常见疑惑问与答
主要看了下特权级这块,和上次看的保护模式下寻址,发现于渊的书有个问题,很多地方为了回避繁杂的理论,反而把一些要点略去了,最后自己还是不得不到网上到处查资料~ 以下内容貌似是一个即将毕业的学长做毕设所总 ...
- 【你问我答】机器学习遇到问题了?尽管问,我们负责解答!
[你问我答]是由美团点评技术团队推出的线上问答服务,你在工作学习中遇到的各种技术问题,都可以通过我们微信公众号发问,我们5000+工程师会义务为你解答,欢迎大家踊跃提问.高质量.定义清晰的问题会优先获 ...
- 《逆袭进大厂》第十二弹之MySQL重点篇27问27答
大家好,我是阿秀. 我来更新了,本期是 MySQL 第二期,至此 MySQL 部分就全部更新完毕了,下一弹就是 Redis 篇了. 上一篇文章中,小伙伴建议将资料按照更细粒度去整理一番,我觉得是非常不 ...
- 永磁同步电机矢量控制中的双闭环是什么意思_【百问百答】ST 电机控制实战问答合辑 | 连载之二...
点击下方链接可以直接观看电机直播及直播答疑 https://wx18257eb0e8c82435.h5.xiaoe-tech.com/content_page/eyJ0eXBlIjoiMiIsInJl ...
- 网络安全基础知识学习之Web安全百问百答
网络安全基础知识学习之Web安全百问百答 1.什么叫Web应用系统? 答:Web应用系统就是利用各种动态Web技术开发的,基于B/S(浏览器/服务器)模式的事务处理系统.用户直接面对的是客户端浏览器, ...
- 二维码会被人类扫完吗?| 你问鹅答
支付码.名片码.健康码.校园码.复学码.乘车码.挪车码码码码码码码码码码码码码码码码码码码码码码码码码码,这么多码?光疫情期间,微信"码上经济"就用掉了 1400亿个二维码,那么就 ...
最新文章
- 【c语言】判断是否为友好数
- 守护进程(setsid、getpgrp、setpgid、getpgid)以及系统日志(openlog、syslog、closelog)...
- 1001.Reverse Root
- 字符串关键字的散列映射 (25 分)【详细解析】
- 【最详细】数据结构(C语言版 第2版)第八章课后习题答案 严蔚敏 等 编著
- Git之如何解决Error:pathspec ‘/layout/radar_chart.xml‘ did not match any file(s) known to
- C++ 高级数据类型(二)—— 字符序列
- most recent call last 报错_视频|救援情景剧、创意快闪……400w+人次为重庆这场消防宣传活动打call...
- Redis的事务(一次执行多条命令,防止重读重写)
- 技术解析+代码实战,带你入门华为云政务区块链平台
- C 语言实例 - 计算 int, float, double 和 char 字节大小
- 苹果手表出现,请在iphone 打开apple watch 应用,前生Passcode,轻点密码重试
- HP UINX磁带管理
- 微信指纹锁原理及安全性分析
- 计算机 360云盘删除,如何删除电脑右键菜单中的保存到360云盘选项
- 计算机通信网络(二)路由基本概念及静态路由配置
- Linux系统可以显示文件名,Linux系统如何显示中文目录和文件名
- java飘落的雪花_[Java教程]实现雪花飘落效果
- 拓扑容差如何修改_拓扑编辑
- 搜索引擎优化技巧如何看待