目录

一、什么是数据挖掘?

二、概率基础

基础回顾

条件概率

全概率公式

贝叶斯公式

三、随机变量

四、数字特征

五、参数(总体样本的均值、方差、拟合函数的参数等等)估计


一、什么是数据挖掘?

基于对大量的数据进行深度分析,发现其有价值的信息!利用这些信息提高企业预测分析与推断决策能力。针对不同用户进行个性化推荐,优化用户体验。我个人理解是,在大量数据中发现模式与规律,也就是咱们人类所说的知识,所以为什么叫机器学习?让机器像人类一样从一堆数据中学到知识!

数据挖掘所使用的方法论是什么?包括统计学、机器学习、数据库、云计算等等。所以在研究生生活开始之前我应该学习完李航老师的《统计学方法》、周志华老师的西瓜书《机器学习》,为以后研究打下深厚的基础。数据挖掘包括四大基本模型,包括分类、聚类、预测、关联四大模型。


二、概率基础

基础回顾

随机试验E:符合三个条件,1、相同条件下能够重复进行;2、试验结果不止一个但能明确试验所有可能;3、试验前无法确定结果但肯定是所有可能结果之一;例如掷骰子、王者排位。

样本空间S:随机试验E中所有可能的结果组合成的集合称为样本空间,例如掷骰子有 1、2、3、4、5、6种点数,这个集合为样本空间S。样本空间可以是无限的,例如到达教室的时间[8am,9am]。

样本点:样本空间中的每个结果或者说元素为样本空间,例如掷骰子 点数1 是一个样本空间。

基本事件:一个样本点事件为一个基本事件,基本事件我发再分割;通常把事件分为必然事件、偶然事件、不可能事件。

随机事件:若干个基本事件(样本点)组成,样本空间的子集,即在一定条件下可能发生也可能不发生的事件。

和事件AUB:A和B至少有一个发生。

差事件A-B:A发生但B不发生。、

积事件AnB:A和B同时发生的事件。

古典概型:样本空间是一个有限集合,且每个基本事件发生的概率相等。


条件概率

条件概率:P(B|A)=P(AB)/P(A) , 其实很好理解,A发生的条件下B发生的概率,样本空间缩减为事件A,而原来的事件为A、B交集。

乘法定理:P(AB)=P(B|A)*P(A) ,其实就是条件概率的逆推;理解为A、B交集的概率为:A出现的条件下B的概率 乘以 A的概率。

独立事件:P(AB)=P(A)*P(B);  P(B|A)=P(B) ;


全概率公式

大圆为A事件,小圆为B事件,那么 P(B)=P(BA1)+P(BA2)+P(BA3); 所以有公式: , 根据条件概率公式又知道 , 所以在已知 的情况下,求P(B),即为全概率公式:  。用自己的语言描述就是:将B每一小块的概率加起来即为B的概率,而每一小块由条件概率求得!


贝叶斯公式

已知结果概率P(B)推原因概率,即第i个事件的条件概率,也称为后验概率公式。 ,  分子使用乘法公式得到   ,分母使用全概率公式得到 ,即   。


三、随机变量

概率密度:描述连续型随机变量的取值的统计规律。

概率分布律:描述离散随机变量的取值的统计规律。

分布函数:连续型随机变量的区间概率,对概率密度求积分即可,即为概率密度的区间面积。F(x)=P(X<x) ;


四、数字特征

方差:度量随机变量和数学期望之间的偏离程度。 ,刻画随机变量取值的分散程度!

标准差:, 为了保证与原数据单位具有相同的量纲,对方差开平方就是标准差。

协方差:前提X,Y不相互独立,为了衡量两个变量间的相关程度或者联系。 ,其中  。

协方差矩阵:随机变量两两求协方差,对角线为自己的方差。

相关系数:在相同量纲下,衡量随机变量X和Y之间的相关程度协方差有一定作用,但是不同量纲下,一般使用相关系数来衡量,,  [0.8,1] 极强相关,[0.6,0.8]强相关,[0,0.2]极弱相关,若为负数,则有负相关,-1 完全负线性相关,0 不存在线性关系。注意相关系数只能判断是否有线性关系,非线性关系无法确定!!!

相关系数矩阵:随机变量直接两两求相关系数,对角线为自己与自己的相关系数为1 。注意,相关系数与协方差主要区别就是是否消除量纲!!!


五、参数(总体样本的均值、方差、拟合函数的参数等等)估计

参数估计包括点估计与区间估计,点估计通常是从总体样本中取样,然后用样本的统计量估计未知参数,例如使用样本的均值估计总体均值。点估计仅仅是未知参数的近似值,而近似值的误差范围没有明确给出,这就缺乏一定可信度,而区间估计正好弥补了这一缺点。

最小二乘法:真实值与预测值之差的平方之和。求出偏差最小平方和,例如使用 f(x)=a+bx 进行拟合,,令偏导为0,解出函数参数a,b。

极大似然估计:寻找使事件发生概率最大的可能情况的参数估计方法。例如一个袋子有1000个黑、白球,请问黑球几何?我们随机取出100个,发现黑球72个,白球28个。现在我们知道了实验结果,需要估计参数黑球的个数及其白球的个数!什么情况下得到这个实验结果的参数能使得取得这个实验结果的概率最大?答案就是当袋子中黑球720个,白球280个的时候,得到这个实验结果的概率是最大的,所以得出了参数是,黑球720个,白球280个!

极大似然估计如何使用呢?分为离散型与连续型,其实都一样,核心思想就是假设参数为,然后将每一个样本概率累乘起来,离散:  ,连续: 。然后在参数可能的范围之内寻找使得 最大的参数 即可,两边取对数求导即可求得  。

区间估计:由样本确定两个统计量  ,满足 ,则区间 称之为的置信水平的置信区间, 与  分别是此置信区间的上下限。在多次等容量的抽取样本中,至少有 的区间包含  。


吃西瓜—先磨刀之概率论相关推荐

  1. 其实人是有潜力的,比如吃西瓜

    从今天早上刚出门,就计划好了今天将是蛮累的一天.在这一天快要结束的时候,发现 比我想象的要累多了~ 早上去新区还书,顺便借耳机,明天这辈子最后一次英语考试.新区真偏僻,蛋都不生鸟一地方,把那些大一大二 ...

  2. 夏天吃西瓜10大禁忌必须知道

    吃西瓜是夏天必做的一件事之一,西瓜作为消暑解渴的最佳水果,自然在夏天收到很多人喜爱,但在食用西瓜时,一些禁忌也必须时刻小心. 吃西瓜有什么好处? <本草纲目>中说西瓜甘寒无毒,不仅&quo ...

  3. c语言程序设计猪八戒吃西瓜,三年级语文下册教案——《猪八戒吃西瓜》教学设计之二...

    [教学要求] 1.运用工具书学习并理解课文中生字和词语的意思. 2.了解课文主要内容,培养自学能力. 3.了解猪八戒的性格特点,结合心理活动描写学习刻画人物的方法. 4.了解<西游记>的文 ...

  4. [洛谷 P3788] 幽幽子吃西瓜

    妖梦费了好大的劲为幽幽子准备了一个大西瓜,甚至和兔子铃仙打了一架.现在妖梦闲来无事,就蹲在一旁看幽幽子吃西瓜.西瓜可以看作一个标准的球体,瓜皮是绿色的,瓜瓤是红色的,瓜皮的厚度可视为0.妖梦恰好以正视 ...

  5. 【最大立方体和】吃西瓜rqnoj93

    吃西瓜rqnoj93 题目描述 [说明]此题中出现的所有数全为整数 [背景]SubRaY有一天得到一块西瓜,是长方体形的.... [题目描述]SubRaY发现这块西瓜长m厘米,宽n厘米,高h厘米.他发 ...

  6. 【DP~最大子立方体】吃西瓜

    吃西瓜[matrix.pas/c/cpp] [说明]此题中出现的所有数全为整数 [背景]SubRaY有一天得到一块西瓜,是长方体形的.... [题目描述]SubRaY发现这块西瓜长m厘米,宽n厘米,高 ...

  7. c语言程序设计猪八戒吃西瓜,猪八戒吃西瓜教学设计

    猪八戒吃西瓜教学设计 作为一位杰出的老师,往往需要进行教学设计编写工作,教学设计把教学各要素看成一个系统,分析教学问题和需求,确立解决的程序纲要,使教学效果最优化.那么问题来了,教学设计应该怎么写?以 ...

  8. 01一起来吃西瓜——线性回归

    从西瓜书的第三章开始吃瓜哈 机器学习三要素 模型:根据具体问题,确定假设空间 策略:根据评价标准,确定选取最优模型的策略(通常会产生一个"损失函数") 算法:求解损失函数,确定最优 ...

  9. 问题 J: 【分治】猪八戒吃西瓜,【分治】桐桐查单词(map的应用)

    妙笔难书一纸愁肠,苍白的誓言,终究抵不过岁月的遗忘. 题目描述 有一天,贪吃的猪八戒来到了一个大果园,果园里有n(n≤100000)个大西瓜,每个西瓜 的质量不大于长整型(longint),并且每个西 ...

  10. 动态规划 RQNOJ 吃西瓜 最大子段和三维版

    题目描述 [说明]此题中出现的所有数全为整数 [背景]SubRaY有一天得到一块西瓜,是长方体形的.... [题目描述]SubRaY发现这块西瓜长m厘米,宽n厘米,高h厘米.他发现如果把这块西瓜平均地 ...

最新文章

  1. 灵活性是原则性基础上的灵活
  2. Spring 的微内核与FactoryBean扩展机制--转载
  3. 【攻防世界009】流浪者
  4. pcb成型板aoi检测_缺陷检测 | PCB AOI质量检测之自动定位核选取算法
  5. linux网口驱动实现(待续)
  6. 聊一聊Jmeter的简单使用
  7. oracle中执行自带脚本,oracle自带脚本
  8. 阿里云数字巡展:“云上峰会”背后的秘密武器
  9. js表单提交 php,JavaScript提交表单的几种方法
  10. 命令行部署程序保存pid到文件
  11. 95-290-380-源码-内存管理-Buffer-NetworkBufferPool简介
  12. python什么时候用类设计_关于python:类模板的习惯用法或设计模式?
  13. 第十一讲 在ASP.NET中使用用户控件
  14. 听说你想当黑客,我只能帮你到这了
  15. Session销毁方式
  16. ViewPager轮播图自动无限循环滑动,手指按住停止滑动
  17. html css js php是否区分大小写 总结
  18. 计算机基础及photoshop的应用,计算机基础及Photoshop应用
  19. 2020安洵杯--MISC
  20. PyCharm下载安装以及使用教程

热门文章

  1. excel表格打印每页都有表头_Excel怎么能让每一页都打印上相同的顶端和底端标题?...
  2. xxx科技有限公司_公司管理制度
  3. Android开发之殇
  4. 福利 | 启迪之星2018首期AI创业加速营免费名额
  5. Sara 老友记 第一季第六集 Joey天天演烂片
  6. 国内FRM证书福利政策大全
  7. 有哪些免费的CRM软件可以使用?
  8. PHP slideup,vue+原生JavaScript实现slideDown与slideUp[简单思路]
  9. 计算机网络体系批判,基于批判性思维的计算机网络概论课程改革.pdf
  10. There was a problem confirming the ssl certificate: HTTPSConnectionPool(host=‘pypi.org‘, port=443)