1.机器学习的数学符号基础

1.1 希腊字母

例如,在统计中,我们使用小写希腊字母mu的均值,以及标准差作为小写希腊字母sigma的情况。在线性回归中,我们将系数称为小写字母beta。了解所有大写和小写希腊字母以及如何发音非常有用。
Jason:当我是研究生时,我打印了希腊字母并将其粘贴在计算机显示器上,以便我可以记住它。一个有用的把戏!

1.2 序列(数组/列表)符号

  1. 索引编制
    例如,a_i是序列a的第i个元素。
    如果序列是二维的,则可以使用两个索引。例如:
    b_ {i,j}是序列b的第i,j 个元素。
  2. 序列求和
    Sigma i = 1, n a_i //就跟平时数学用的一样
  3. 序列乘法
    Pi i = 1, n a_i

1.3 设定符号

我们可能会看到在机器学习中定义术语时使用的设置符号。

  1. 设置会员 Set Membership
    集合成员资格表示为看起来像大写字母“ E”的符号:
    a E R ==== a∈R //这意味着a被定义为集合R或实数集合的成员
    联合或汇总:AUB
    相交或重叠:A ^ B
  2. 其他符号
    例如,如果我们要估计变量x,则可以使用修改x的符号来表示它。例如:

    注意:相同的符号在不同的上下文中可能具有不同的含义,例如在不同的对象或数学子领域上使用!
    例如,常见的混淆点是| x |,根据上下文,这可能意味着:
    | x |:x的绝对值或正值。
    | x |:向量x的长度。
    | x |:集合x的基数。

2.What Is Probability?什么是概率?

很多内容在“概率论”课程中已经学过~~但我们还需要——探索如何利用Python把握不确定性
不确定性涉及在信息不完整的情况下做出决策,处理不确定性通常使用机会、运气和风险等日常用语来描述。
概率是数学的一个领域,它为我们提供了一种语言和工具,以一种有原则的方式量化事件和原因的不确定性。
贝叶斯概率
贝叶斯概率法是主观的。概率是根据证据和个人信念分配给事件的,并且以贝叶斯定理为中心,因此命名为“ 贝叶斯定理” 。这可以将概率分配给非常少见的事件和以前从未观察到的事件,这与频繁发生的概率不同。
贝叶斯解释的一大优势是,它可以用来对不具有长期频率的事件的不确定性建模
来自贝叶斯概率的方法包括用于推理的贝叶斯因子和可信区间,用于参数估计的贝叶斯估计器和最大后验估计。

3.Jason概率速成课(笔记)

学习资料来源——https://machinelearningmastery.com/probability-for-machine-learning-7-day-mini-course/

3.1 概率与机器学习

  1. 机器学习是根据不确定的数据开发预测模型。不确定性意味着使用不完美或不完整的信息。机器学习的不确定性主要来自三个方面:

观测结果中的噪声,例如测量误差和随机噪声。
域覆盖不完整,例如,您永远无法观察到所有数据。
问题的模型不完善,例如所有模型都有错误,有些模型很有用。

  1. 应用机器学习的不确定性通过概率来管理:

概率和统计数据有助于我们理解和量化来自域的观测值中变量的期望值和可变性。
概率有助于理解和量化域中观测值的预期分布和密度。
当应用到新数据时,概率有助于理解和量化我们的预测模型的预期能力和性能差异。

  1. 概率是机器学习的基础。最重要的是,我们可能需要模型来预测概率,我们可能会使用概率来开发预测模型(例如,朴素贝叶斯),并且可能会使用概率框架来训练预测模型(例如,最大似然估计)。

3.2 三种概率

复习:(会计算)
①两个事件的联合概率
②边际概率
③条件概率

3.3 概率分布

3.3.1 复习两种常见随机变量

1:离散随机变量。值是从一组有限的状态中得出的。包括:

泊松分布。
伯努利分布和二项分布。
多元分布和多项式分布。

2:连续随机变量。值是从一系列实数值中得出的。包括:

正态分布或高斯分布。
指数分布。
帕累托分布。

3.3.2 随机抽样高斯分布

我们可以定义一个平均值为50,标准差为5的分布,并从该分布中抽样随机数。我们可以使用normal()NumPy函数来实现。代码:

# sample a normal distribution
from numpy.random import normal
# define the distribution
mu = 50
sigma = 5
n = 10
# generate the sample
sample = normal(mu, sigma, n)
print(sample)

运行示例将打印10个从定义的正态分布中随机采样的数字。

3.4 朴素贝叶斯分类器

朴素贝叶斯算法:用于分类预测建模。这个模块有点小难但是csdn上面给出了很多详细教程。
似乎这个已经开始接近了!!!——“作为奖励,请尝试在真实的分类数据集上使用该算法,例如流行的玩具分类问题,即基于花朵测量结果对鸢尾花种类进行分类。”
——————————————————正文————————————————————
在机器学习中,我们通常对预测建模问题感兴趣,在该模型中我们希望为给定的观察结果预测类标签。
解决此问题的一种方法是开发一个概率模型。从概率的角度来看,我们有兴趣在给定观察值的情况下估计类标签的条件概率,或者在给定输入数据X的情况下估计y类的概率。
P(y | X)
贝叶斯定理提供了一种使用所需条件概率的倒数来计算条件概率的替代原理性方法,该方法通常更容易计算。
贝叶斯定理的简单计算形式如下:
P(A | B)= P(B | A)* P(A)/ P(B)
我们对计算P(A | B)感兴趣的概率称为后验概率,而事件P(A)的边际概率称为先验概率。
贝叶斯定理在分类中的直接应用变得棘手,尤其是随着变量或特征(n)数量的增加。相反,我们可以简化计算并假设每个输入变量都是独立的。尽管比较复杂,但是即使输入变量高度相关,这种更简单的计算也通常会提供非常好的性能。

我们可以通过假设每个单独的输入变量的概率分布并计算属于每个类别的每个特定输入值的概率,然后将结果相乘得到一个用于选择最可能类别的分数,从而从头开始实现这一目标。
P(yi | x1,x2,…,xn)= P(x1 | y1)* P(x2 | y1)…P(xn | y1) P(yi)

如果我们假设每个输入变量都具有高斯分布,则scikit-learn库将提供算法的有效实现。

要使用scikit学习的朴素贝叶斯模型,首先要定义模型,然后将其拟合到训练数据集上。一旦拟合,就可以通过predict_proba()函数预测概率,并且可以通过predict()函数直接预测类标签。
下面列出了将高斯朴素贝叶斯模型(GaussianNB)拟合到测试数据集的完整示例:

# example of gaussian naive bayes
from sklearn.datasets import make_blobs
from sklearn.naive_bayes import GaussianNB
# generate 2d classification dataset
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# define the model
model = GaussianNB()
# fit the model
model.fit(X, y)
# select a single sample
Xsample, ysample = [X[0]], y[0]
# make a probabilistic prediction
yhat_prob = model.predict_proba(Xsample)
print('Predicted Probabilities: ', yhat_prob)
# make a classification prediction
yhat_class = model.predict(Xsample)
print('Predicted Class: ', yhat_class)
print('Truth: y=%d' % ysample)

//看晕了,后续继续找资料学…01/28/2020

3.5 熵和交叉熵(互熵)

3.6 朴素的分类器

3.7 概率分数(Scores)

————————————————————————————
留坑 后续继续学

机器学习一脸懵笔记【05】概率论相关推荐

  1. 《机器学习实战》学习笔记(四):基于概率论的分类方法 - 朴素贝叶斯

    欢迎关注WX公众号:[程序员管小亮] [机器学习]<机器学习实战>读书笔记及代码 总目录 https://blog.csdn.net/TeFuirnever/article/details ...

  2. 《基于张量网络的机器学习入门》学习笔记5

    <基于张量网络的机器学习入门>学习笔记5 量子概率体系 事件 互斥事件 概率与测量 不相容属性对 相容属性对 量子概率与经典概率的区别 量子测量 量子概率体系 我们将经典的实数概率扩展到复 ...

  3. 《基于张量网络的机器学习入门》学习笔记4

    <基于张量网络的机器学习入门>学习笔记4 量子概率 将概率复数化 分布与向量的表示 事件与Hilbert空间 不兼容属性及其复数概率表示 为什么一定要复数概率 量子概率 将概率复数化 在经 ...

  4. 《机器学习实战》学习笔记第八章-回归

    目录 线性回归 标准回归 局部加权线性回归 预测鲍鱼的年龄 缩减系数来"理解"数据 岭回归 lasso 前向逐步回归 预测乐高玩具套件的价格 获取数据 线性回归 回归的目的就是预测 ...

  5. 《机器学习实战》学习笔记(七):利用AdaBoost 元算法提高分类性能

    欢迎关注WX公众号:[程序员管小亮] [机器学习]<机器学习实战>读书笔记及代码 总目录 https://blog.csdn.net/TeFuirnever/article/details ...

  6. 《机器学习实战》学习笔记(三)

    文章目录 第四章 基于概率论的分类方法:朴素贝叶斯 引言 朴素贝叶斯优缺点 朴素贝叶斯的一般过程 4 . 1 基于贝叶斯决策理论的分类方法 4.2条件概率 贝叶斯公式 4.3 使用条件概率来分类 4. ...

  7. 干货丨机器学习指南(学习笔记哦,值得一看)

    作者:小土刀 这里是我学习机器学习时候的一些笔记和总结,文章比较长,但是应该是比较全面的. 基本概念 主要是基本概念的辨析,都是最最基础和常规的 监督学习与非监督学习 应用领域:企业数据 监督学习需要 ...

  8. 《基于张量网络的机器学习入门》学习笔记7

    <基于张量网络的机器学习入门>学习笔记7 量子算法 什么是量子算法 三个经典量子算法 Grover算法 背景 基本原理 例题 量子算法 什么是量子算法 例如我们求解一个问题,一个111千克 ...

  9. 《基于张量网络的机器学习入门》学习笔记6

    <基于张量网络的机器学习入门>学习笔记6 密度算符(密度矩阵) 具体到坐标表象 在纯态上 在混合态上 纯态下的密度算符 混合态下的密度算符 密度算符的性质 量子力学性质的密度算符描述 第一 ...

最新文章

  1. asp页面和Asp.net页面传中文参数UrlEncode编码以及接收解码
  2. eclipse中svn插件的安装
  3. 如何修改IE的默认标题
  4. tcp/ip 协议栈Linux内核源码分析七 路由子系统分析二 策略路由
  5. 第四届程序设计竞赛(天梯赛)华南赛区回顾
  6. redis本地及远程登录
  7. TypeError: can't pickle _thread.RLock objects
  8. HDU1408 盐水的故事【模拟+数学】
  9. 360手机浏览器_UC、QQ、华为、360、搜狗、小米、vivo、OPPO等8款手机浏览器被纳入首批传播秩序专项整治...
  10. MP4视频损坏修复工具下载
  11. 关于翁恺老师Java网课中细胞自动机的一点点想法
  12. 给大家推荐一款冰点文档下载器(免登陆,免积分)下载百度,豆丁,畅享网,mbalib,hp009,mab.book118文库文档
  13. 计算机无法打印图片,为什么电脑打印不了图片 电脑里的图片无法打印处理方法...
  14. 一文道尽Flutter最新最全的学习资料
  15. 《思考的技巧》- 学习总结
  16. 先人一步(小高读书笔记第一季)
  17. JWTUtil工具类使用
  18. 【转】PM、RD、QA、OP英文缩写
  19. 小猿圈IT自学分享-自学编程需要克服的困难
  20. 2018 开学第一课

热门文章

  1. lq99:分分巧克力
  2. NTU-RGBD骨架数据分析
  3. Matlab按照二进制读写txt文件
  4. 扒一扒那些叫欧拉的定理们(七)——欧拉线定理的证明
  5. 知识图谱学习资料汇总
  6. godaddy php5.ini,Godaddy主机修改上传文件限制
  7. 商业智能BI与业务管理决策思维之三:业务质量分析
  8. 微信公众平台原创声明功能公测 自媒体原创保护的福音
  9. 股票的内外盘(转贴收藏)
  10. 如何去保证软件的质量