本贴的目的, 是让我的学生们树立元组的思想, 并能在写论文的时候, 正确地使用它来定义自己的模型.
写定义有两个基本要求: a) 完备性, 即无懈可击; 2) 简洁性, 即没有冗余. 在与同学们的讨论中, 我发现对于非数学专业的学生, 做到这两点还是有相当大的困难.
由于这一系列贴子是边讨论边写, 所以有些随机游走的意味. 见谅!

1. 集合

动机: 现实生活中, 人们需要将一堆具有相同特性的对象放在一起讨论. 如: 同一个班的所有学生, 今天钓到的鱼. 集合就是对其抽象的基本概念.

1.1 朴素的定义

Definition 1.1 A set is a collection of elements, and an element is an object in a set.
集合有两种基本的表示法:

列举法
如:
A={0,1,2,3,4,5,6,7,8,9}\mathbf{A} = \{0, 1, 2, 3, 4, 5, 6, 7, 8, 9\}A={0,1,2,3,4,5,6,7,8,9} 是阿拉伯数字的集合.
N={0,1,2,…}\mathbb{N} = \{0, 1, 2, \dots\}N={0,1,2,…} 是自然数的集合.
Ω={a,b,…,z}\Omega = \{\textrm{a}, \textrm{b}, \dots, \textrm{z}\}Ω={a,b,…,z} 是英文字母表, 我故意把字母写成非斜体的, 表示不是变量.

讨论: 列举法最基础、最简单, 它仅表示集合里有哪些元素, 而并未关注语义.
2. 谓词法
如:
O={x∈N∣xmod2=1}\mathbf{O} = \{x \in \mathbb{N} | x \mod 2 = 1\}O={x∈N∣xmod2=1} 是自然奇数的集合. 注意这里的写法, xxx 其实是有两个限定的, 我们习惯于把一个基本的限定放在竖线左边. 当然, 写成 O={x∣x∈N,xmod2=1}\mathbf{O} = \{x | x \in \mathbb{N}, x \mod 2 = 1\}O={x∣x∈N,xmod2=1} 也行, 就是颜值差点.

讨论: 谓词法中, 首先声明了元素是从一个更大的集合来的, 然后讨论了其满足的条件. 这可引申到概念 (concept)的内涵 (intension)和外延 (extension). 例如: 人这一概念的外延是人类这一集合本身, TA 有70亿个元素 (对应对列举法); 其内涵则是指一种动物 (更大的集合), TA 的成年体满足的条件包括: 会使用语言, 会使用工具, 会思考人生的意义等等 (对应于谓词法).

还有一些常见的集合, 如实数集 R\mathbb{R}R.

乍一看, Definition 1.1 没毛病, 也符合我们的认知. 这个定义奇葩之处在于: 你要定义集合, 就需要先说什么是元素; 你要定义元素, 就要先说什么是集合. 这导致了集合悖论 “理发师是给那些不给自己理发的人理发的人”, 我们在这里不详细讨论. 作为搞计算的人, 可以不管它.

1 号坑: 我们通常会指定确定的集合, 如 N\mathbb{N}N, 但泛指其元素时, 可以用 xxx, yyy 或其它符号, 只要说 x∈Nx \in \mathbb{N}x∈N 即可, 而不需要对其定义. 换言之, x∈Nx \in \mathbb{N}x∈N 这个表达式已经对 xxx 这个变量进行了足够的界定.

习题 1.1: {0,1,{0,1},{1,2}}\{0, 1, \{0, 1\}, \{1, 2\}\}{0,1,{0,1},{1,2}} 有几个元素? 机器学习中, 这类形式的集合有什么优点和缺点?

1.2 基数

集合 A\mathbf{A}A 的基数，即其元素个数, 记为 ∣A∣|\mathbf{A}|∣A∣.
数字集合的基数为 10, 英文字母表的基数为 26 (仅考虑小写), 正整数的基数为可数无穷 NNN, 实数的基数为 (一阶) 不可数无穷. 计算机不搞无穷, 暂时忽略.
2 号坑: 基数符号与绝对值符号相同, 但读的时候, 要念成 “the cardinality of A”.
习题 1.2: ∅\emptyset∅ 的基数是多少? {∅}\{\emptyset\}{∅} 呢?

1.2 笛卡尔积

我们最常使用的是笛卡尔坐标系. 一维数轴可表示为 R\mathbb{R}R, 二维平面可以表示为 R×R=R2\mathbb{R} \times \mathbb{R} = \mathbb{R}^2R×R=R2, nnn 维空间当然就是 Rn\mathbb{R}^nRn 了.
a) 一维数轴上的点就是一个实数 x∈Rx \in \mathbb{R}x∈R.
b) 二维数轴上的点就是一对实数 (x,y)∈R2(x, y) \in\mathbb{R}^2(x,y)∈R2.
c) nnn 维空间上的点就是一个向量 (x1,x2,…,xn)∈Rn(x_1, x_2, \dots, x_n) \in \mathbb{R}^n(x1,x2,…,xn)∈Rn.

Definition 1.2 The Cartesian product of A1\mathbf{A}_1A1, …\dots…, An\mathbf{A}_nAn is
A1×A2…An={(x1,…,xn)∣x1∈A1,…,xn∈An}.\mathbf{A}_1 \times \mathbf{A}_2 \dots \mathbf{A}_n = \{(x_1, \dots, x_n) | x_1 \in \mathbf{A}_1, \dots, x_n \in \mathbf{A}_n\}.A1×A2…An={(x1,…,xn)∣x1∈A1,…,xn∈An}.

不同的集合是否可以做笛卡尔积呢? 从 Definition 2 看, 回答是肯定的. 例如, 颜色 C\mathbf{C}C = {Red, Green, Blue}, 形状 S\mathbf{S}S = {Triangle, Rectangle, Circle}, 质量 W=[1..100]={1,2,…,100}\mathbf{W} = [1..100] = \{1, 2, \dots, 100\}W=[1..100]={1,2,…,100}. 则 C×S×W\mathbf{C} \times \mathbf{S} \times \mathbf{W}C×S×W 的元素包括 (Red, Circle, 30) 等等.
3 号坑: [1..100][1..100][1..100], 这里两个点的用法, 必须配合方括号.
4 号坑: 有些地方为了说明元素的有序性, 使用⟨x,y⟩\langle x, y \rangle⟨x,y⟩ 而不是(x,y)(x, y)(x,y) 来表示笛卡尔积的元素. 表示空间 Rn\mathbb{R}^nRn 的向量时也可能用 [x1,…,xn][x_1, \dots, x_n][x1,…,xn] 代替 (x1,…,xn)(x_1, \dots, x_n)(x1,…,xn). 这都没问题, 反正别用花括号. 另外, 注意在 Latex 中这里使用的是 \langle 和 \rangle, 而不是 < 和 >. 后者的效果为 <x,y><x, y><x,y>, 不专业哈哈.
5 号坑: 笛卡尔积不满足结合律. 如 A={a}\mathbf{A} = \{a\}A={a}, B={b}\mathbf{B} = \{b\}B={b}, C={c}\mathbf{C} = \{c\}C={c}. 那么 A×B={(a,b)}\mathbf{A} \times \mathbf{B} = \{(a, b)\}A×B={(a,b)}, (A×B)×C=((a,b),c)(\mathbf{A} \times \mathbf{B}) \times \mathbf{C} = ((a, b), c)(A×B)×C=((a,b),c), 同理 A×(B×C)=(a,(b,c))\mathbf{A} \times (\mathbf{B} \times \mathbf{C}) = (a, (b, c))A×(B×C)=(a,(b,c)). 它们只是在被简记为 (a,b,c)(a, b, c)(a,b,c) 时, 看起来相同而已. 惊喜不惊喜? 可怕不可怕?

根据高中阶段获得的排列组合知识可知 ∣C×S×W∣=∣C∣×∣S∣×∣W∣=3×3×100=900|\mathbf{C} \times \mathbf{S} \times \mathbf{W}| = |\mathbf{C}| \times |\mathbf{S}| \times |\mathbf{W}| = 3 \times 3 \times 100 = 900∣C×S×W∣=∣C∣×∣S∣×∣W∣=3×3×100=900. 相应规律对于任何笛卡尔积都成立.

这种笛卡尔积在机器学习中最为常见, 可以完美地表示混合类型的数据. 任何实例都可以用这种元素描述, 但反过来, 并非所有的元素都对应于数据集中的一个实例. 以本例来说, 这个笛卡尔积的元素个数 (即基数) 为 900900900, 但数据集中通常不会有 900 个元素. 换言之, 数据不会填满整个空间, 甚至通常在这个空间内是非常稀疏的. 找出数据在空间中的分布规律, 这也是数据挖掘的基本意义.

这里又涉及了一个名字: 分布 (distribution), 它是概率方面的知识, 本贴不进一步讨论.

在说到一个数据集的时候，有三种表示法, 本节描述前两种:
a) 矩阵表示法.
当各个属性都为实型值时, 数据集可表示为 D∈Rn×m\mathbf{D} \in \mathbb{R}^{n \times m}D∈Rn×m, 它表示每个实际的数据集, 都是 n×mn \times mn×m 维空间的一个点而已. 如果记 D=(x1,x2,…,xn)T\mathbf{D} = (\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n)^{\mathrm{T}}D=(x1,x2,…,xn)T, 则 xi∈Rm\mathbf{x}_i \in \mathbb{R}^mxi∈Rm.
b) 集合与向量混合法
D={x1,x2,…,xn}\mathbf{D} = \{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n\}D={x1,x2,…,xn}, 其中 xi∈Rm\mathbf{x}_i \in \mathbb{R}^mxi∈Rm.
优缺点对比:
i) 集合与向量混合法中, 元素可以随意交换顺序, 这与现实数据的独立性一致;
ii) 集合与向量混合法中, 不允许两个元素相同, 这与现实情况不一致;
iii) 矩阵表示法可以支持矩阵的相乘, 易于表示加权等操作, 用于神经网络, 线性回归时方便.
6 号坑: 多数文献用一个行向量表示一个对象, 但机器学习中, 经常用一个列向量. 这种情况下, 矩阵表示法中应使用 D=(x1,x2,…,xn)\mathbf{D} = (\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n)D=(x1,x2,…,xn), 即不需要转置符号 T\mathrm{T}T.
7 号坑: 矩阵转置是用 mathrm{T}, 为 transpose 的意思; 而不是 top, 符号为 ⊤\top⊤.

1.3 幂集

Definition 1.3 The power set of A\mathbf{A}A is given by
2A={B∣B⊆A}.2^\mathbf{A} = \{\mathbf{B} | \mathbf{B} \subseteq \mathbf{A}\}.2A={B∣B⊆A}.
例: A={1,2,3}\mathbf{A} = \{1, 2, 3\}A={1,2,3}, 2A={∅2^\mathbf{A} = \{\emptyset2A={∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}}. 因此, 幂集是的每个元素都是一个集合. 另外, ∣2A∣=2∣A∣=23=8|2^\mathbf{A}| = 2^{|\mathbf{A}|} = 2^3 = 8∣2A∣=2∣A∣=23=8. 这个定理还是可以使用高中排列组合知识证明.
幂集不仅限于有穷集，对于任意无穷集也有效.
8 号坑: 为了理解集合的元素可以是集合这件事, 有一个直观的方法. 想像集合就是一个塑料袋, 里面放若干塑料袋当然没毛病. 关于这个事情还有个头疼的问题: 所有集合的集合, 是否包含它自己? 这个又不关我们计算机界啥事儿.
9 号坑: 有时 B⊆A\mathbf{B} \subseteq \mathbf{A}B⊆A 可以直接表达我们的需求. 但有时必须用到幂集. 例如: 信息增益函数 f:2A×A→Rf: 2^\mathbf{A} \times \mathbf{A} \to \mathbb{R}f:2A×A→R 的两个参数, 依次是已经选择的属性子集 {1,2}\{1, 2\}{1,2}和一个将要选择的属性 333. 即: 对于任意 B∈2A\mathbf{B} \in 2^\bm{A}B∈2A 与 a∈Aa \in \mathbf{A}a∈A, 都可获得唯一的信息增益值.

2. 二元关系

动机: 日常生活中, 经常使用关系一词, 如夫妻关系, 萌宠关系. 前者是人与人之间的关系, 后面是人与动物之间的关系.
Definition 3. Let A\mathbf{A}A and B\mathbf{B}B be two sets. Any R⊆A×B\mathbf{R} \subseteq \mathbf{A} \times \mathbf{B}R⊆A×B is a binray relation.
从定义来看, 关系非常简单. 理解了笛卡尔积就很容易理解它. 令 A=B=R\mathbf{A} = \mathbf{B} = \mathbb{R}A=B=R, 现在来看我们常见的几个二元关系.
等于:={(x,y)∈R2∣x=y}等于 := \{(x, y) \in \mathbb{R}^2| x = y\}等于:={(x,y)∈R2∣x=y}
小于:={(x,y)∈R2∣x<y}小于 := \{(x, y) \in \mathbb{R}^2| x < y\}小于:={(x,y)∈R2∣x<y}
这里 :=:=:= 读作 “定义为”。
在平面直角坐标系中, 等于关系就是 45 度方向的一条线; 小于关系就是这条线的左上部分 (不包括它).
10 号坑: 关系的本质居然是集合, 从数学上来看简直完美, 初学者理解起来可能稍微有点不适.
讨论: 三元关系、四元关系虽然不常用, 但定义起来也是很方便的. 例如, {(x,y,z)∈R3∣x2+y2+z2=1}\{(x, y, z) \in \mathbb{R}^3| x^2 + y^2 + z^2 = 1\}{(x,y,z)∈R3∣x2+y2+z2=1}.

3. 函数

动机: 为了讨论输入至输出的映射, 如: a) 牛吃的是草, 挤出来的是奶; b) 给定任意一个实数, 获得其绝对值, 我们需要引入函数.
函数有定义域和值域, 在声明一个函数的时候应该给出. 给个机器学习的例子吧.
Definition 1.4 Let V1,…,Vm\mathbf{V}_1, \dots, \mathbf{V}_mV1,…,Vm be the domain of conditional attribute a1,…,ama_1, \dots, a_ma1,…,am, respectively, and L\mathbf{L}L be the set of classes. A classifier is a function f:V1×⋯×Vm→Lf: \mathbf{V_1} \times \dots \times \mathbf{V_m} \to \mathbf{L}f:V1×⋯×Vm→L.
几点注意:
a) 函数的定义域、值域都是集合. 定义域可以是最基本的集合如 R\mathbb{R}R, 也可以是笛卡尔集, 如 Definition 4 所示, 甚至该定义中的单个属性的定义域也可以是幂集.
b) 对于函数定义域上的每个点, 均在值域中有一个唯一的点与之对之. 反之不然. 因此, 函数的逆函数不一定存在. 如果逆函数存在, 就是一一映射了.
11 号坑: 函数是否是关系呢? 令函数的定义域为 D\mathbf{D}D, 值域为 V\mathbf{V}V, 可以认为, 函数为 D×V\mathbf{D} \times \mathbf{V}D×V 的子集, 也就是一种特殊的关系. 如 x2+y2=1x^2 + y^2 = 1x2+y2=1, 它是二维平面 R2\mathbb{R}^2R2 中的一个单位圆, 为若干平面中的元素 (点) 所构成, 因此为 R\mathbb{R}R 上 (即定义域、值域均为 R\mathbb{R}R) 的二元关系. 但它不是一个函数, y=1−x2y = \sqrt{1 - x^2}y=1−x2 就既是函数, 也是二元关系.
习题 1.3: 多标签学习中, 输出为一个向量，相应的学习器算不算函数呢?

4. 元组

动机: 如何对我们学院建模呢? TA 至少包括: 教职工集合, 院长, 书记,学生集合, 教室集合, 实验室集合. 注意院长、书记还是教职工集合的元素. 这种复杂的模型, 必须由元组闪亮登场了.
图 (Graph) 是最经典的元组.
Definition 1.5 A graph is a tuple G=(V,E)G = (\mathbf{V}, \mathbf{E})G=(V,E), where V={v1,…,vn}\mathbf{V} = \{v_1, \dots, v_n\}V={v1,…,vn} is the set of nodes, and E⊆V×V\mathbf{E} \subseteq \mathbf{V} \times \mathbf{V}E⊆V×V is the set of edges.
12 号坑: 元组用小括号, 向量既可以用小括号，也可以用中括号. 大括号是集合专用.
元组的各个部分, 既可以是一个集合, 也可以是一个基本元素. 说“图是一个二元组”, 就相当于"一个图由两个因素确定".

思考: 无向图和有向图, 哪个更特殊? Definition 5 定义的是有向图还是无向图? 如何分别定义它们, 以及带权图? 答案在稍后给出.

从数据结构的角度, 元组就是抽象数据类型; 从面向程序设计的角度, 元组就是一个类. 当我们定义一个类的时候, 它有 kkk 个成员变量, 就是 kkk 元组. 各个成员变量可以取不同的定义域, 可以是数值、字符、集合，甚至元组.
Definition 1.6 A decision table is a 5-tuple S=(U,C,D,V,f)S = (\mathbf{U}, \mathbf{C}, \mathbf{D}, \mathbf{V}, f)S=(U,C,D,V,f), where U={x1,…,xn}\mathbf{U} = \{x_1, \dots, x_n\}U={x1,…,xn} is the set of instances, C={a1,…,am}\mathbf{C} = \{a_1, \dots, a_m\}C={a1,…,am} is the set of conditional attributes, D={d1,…,dp}\mathbf{D} = \{d_1, \dots, d_p\}D={d1,…,dp} is the set of decisions, V=∪a∈C∪DVa\mathbf{V} = \cup_{a \in \mathbf{C} \cup \bm{D}} {V}_aV=∪a∈C∪DVa is set of values, and f:U×(C∪D)→Vf: \mathbf{U} \times (\mathbf{C} \cup \mathbf{D}) \to \mathbf{V}f:U×(C∪D)→V is the value mapping function.
在这里, f(x3,a5)f(x_3, a_5)f(x3,a5) 表示对象 x3x_3x3 在属性 a5a_5a5 上的取值.

讨论: 这里说到 U={x1,…,xn}\mathbf{U} = \{x_1, \dots, x_n\}U={x1,…,xn} 的时候, 用的是列举法, 关注的是外延, 没有语义, 可视为 U={1,…,n}\mathbf{U} = \{1, \dots, n\}U={1,…,n}. C\mathbf{C}C 与 D\bm{D}D 同理. 只有 fff 将 U\mathbf{U}U, C\mathbf{C}C, D\mathbf{D}D, V\mathbf{V}V 联系了起来.

再来定义一下数据结构中的树.
Definition 1.7 A tree is a triple T=(V,r,p)T = (\mathbf{V}, r, p)T=(V,r,p), where V={v1,…,vn}\mathbf{V} = \{v_1, \dots, v_n\}V={v1,…,vn} is the set of nodes, r∈Vr \in \mathbf{V}r∈V is the root, and p:V∖{r}→Vp: \mathbf{V} \setminus \{r\} \to \mathbf{V}p:V∖{r}→V is the parent function satisfying
a) ∀\forall∀ k≥1k \geq 1k≥1, pk(v)≠vp^k(v) \neq vpk(v)=v, and
b) ∀\forall∀ v∈V∖{r}v \in \mathbf{V} \setminus \{r\}v∈V∖{r}, ∃!\exists!∃! k≥1k \geq 1k≥1, st. pk(v)=rp^k(v) = rpk(v)=r .

这个定义是我写的, 思考了 10 分钟, 又在学生们的帮助下改了几版.
几点说明:
a) ∃!\exists!∃! 表示 “存在唯一”.
b) 条件 a) 表示没有环, 条件 b) 表示连通到根节点.
c) p1(v)=p(v)p^1(v) = p(v)p1(v)=p(v), pk(v)=p(pk−1(v))p^k(v) = p(p^{k-1}(v))pk(v)=p(pk−1(v)). 数学上一般这样约定, 所以在定义里面没写.
d) p(r)p(r)p(r) 是没有定义的, 所以 pkp^kpk 的 kkk 值有上限, 由于不存在歧义, 也没写.

习题 1.4: 元组只能表达对象的数据部分, 还是可以完整地表达 (既包括数据, 也包括方法/函数)? 用一个具体的程序来说明.

习题 1.5: 定义二叉树.

现在来揭晓前面的思考题. Definition 5 定义的是有向图.

Definition 1.8 A directed graph is a tuple Gd=(V,E)G_d = (\mathbf{V}, \mathbf{E})Gd=(V,E), where V={v1,…,vn}\mathbf{V} = \{v_1, \dots, v_n\}V={v1,…,vn} is the set of nodes, and E⊆V×V\mathbf{E} \subseteq \mathbf{V} \times \mathbf{V}E⊆V×V is the set of edges.

Definition 1.9 An undirected graph is a tuple Gu=(V,E)G_u = (\mathbf{V}, \mathbf{E})Gu=(V,E), where V={v1,…,vn}\mathbf{V} = \{v_1, \dots, v_n\}V={v1,…,vn} is the set of nodes, E⊆V×V\mathbf{E} \subseteq \mathbf{V} \times \bm{V}E⊆V×V is the set of edges, and ⟨vi,vj⟩∈E\langle v_i, v_j \rangle \in \mathbf{E}⟨vi,vj⟩∈E iff ⟨vj,vi⟩∈E\langle v_j, v_i \rangle \in \mathbf{E}⟨vj,vi⟩∈E.
几点说明:
a) iff 是 if and only if (当且仅当) 的缩写. 在数学论文里面没有任何问题, 但计算机领域的审稿人有些居然看不懂, 还非得不让你缩写.
b) 这里的 viv_ivi, vjv_jvj 指的是任意两个顶点, 既然 ⟨vi,vj⟩∈E\langle v_i, v_j \rangle \in \mathbf{E}⟨vi,vj⟩∈E, 根据上文肯定就有 vi,vj∈Vv_i, v_j \in \mathbf{V}vi,vj∈V, 因此不需要再罗嗦.
c) 比较 Definition 8 与 9, 易知后者多了条件, 因此比前者更特殊.
d) 由于无向图的边都是成对的, 人们通常用圆括号来简捷地表示, 即 (v3,v5)(v_3, v_5)(v3,v5) 相当于 ⟨v3,v5⟩\langle v_3, v_5 \rangle⟨v3,v5⟩ 与 ⟨v5,v3⟩\langle v_5, v_3 \rangle⟨v5,v3⟩. 但注意这仅仅是简记, 从数学上讲, E\mathbf{E}E 中有相应的两个元素; 从图的邻接矩阵上看, 也有两个相应位置的值为1.

Definition 1.10 A weighted directed graph is a tuple Gw=(V,w)G_w = (\mathbf{V}, w)Gw=(V,w), where V={v1,…,vn}\mathbf{V} = \{v_1, \dots, v_n\}V={v1,…,vn} is the set of nodes, and w:V×V→R+∪{0}w: \mathbf{V} \times \mathbf{V} \to \mathbb{R}^+ \cup \{0\}w:V×V→R+∪{0} is the edge weight function.
几点说明:
a) R+\mathbb{R}^+R+ 表示正实数, 不包括 0, 所以只有把 0 加进来, 表示非负实数.
b) 如果限定 www 的函数值仅能取 0 或 1, 即: w:V×V→{0,1}w: \mathbf{V} \times \mathbf{V} \to \{0, 1\}w:V×V→{0,1}, 带权有向图就退化为有向图.
c) 比较 Definition 8 与 10, 进一步理解函数与关系的内在联系.

习题 1.6: 定义带权无向图.

5. 延伸阅读

蓝子娃娃的博客

未完待续. 静等意见.

机器学习的数学基础1：集合、关系、元组相关推荐

机器学习的数学基础矩阵论与概率论
文章目录机器学习的数学基础 1.1 标量.向量.矩阵.张量之间的联系 1.2 张量与矩阵的区别? 1.3 矩阵和向量相乘结果 1.4 向量和矩阵的范数归纳 1.5 如何判断一个矩阵为正定? 1.6 ...
【机器学习的数学基础】（二）线性代数(Linear Algebra)（中）
文章目录 2 线性代数(Linear Algebra)(中) 2.4 向量空间 2.4.1 群 2.4.2 向量空间 2.4.3 向量子空间 2.5 线性独立 2.6 基和秩 2.6.1 生成集和基 ...
【机器学习的数学基础】（九）向量微积分(Vector Calculus)(上)
文章目录 5 向量微积分(Vector Calculus) 5.1 单变量函数的微分 5.1.1 泰勒级数 5.1.2 微分法则 5.2 偏微分与梯度 5.2.1 偏微分的基本法则 5.2.2 链式法 ...
【机器学习的数学基础】（七）矩阵分解(Matrix Decomposition)(中)
文章目录 4 矩阵分解(Matrix Decomposition)(中) 4.3 Cholesky分解 4.4 特征分解与对角化 4.5 奇异值分解 4.5.1 几何图解SVD 4.5.2 SVD的构 ...
【机器学习｜数学基础】Mathematics for Machine Learning系列之图论（10）：匹配基本定理
目录前言往期文章 5.2 匹配基本定理对称差 5.2.1 Berge定理定理 5.1 5.2.2 Hall定理定义 5.4 定理 5.2 推论5.2.1 推论 5.2.2( t t t条件) ...
【机器学习的数学基础】（六）矩阵分解(Matrix Decomposition)(上)
文章目录 4 矩阵分解(Matrix Decompositions)(上) 4.1 行列式与迹 4.2 特征值和特征向量 4 矩阵分解(Matrix Decompositions)(上) 在第2章和第 ...
机器学习理论引导电子版_机器学习理论篇1：机器学习的数学基础（2）
本节主要就是讲述的机器学习的数学基础,提到数学基础,可能一眼就会是满眼的枯燥.没意思,但是成就英雄的路上注定了孤独,要想要真正的在学术上有所突破就必须挨得住寂寞,受得住孤独,才能真正的走进熟悉直到完全 ...
矩阵迹的性质_机器学习的数学基础之矩阵范数 — 我的长度我做主？
热点追踪 / 数学基础 / 编程基础 / 实战技术字数: 3925 作者: 小组成员机器学习与数学出品 0x01.矩阵的诞生在数学史上,矩阵的概念提出得比较晚,但可以朔源到两千多年前就提出的线性 ...
【机器学习｜数学基础】Mathematics for Machine Learning系列之图论（8）：割边、割集、割点
文章目录前言系列文章 3.2 割边.割集.割点 3.2.1 割边与割集定理3.4 推论3.4 定理3.5 补充知识定义3.3:割集定义3.4 定理3.6 生成树与割集的对比 3.2.2 割点 ...

机器学习的数学基础1：集合、关系、元组

目录