franztao

Talk is cheap, show me the code.

系列12 变分推断 1-Background

2022年10月

这一小节的主要目的是清楚我们为什么要使用Variational Inference,表达一下Inference到底有什么用。机器学习,我们可以从频率角度和贝叶斯角度两个角度来看,其中频率角度可以被解释为优化问题,贝叶斯角度可以被解释为积分问题。 优化问题 为什么说频率派角度的分析是一个优化问题呢?我们从回归和SVM两个例子上进行分析。我们将数据集描述为:$D = { (x_i,y_i) ...

Probability_Graph_06_Inference_Background

2022年10月

推断(Inference)这个词,对于有一定机器学习基础的同学来说,一定是听说过,这也是贝叶斯方法中一个非常重要的理论性研究。那么什么是推断呢?推断说白了,就是求概率。比如,对于一个联合概率密度函数$p(x)=p(x_1,x_2,\cdots,x_p)$。我们需要求的有哪些呢? 边缘概率:$p(x_i) = \sum_{x_1}\cdots\sum_{x_{i-1}}\cd...

Probability_Graph_05_Markov_Network

2022年10月

上一小节中,我们分析了有向图Bayesian Network,得到了因子分解法,$p(x) = \prod_{i=1}^N p(x_i x_{pa(i)})$。虽然,有向图中可以方便直观的表达条件独立性,但是它也有它的局限性。也就是我们提到的对于Head to Head的结构来说,当中间节点被观察到的时候,反而是两端的节点是相关的。这违反了条件独立性...

Probability_Graph_04_Example

2022年10月

上一节中,我们讲的是模型通用的一些概念,这一节开始,我们要讲一讲贝叶斯网络具体的例子。我们从单一,混合,时间和连续,四个角度来看看Bayesian Network,这个四个方法是一步一步越来越难的。 单一} 单一最典型的代表就是Naive Bayesian,这是一种classification的模型。对于$p(x|y)$的问题来说,假设各维度之间相互独立,于是就有: \[\begin{e...

Probability_Graph_03_D-Separation

2022年10月

上一小节中,我们已经大致介绍了概率图之间的三种基本拓扑结构。下面我们来介绍一下,这三种拓扑结构的运用,以及如何扩展到我们的贝叶斯模型中。 D-separation} 假设我们有三个集合,$X_A,X_B,X_C$,这三个集合都是可观测的,并且满足$X_A\bot X_C|X_B$。那我们想想,如果有一些节点连成的拓扑关系图,如果一个节点$a\in X_A,c\in X_C$,那么如果$a$...

Probability_Graph_02_Bayesian_Network

2022年10月

概率图模型中,图是用来表达的,将概率嵌入到了图中之后,使得表达变得非常的清晰明了。在我们的联合概率计算中,出现了一些问题: \[\begin{equation} p(x_1,x_2,\cdots,x_N)=p(x_i)\prod_{i=1}^Np(x_i|x_{1:i-1}) \end{equation}\] 这样的计算维度太高了,所以我们引入了条件...

Probability_Graph_01_Background

2022年10月

机器学习的重要思想就是,对已有的数据进行分析,然后对未知数据来进行预判或者预测等。这里的图和我们之前学习的数据结构中的图有点不太一样,俗话说有图有真相,这里的图是将概率的特征引入到图中,方便我们进行直观分析。 概率的基本性质} 我们假设现在有一组高维随机变量,$p(x_1,x_2,\cdots,x_n)$,它有两个非常基本的概率,也就是条件概率和边缘概率。条件概率的描述为$p(x_i)$,...

Kernel_Method_03_Necessary_and_Sufficient_Conditions

2022年10月

在上一小节中,我们描述了正定核的两个定义,并且认为这两个定义之间是相互等价的。下面我们就要证明他们之间的等价性。 充分性证明} 大家注意到在上一节的描述中,我似乎没有谈到对称性,实际上是因为对称性的证明比较的简单。就没有做过多的解释,那么我重新描述一下我们需要证明的问题。 已知:$K(x,z) = <\phi(x),\phi(z)>$,证:Gram Matrix是半正定的,且$...

Kernel_Method_02_The_Definition_of_Positive_Kernel_Function

2022年10月

上一节中,我们已经讲了什么是核函数,也讲了什么是核技巧,以及核技巧存在的意义是什么。我们首先想想,上一小节我们提到的核函数的定义。 对于一个映射$K$,我们有两个输入空间$\mathcal{X}\times\mathcal{X},\mathcal{X}\in\mathbb{R}^p$,可以形成一个映射$\mathcal{X}\times \mathcal{X}\mapsto\mathbb{...

Kernel_Method_01_Background

2022年10月

在Support Vector Machine的章节中,我们已经分析了支持向量机前面“两宝”,也就是间隔和对偶,而第三宝,核技巧在这里我们需要抽出来将分析。其实,我最开始学习核的时候,真的是一脸懵逼,这玩意到底是个什么鬼?来龙去脉是什么?这这节有关于Kernel Method的背景介绍中,我想分析一下,我们为什么要使用核?以及怎么用核?来给大家一个直观的感受。 本小节主要从Kernel M...