franztao

Talk is cheap, show me the code.

Probability_Graph_08_Belief_Propagation

2022年10月

在上一小节中,我们已经介绍了变量消除(Variable Elimination),Variable Elimination的思想是Probability Graph中的核心思想之一。上一节中我们就已经介绍了,这实际上就是乘法对加法的分配律。但是,Variable Elimination中有很多的问题,比如重复计算和最优计算次序不好确定的问题。所以,我们这一节来介绍Belief Propaga...

Probability_Graph_07_Variable_Elimination

2022年10月

在上一小节中,我们简单的介绍了推断的背景和分类,我们知道了大致有哪些推断的方法。推断的任务可以被我们介绍为:给定已知的$p(x) = (x_1,x_2,\cdots,x_p)$,我们需要求的有三个: 边缘概率:$p(x_i) = \sum_{x_1,\cdots,x_{i-1},x_{i+1},\cdots,x_p}p(x_1,x_2,\cdots,x_p)$。 ...

系列12 变分推断4-Stochastic Gradient Variational Inference

2022年10月

在上一小节中,我们分析了Mean Field Theory Variational Inference,通过平均假设来得到变分推断的理论,是一种classical VI,我们可以将其看成Coordinate Ascend。而另一种方法是Stochastic Gradient Variational Inference (SGVI)。 对于隐变量参数$z$和数据...

系列12 变分推断3-Algorithm Solution

2022年10月

在上一小节中,我们介绍了Mean Field Theory Variational Inference的方法。在这里我需要进一步做一些说明, $z_i$表示的不是一个数,而是一个数据维度的集合,它表示的不是一个维度,而是一个类似的最大团,也就是多个维度凑在一起。在上一节中,我们得出: \[\begin{equation} \log q_j(z_j) = \mathbf{E}_{\p...

系列12 变分推断2-Algorithm

2022年10月

我们将$X$:Observed data;$Z$:Latent Variable + Parameters。那么$(X,Z)$为complete data。根据我们的贝叶斯分布公式,我们所要求的后验分布为: \[\begin{equation} p(Z|X) = \frac{p(X,Z)}{p(X|Z)} \end{equation}\] 进行一些简单变换,我们可以得到: \[...

系列12 变分推断 1-Background

2022年10月

这一小节的主要目的是清楚我们为什么要使用Variational Inference,表达一下Inference到底有什么用。机器学习,我们可以从频率角度和贝叶斯角度两个角度来看,其中频率角度可以被解释为优化问题,贝叶斯角度可以被解释为积分问题。 优化问题 为什么说频率派角度的分析是一个优化问题呢?我们从回归和SVM两个例子上进行分析。我们将数据集描述为:$D = { (x_i,y_i) ...

Probability_Graph_06_Inference_Background

2022年10月

推断(Inference)这个词,对于有一定机器学习基础的同学来说,一定是听说过,这也是贝叶斯方法中一个非常重要的理论性研究。那么什么是推断呢?推断说白了,就是求概率。比如,对于一个联合概率密度函数$p(x)=p(x_1,x_2,\cdots,x_p)$。我们需要求的有哪些呢? 边缘概率:$p(x_i) = \sum_{x_1}\cdots\sum_{x_{i-1}}\cd...

Probability_Graph_05_Markov_Network

2022年10月

上一小节中,我们分析了有向图Bayesian Network,得到了因子分解法,$p(x) = \prod_{i=1}^N p(x_i x_{pa(i)})$。虽然,有向图中可以方便直观的表达条件独立性,但是它也有它的局限性。也就是我们提到的对于Head to Head的结构来说,当中间节点被观察到的时候,反而是两端的节点是相关的。这违反了条件独立性...

Probability_Graph_04_Example

2022年10月

上一节中,我们讲的是模型通用的一些概念,这一节开始,我们要讲一讲贝叶斯网络具体的例子。我们从单一,混合,时间和连续,四个角度来看看Bayesian Network,这个四个方法是一步一步越来越难的。 单一} 单一最典型的代表就是Naive Bayesian,这是一种classification的模型。对于$p(x|y)$的问题来说,假设各维度之间相互独立,于是就有: \[\begin{e...

Probability_Graph_03_D-Separation

2022年10月

上一小节中,我们已经大致介绍了概率图之间的三种基本拓扑结构。下面我们来介绍一下,这三种拓扑结构的运用,以及如何扩展到我们的贝叶斯模型中。 D-separation} 假设我们有三个集合,$X_A,X_B,X_C$,这三个集合都是可观测的,并且满足$X_A\bot X_C|X_B$。那我们想想,如果有一些节点连成的拓扑关系图,如果一个节点$a\in X_A,c\in X_C$,那么如果$a$...