系列12 变分推断 1-Background

2022年10月

Posted by franztao on November 30, 2019

这一小节的主要目的是清楚我们为什么要使用Variational Inference,表达一下Inference到底有什么用。机器学习,我们可以从频率角度和贝叶斯角度两个角度来看,其中频率角度可以被解释为优化问题,贝叶斯角度可以被解释为积分问题。

优化问题

为什么说频率派角度的分析是一个优化问题呢?我们从回归和SVM两个例子上进行分析。我们将数据集描述为:D=(xi,yi)Ni=1,xiRp,yiR

回归

回归模型可以被我们定义为:f(w)=wTx,其中loss function被定义为:$L(w) = \sum_{i=1}^N   w^Tx_i - y_i   ^2\hat{w} = argmin\ L(w)$。这是个无约束优化问题。

求解的方法可以分成两种,数值解和解析解。解析解的解法为:

L(w)w=0w=(XTX)1XTY

其中,X是一个n×p的矩阵。而数值解中,我们常用的是GD算法,也就是Gradient Descent,或者Stochastic Gradient descent (SGD)。

SVM (Classification)

SVM的模型可以被我们表述为:f(w)=sign(wT+b)。loss function被我们定义为:

{min 12wTws.t.yi(wTxi+b)1

很显然这是一个有约束的Convex优化问题。常用的解决条件为,QP方法和Lagrange 对偶。

EM算法

我们的优化目标为:

ˆθ=argmax logp(x|θ)

优化的迭代算法为:

θ(t+1)=argmaxθzlogp(X,Z|θ)p(Z|X,θ(t))dz

积分问题

从贝叶斯的角度来说,这就是一个积分问题,为什么呢?我们看看Bayes公式的表达:

p(θ|x)=p(x|θ)p(θ)p(x)
其中,$p(\theta x)p(x \theta)p(\theta)p(x) = \int_{\theta}p(x \theta)p(\theta)d\thetap(\theta x)p(\theta x)X(N)\widetilde{X}p(\widetilde{X} X)$:
p(˜X|X)=θp(˜X,θ|X)dθ=θp(˜X|θ)p(θ|X)dθ=Eθ|X[p(ˆx|θ)]
其中$p(\theta X)$为一个后验分布,那么我们关注的重点问题就是求这个积分。

Inference

Inference的方法可以被我们分为精确推断和近似推断,近似推断可以被我们分为确定性推断和随机近似。确定性推断包括Variational Inference (VI);随机近似包括MCMC,MH,Gibbs Distribution等。