这一小节的主要目的是清楚我们为什么要使用Variational Inference，表达一下Inference到底有什么用。机器学习，我们可以从频率角度和贝叶斯角度两个角度来看，其中频率角度可以被解释为优化问题，贝叶斯角度可以被解释为积分问题。

优化问题

为什么说频率派角度的分析是一个优化问题呢？我们从回归和SVM两个例子上进行分析。我们将数据集描述为：$D = { (x_i,y_i) }_{i=1}^N,x_i \in \mathbf{R}^p,y_i \in \mathbf{R}$。

回归

回归模型可以被我们定义为：$f(w) = w^Tx$，其中loss function被定义为：$L(w) = \sum_{i=1}^N

w^Tx_i - y_i

^2$，优化可以表达为$\hat{w} = argmin\ L(w)$。这是个无约束优化问题。

求解的方法可以分成两种，数值解和解析解。解析解的解法为：

\[\begin{equation} \frac{\partial L(w)}{\partial w} = 0 \Rightarrow w^{\ast} = (X^TX)^{-1}X^TY \end{equation}\]

其中，$X$是一个$n\times p$的矩阵。而数值解中，我们常用的是GD算法，也就是Gradient Descent，或者Stochastic Gradient descent (SGD)。

SVM (Classification)

SVM的模型可以被我们表述为：$f(w) = sign(w^T+b)$。loss function被我们定义为：

\[\begin{equation} \left\{ \begin{array}{ll} \min\ \frac{1}{2}w^Tw & \\ s.t. \quad y_i(w^Tx_i + b) \geq 1 & \\ \end{array} \right. \end{equation}\]

很显然这是一个有约束的Convex优化问题。常用的解决条件为，QP方法和Lagrange 对偶。

EM算法

我们的优化目标为：

\[\begin{equation} \hat{\theta} = argmax\ \log p(x|\theta) \end{equation}\]

优化的迭代算法为：

\[\begin{equation} \theta^{(t+1)} = argmax_{\theta}\int_{z} \log p(X,Z|\theta)\cdot p(Z|X,\theta^{(t)}) dz \end{equation}\]

积分问题

从贝叶斯的角度来说，这就是一个积分问题，为什么呢？我们看看Bayes公式的表达：

\[\begin{equation} p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)} \end{equation}\]

其中，$p(\theta

x)$称为后验公式，$p(x

\theta)$称为似然函数，$p(\theta)$称为先验分布，并且$p(x) = \int_{\theta}p(x

\theta)p(\theta)d\theta$。什么是推断呢？通俗的说就是求解后验分布$p(\theta

x)$。而$p(\theta

x)$的计算在高维空间的时候非常的复杂，我们通常不能直接精确的求得，这是就需要采用方法来求一个近似的解。而贝叶斯的方法往往需要我们解决一个贝叶斯决策的问题，也就是根据数据集$X$(N个样本)。我们用数学的语言来表述也就是，$\widetilde{X}$为新的样本，求$p(\widetilde{X}

X)$：

\[\begin{equation} \begin{split} p(\widetilde{X}|X) = & \int_{\theta} p(\widetilde{X},\theta|X) d\theta \\ = & \int_{\theta} p(\widetilde{X}|\theta)\cdot p(\theta|X)d\theta \\ = & \mathbf{E}_{\theta|X} [p(\hat{x}|\theta)] \end{split} \end{equation}\]

其中$p(\theta

X)$为一个后验分布，那么我们关注的重点问题就是求这个积分。

Inference

Inference的方法可以被我们分为精确推断和近似推断，近似推断可以被我们分为确定性推断和随机近似。确定性推断包括Variational Inference (VI)；随机近似包括MCMC，MH，Gibbs Distribution等。

FEATURED TAGS

Linear Regression Math Basis Exponential Family Distribution Classification Bayes Background Inference Conclusion Feedforward Neural Network Support Vector Machine Margin and Solution Weak Duality Kernel Method of Function Probability Graph Markov Variational Algorithm Belief Process Introduction Gaussian Expectation Maximization Mixture Model Chain Monte Carlo Sampling Hidden Learning Kalman Filter Conditional Random Field Boltzmann Deep Generative Adversarial Reinforcement Blog docker cuda Agent LLM multimodel RAG 文档智能

系列12 变分推断 1-Background

2022年10月