这一小节的主要目的是清楚我们为什么要使用Variational Inference,表达一下Inference到底有什么用。机器学习,我们可以从频率角度和贝叶斯角度两个角度来看,其中频率角度可以被解释为优化问题,贝叶斯角度可以被解释为积分问题。
优化问题
为什么说频率派角度的分析是一个优化问题呢?我们从回归和SVM两个例子上进行分析。我们将数据集描述为:D=(xi,yi)Ni=1,xi∈Rp,yi∈R。
回归
回归模型可以被我们定义为:f(w)=wTx,其中loss function被定义为:$L(w) = \sum_{i=1}^N | w^Tx_i - y_i | ^2,优化可以表达为\hat{w} = argmin\ L(w)$。这是个无约束优化问题。 |
求解的方法可以分成两种,数值解和解析解。解析解的解法为:
∂L(w)∂w=0⇒w∗=(XTX)−1XTY其中,X是一个n×p的矩阵。而数值解中,我们常用的是GD算法,也就是Gradient Descent,或者Stochastic Gradient descent (SGD)。
SVM (Classification)
SVM的模型可以被我们表述为:f(w)=sign(wT+b)。loss function被我们定义为:
{min 12wTws.t.yi(wTxi+b)≥1很显然这是一个有约束的Convex优化问题。常用的解决条件为,QP方法和Lagrange 对偶。
EM算法
我们的优化目标为:
ˆθ=argmax logp(x|θ)优化的迭代算法为:
θ(t+1)=argmaxθ∫zlogp(X,Z|θ)⋅p(Z|X,θ(t))dz积分问题
从贝叶斯的角度来说,这就是一个积分问题,为什么呢?我们看看Bayes公式的表达:
p(θ|x)=p(x|θ)p(θ)p(x)其中,$p(\theta | x)称为后验公式,p(x | \theta)称为似然函数,p(\theta)称为先验分布,并且p(x) = \int_{\theta}p(x | \theta)p(\theta)d\theta。什么是推断呢?通俗的说就是求解后验分布p(\theta | x)。而p(\theta | x)的计算在高维空间的时候非常的复杂,我们通常不能直接精确的求得,这是就需要采用方法来求一个近似的解。而贝叶斯的方法往往需要我们解决一个贝叶斯决策的问题,也就是根据数据集X(N个样本)。我们用数学的语言来表述也就是,\widetilde{X}为新的样本,求p(\widetilde{X} | X)$: |
其中$p(\theta | X)$为一个后验分布,那么我们关注的重点问题就是求这个积分。 |
Inference
Inference的方法可以被我们分为精确推断和近似推断,近似推断可以被我们分为确定性推断和随机近似。确定性推断包括Variational Inference (VI);随机近似包括MCMC,MH,Gibbs Distribution等。
FEATURED TAGS
Linear
Regression
Math
Basis
Exponential
Family
Distribution
Classification
Bayes
Background
Inference
Conclusion
Feedforward
Neural
Network
Support
Vector
Machine
Margin
and
Solution
Weak
Duality
Kernel
Method
of
Function
Probability
Graph
Markov
Variational
Algorithm
Belief
Process
Introduction
Gaussian
Expectation
Maximization
Mixture
Model
Chain
Monte
Carlo
Sampling
Hidden
Learning
Kalman
Filter
Conditional
Random
Field
Boltzmann
Deep
Generative
Adversarial
Reinforcement
Blog
docker
cuda
LLM
multimodel
文档智能