在前面的章节中，我们已经基本介绍了Markov Chain Monte Carlo Sampling的基本概念，基本思路和主要方法。那么这一小节中，我们将主要来介绍一下，什么是采样？我们为什么而采样？什么样的样本是好的样本？以及我们采样中主要会遇到哪些困难？

采样的动机}

这一小节的目的就是我们要知道什么是采样的动机，我们为什么而采样？

首先第一点很简单，采样本身就是发出常见的任务，我们机器学习中经常需要进行采样来完成各种各样的任务。如果从一个$P(X)$中采出一堆样本。
求和求积分。包括大名鼎鼎的Monte Carlo算法。我们求$P(X)$主要是为了求在$P(X)$概率分布下的一个相关函数的期望，也就是：

$\begin{equation} \int P(x)f(x)dx = \mathbb{E}_{P(X)}[f(X)] \approx \frac{1}{N} \sum_{i=1}^N f(x^{(i)}) \end{equation}$ 而我们是通过采样来得到$P(X) \sim { x^{(1)},x^{(2)},\cdots, x^{(N)} }$样本点。

什么样的是好样本}

既然，我们知道了采样的目的和动机，下一个问题就自然是，同样是采样，什么样的样本就是好样本呢？或者说是采样的效率更高一些。

首先样本的分布肯定是要趋向于原始的目标分布吧，也就是说样本要趋向于高概率选择区域。或者是说，采出来的样本出现的概率和实际的目标分布的概率保持一致。
样本和样本之间是相互独立的。这个就没有那么直观了。大家想一想就知道了，如果我采出来的一堆样本之间都差不多，那么就算采出来了趋向于高概率选择区域的样本，那采样效率太低了，样本中反映的信息量太有限了。

实际采样中的困难}

实际采样中，采样时困难的，为什么呢？我们这里主要介绍两点：

\textbf{Partation function is intractable.} 我们的后验分布往往被写成$P(X) = \frac{1}{Z} \hat{P}(X)$，上面这个$\hat{P}(X)$都比较好求，就是等于 Likelihood $\times$ Prior。而$Z$就是我们要求的归一化常数，它非常的难以计算，$Z = \int \hat{P}(X) dX$，这几乎就是不可计算的。所以，有很多采样方法就是想要跳过求$P(X)$的过程，来从一个近似的分布中进行采样，当然这个近似的分布采样要比原分布简单。比如：Rejection Sampling和Importance Sampling。
\textbf{The curse of high dimension}. 如果样本空间$\mathcal{X} \in \mathbb{R}^p$，每个维度都有$K$个状态的话。那么总的样本空间就有$K^p$的状态。要知道那个状态的概率高，就必须要遍历整个样本空间，不然就不知道哪个样本的概率高，如果状态的数量是这样指数型增长的话，全看一遍之后进行采样时不可能的。所以，直接采样的方法是不可行的。

采样方法}

Rejection Sampling和Importance Sampling，都是借助一个$Q(x)$去逼近目标分布$P(x)$，通过从$Q(x)$中进行采样来达到在$P(x)$中采样的目的，而且在$Q(x)$中采样比较简单。当时如果$Q(x)$和$P(x)$直接的差距太大的话，采样效率会变得很低。

而MCMC方法，我们主要介绍了MH Sampling和Gibbs Sampling，我们主要是通过构建一个马氏链去逼近目标分布，具体的描述将在下一节中展开描述。

FEATURED TAGS

Linear Regression Math Basis Exponential Family Distribution Classification Bayes Background Inference Conclusion Feedforward Neural Network Support Vector Machine Margin and Solution Weak Duality Kernel Method of Function Probability Graph Markov Variational Algorithm Belief Process Introduction Gaussian Expectation Maximization Mixture Model Chain Monte Carlo Sampling Hidden Learning Kalman Filter Conditional Random Field Boltzmann Deep Generative Adversarial Reinforcement Blog docker cuda Agent LLM multimodel RAG 文档智能 RL 多模态

Markov_Chain_Monte_Carlo_05_Sampling

2022年10月

采样的动机}

什么样的是好样本}

实际采样中的困难}

采样方法}

CATALOG

FEATURED TAGS

FRIENDS