franztao

Talk is cheap, show me the code.

Hidden_Markov_Model_03_Learning

2022年10月

首先我们回顾一下,上一节讲的有关Evaluation的问题。Evaluation可以被我们描述为在已知模型$\lambda$的情况下,求观察序列的概率。也就是: \[\begin{equation} P(O|\lambda) = \sum_I P(O,I|\lambda) = \sum_{i_1}\cdots\sum_{i_T} \pi_{i_1} \prod_{t=2}^T a_...

Hidden_Markov_Model_02_Evaluation

2022年10月

Evaluation的问题可以被我们描述为:给定一个$\lambda$,如何求得$P(O \lambda)$。也就是在给定模型$\lambda$的情况下,求某个观测序列出现的概率。 模型求解} 对于$P(O|\lambda)$我们利用概率的基础知识进行化简可以得到: \[\begin{equation} P(O|\lam...

Hidden_Markov_Model_01_Background

2022年10月

机器学习大致可以分为两个派别,也就是频率派和贝叶斯派的方法,这个之前,我们都有过详细的说明。这里再大致的回顾一下。 频率派的思想就衍生出了统计学习方法,说白了统计学习方法的重点在于优化,找loss function。频率派的方法可以分成三步,1. 定义Model,比如$f(w) = w^Tx+b$;2. 寻找策略strategy,也就是定义Loss function;3. 求解,也就是优化...

Markov_Chain_Monte_Carlo_06_Method_of_MCMC

2022年10月

这一小节主要是对前面的补充,希望可以详细的介绍一下MCMC原理,将前面的知识点可以顺利的串起来。MCMC采样中,我们借助了一条马氏链,马氏链的性质,经过若干步以后会收敛到一个平稳分布。马尔可夫链的组成可以大致分成两个部分: 状态空间:${ 1,2,3,\cdots,k }$; 状态转移空间$Q=[Q_{ij}]_{k\times k}$。 马尔...

Markov_Chain_Monte_Carlo_05_Sampling

2022年10月

在前面的章节中,我们已经基本介绍了Markov Chain Monte Carlo Sampling的基本概念,基本思路和主要方法。那么这一小节中,我们将主要来介绍一下,什么是采样?我们为什么而采样?什么样的样本是好的样本?以及我们采样中主要会遇到哪些困难? 采样的动机} 这一小节的目的就是我们要知道什么是采样的动机,我们为什么而采样? 首先第一点很简单,采样本身就是发出常...

Markov_Chain_Monte_Carlo_04_Gibbs_Sampling

2022年10月

如果我们要向一个高维的分布$P(Z) = P(Z_1,Z_2,\cdots,Z_N)$中进行采样。那么我们怎么来进行采样呢?我们的思想就是一维一维的来,在对每一维进行采样的时候固定住其他的维度,这就是Gibbs Sampling。 我们首先规定一个$z_{-i}$是去除$z_i$后的序列,${ z_1,z_2,\cdots,z_{i-1},z_{i+1},\cdots,z_N }$。 A ...

Markov_Chain_Monte_Carlo_03_Metropolis_Hastings_Sampling

2022年10月

上一节中我们讲解了Detailed Balance,这是平稳分布的充分必要条件。Detailed Balance为: \[\begin{equation} \pi(x)P(x\mapsto x^\ast) = \pi(x^\ast)P(x^\ast \mapsto x) \end{equation}\] 这里的$P(x\mapsto x^\ast)$...

Markov_Chain_Monte_Carlo_02_Markov_Chain

2022年10月

在上一小节中,我们描述了三种采样方法,也就是概率分布采样法,拒绝采样法和重要性采样法。这三种采样方法在高维情况下的采样效率很低,所以我们需要另找方法。 基础概念介绍} 首先我们要明确什么是Random Process,也就是它研究的变量是一个随机变量的序列${x_t}$。通俗的说就是,随机过程就是一个序列,而这个序列中的每一个元素都是一个随机变量。 而Markov Chain就是一个特殊的...

Markov_Chain_Monte_Carlo_01_Sampling_Method

2022年10月

其实在之前的Inference Variational那一节中,我们讲到过一些有关于Markov Chain Monte Carlo (MCMC)的知识。也就是我们有一些数据$X$,看到这些数据$X$,并且有一些隐变量$Z$,我们给隐变量一些先验,根据观测数据来推后验知识,也就是$P(Z X)$。 但...

Gaussian_Mixture_Model_03_Expectation_Maximization

2022年10月

上一小节中,我们看到了使用极大似然估计的方法,我们根本就求不出最优参数$\theta$的解析解。所以,我们使用迭代的方法来求近似解。 EM算法的表达式,可以被我们写为: \[\begin{equation} \theta^{(t+1)} = \arg\max_\theta \underbrace{\mathbb{E}_{P(Z|X,\theta^{(t)})} \left[ \l...