Bayes_Linear_Classification_02_Inference

2022年10月

Posted by franztao on November 6, 2019

数据集D=(xi,yi)Ni=1,其中xiRpyiR。数据矩阵为:(这样可以保证每一行为一个数据点)

X=(x1,x2,,xN)T=(xT1xT2xTN)=(x11x12x1px21x32x2pxN1xN2xNp)N×P
Y=(y1y2yN)N×1

拟合函数我们假设为:f(x)=wTx=xTw

预测值y=f(x)+ε,其中ε是一个Guassian Noise,并且εN(0,σ2)

并且,x,y,ε都是Random variable。

贝叶斯估计方法(Bayesian Method),可以分为两个步骤,1.Inference,2.Prediction。Inference的关键在于估计posterior(w);而Prediction的关键在于对于给定的x求出预测值y

Bayesian Method模型建立}

首先我们需要对公式使用贝叶斯公式进行分解,便于计算:

p(w|Data)=p(w|X,Y)=p(w,Y|X)p(Y|X)=p(Y|X,w)p(w)wp(Y|X,w)p(w)dw
其中$p(Y X,w)(likelihoodfunction)p(w)(priorfunction)p(w,Y X)=p(Y X,w)p(w X)p(w X)Xwp(w X)=p(w)$。

似然函数的求解过程为:

p(Y|X,w)=Ni=1p(yi|xi,w)

又因为y=wTx+ε,并且εN(0,σ2)。所以

p(yi|xi,w)=N(wTxi,σ2)

所以,

p(Y|X,w)=Ni=1p(yi|xi,w)=Ni=1N(wTxi,σ2)
而下一步,我们假设p(w)=N(0,Σp)。又因为$p(Y X)w$无关,所以这是一个定值。所以,我们可以将公式改写为:
p(w|X,Y)p(Y|w,X)p(w)

在这里我们将使用到一个共轭的技巧,{ 因为likelihood function和prior function都是Gaussian Distribution,所有posterior也一定是Gaussian Distribution。}所以,我们可以将公式改写为:

p(w|Data)N(μw,Σw)Ni=1N(wTxi,σ2)N(0,Σp)

我们的目的就是求解μw=?,Σw=?

模型的求解}

对于likelihood function的化简如下所示:

p(Y|X,w)=Ni=11(2π)12σexp{12σ2(yiwTxi)2}=1(2π)N2σNexp{12σ2Ni=1(yiwTxi)2}

下一步,我们希望将Ni=1(yiwTxi)2改写成矩阵相乘的形式,

Ni=1(yiwTxi)2=[y1wTx1y2wTx2yiwTxi][y1wTx1y2wTx2yiwTxi]=(YTWTXT)(YTWTXT)T=(YTWTXT)(YXW)

所以,

p(Y|X,w)=1(2π)N2σNexp{12σ2Ni=1(YTWTXT)(YXW)}=1(2π)N2σNexp{12Ni=1(YTWTXT)σ2I(YXW)}p(Y|X,w)N(WX,σ2I)

那么,将化简后的结果带入有:

p(w|Data)N(μw,Σw)N(WX,σ2I)N(0,Σp)
N(WX,σ2I)N(0,Σp)exp{12(YWX)Tσ2I(YWX)12wTΣ1pw}=exp{12σ2(YTY2YTXW+WTXTXW)12WTΣ1pW}

那么这个公式长得怎么的难看我们怎么确定我们想要的μw,Σw。由于知道posterior必然是一个高斯分布,那么我们采用待定系数法来类比确定参数的值即可。对于一个分布p(x)N(μ,Σ),他的指数部分为:

exp{12(xμ)TΣ1(xμ)}=exp{12(xTΣ1x2μTΣ1x+)}

常数部分已经不重要了,对于我们的求解来说没有任何的用处,所以,我们直接令它为。那么,我们类比一下就可以得到,

xTΣ1x=WTσ2XTXW+WTΣ1pW

所以,我们可以得到Σ1w=σ2XTX+Σ1p。并且,我们令Σ1w=A

从二次项中我们得到了Σ1w,那么,下一步,我们期望可以从一次项中得到μA的值。我们将一次项提取出来进行观察,可以得到。

μTA=σ2YTX(μTA)T=(σ2YTX)TATμ=σ2XTYμ=σ2(AT)1XTY

有因为,Σw是一个方差矩阵,那么他一定是对称的,所以AT=A。于是

μm=σ2A1XTY

小结}

我们利用贝叶斯推断的方法来确定参数之间的分布,也就是确定p(W|X,Y)。我们使用Bayes的方法,确定为p(W|X,Y)p(Y|W,X)p(W)。并且确定一个噪声分布εN(0,σ2)。那么,

p(Y|W,X)N(WTX,σ2)P(W)N(0,Σp)

通过推导,我们可以得出,

p(W|X,Y)N(μw,Σw)

其中,

Σ1w=σ2XTX+Σ1pμm=σ2A1XTYΣ1w=A