数据集D=(xi,yi)Ni=1,其中xi∈Rp,yi∈R。数据矩阵为:(这样可以保证每一行为一个数据点)
X=(x1,x2,⋯,xN)T=(xT1xT2⋮xTN)=(x11x12…x1px21x32…x2p⋮⋮⋱⋮xN1xN2…xNp)N×P拟合函数我们假设为:f(x)=wTx=xTw。
预测值y=f(x)+ε,其中ε是一个Guassian Noise,并且ε∼N(0,σ2)。
并且,x,y,ε都是Random variable。
贝叶斯估计方法(Bayesian Method),可以分为两个步骤,1.Inference,2.Prediction。Inference的关键在于估计posterior(w);而Prediction的关键在于对于给定的x∗求出预测值y∗。
Bayesian Method模型建立}
首先我们需要对公式使用贝叶斯公式进行分解,便于计算:
p(w|Data)=p(w|X,Y)=p(w,Y|X)p(Y|X)=p(Y|X,w)p(w)∫wp(Y|X,w)p(w)dw其中$p(Y | X,w)是似然函数(likelihoodfunction),p(w)是一个先验函数(priorfunction)。实际这里省略了一个过程,p(w,Y | X)=p(Y | X,w)p(w | X)。但是很显然,p(w | X)中X与w之间并没有直接的联系。所以p(w | X)=p(w)$。 |
似然函数的求解过程为:
p(Y|X,w)=N∏i=1p(yi|xi,w)又因为y=wTx+ε,并且ε∼N(0,σ2)。所以
p(yi|xi,w)=N(wTxi,σ2)所以,
p(Y|X,w)=N∏i=1p(yi|xi,w)=N∏i=1N(wTxi,σ2)而下一步,我们假设p(w)=N(0,Σp)。又因为$p(Y | X)与参数w$无关,所以这是一个定值。所以,我们可以将公式改写为: |
在这里我们将使用到一个共轭的技巧,{ 因为likelihood function和prior function都是Gaussian Distribution,所有posterior也一定是Gaussian Distribution。}所以,我们可以将公式改写为:
p(w|Data)∼N(μw,Σw)∝N∏i=1N(wTxi,σ2)N(0,Σp)我们的目的就是求解μw=?,Σw=?。
模型的求解}
对于likelihood function的化简如下所示:
p(Y|X,w)=N∏i=11(2π)12σexp{−12σ2(yi−wTxi)2}=1(2π)N2σNexp{−12σ2N∑i=1(yi−wTxi)2}下一步,我们希望将∑Ni=1(yi−wTxi)2改写成矩阵相乘的形式,
N∑i=1(yi−wTxi)2=[y1−wTx1y2−wTx2⋯yi−wTxi][y1−wTx1y2−wTx2⋮yi−wTxi]=(YT−WTXT)(YT−WTXT)T=(YT−WTXT)(Y−XW)所以,
p(Y|X,w)=1(2π)N2σNexp{−12σ2N∑i=1(YT−WTXT)(Y−XW)}=1(2π)N2σNexp{−12N∑i=1(YT−WTXT)σ−2I(Y−XW)}p(Y|X,w)∼N(WX,σ2I)那么,将化简后的结果带入有:
p(w|Data)∼N(μw,Σw)∝N(WX,σ2I)N(0,Σp)那么这个公式长得怎么的难看我们怎么确定我们想要的μw,Σw。由于知道posterior必然是一个高斯分布,那么我们采用待定系数法来类比确定参数的值即可。对于一个分布p(x)∼N(μ,Σ),他的指数部分为:
exp{−12(x−μ)TΣ−1(x−μ)}=exp{−12(xTΣ−1x−2μTΣ−1x+△)}常数部分已经不重要了,对于我们的求解来说没有任何的用处,所以,我们直接令它为△。那么,我们类比一下就可以得到,
xTΣ−1x=WTσ−2XTXW+WTΣ−1pW所以,我们可以得到Σ−1w=σ−2XTX+Σ−1p。并且,我们令Σ−1w=A。
从二次项中我们得到了Σ−1w,那么,下一步,我们期望可以从一次项中得到μA的值。我们将一次项提取出来进行观察,可以得到。
μTA=σ−2YTX(μTA)T=(σ−2YTX)TATμ=σ−2XTYμ=σ−2(AT)−1XTY有因为,Σw是一个方差矩阵,那么他一定是对称的,所以AT=A。于是
μm=σ−2A−1XTY小结}
我们利用贝叶斯推断的方法来确定参数之间的分布,也就是确定p(W|X,Y)。我们使用Bayes的方法,确定为p(W|X,Y)∝p(Y|W,X)p(W)。并且确定一个噪声分布ε∼N(0,σ2)。那么,
p(Y|W,X)∼N(WTX,σ2)P(W)∼N(0,Σp)通过推导,我们可以得出,
p(W|X,Y)∼N(μw,Σw)其中,
Σ−1w=σ−2XTX+Σ−1pμm=σ−2A−1XTYΣ−1w=A-
Previous
Bayes_Linear_Classification_01_Background -
Next
Bayes_Linear_Classification_03_Prediction_&_Conclusion