本小节为线性分类的第三小节，主要推导了线性判别分析算法，也就是Fisher算法。Fisher算法的主要思想是：{ 类内小，类间大。}这有点类似于，软件过程里的松耦合，高内聚的思想。这个思想转换成数学语言也就是，同一类数据之间的方差要小，不同类数据之间的均值的差距要大。那么，我们对数据的描述如下所示：

\[\begin{equation} X=(x_1, x_2, \cdots, x_N)^T= \begin{pmatrix} x_1^T \\ x_2^T \\ \vdots\\ x_N^T \\ \end{pmatrix} = \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1p}\\ x_{21} & x_{32} & \dots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{N1} & x_{N2} & \dots & x_{Np}\\ \end{pmatrix}_{N\times P} \end{equation}\] \[\begin{equation} Y= \begin{pmatrix} y_1 \\ y_2 \\ \vdots\\ y_N \\ \end{pmatrix}_{N\times 1} \end{equation}\]

那么，我们的数据集可以记为$\left{ (x_i,y_i) \right}{i=1}^N$，其中，$x_i \in \mathbb{R}^p$，$y_i\in{+1,-1}$，且${y=+1}$为$C_1$类，且${y=-1}$为$C_2$类。那么，$X{c_1}$被定义为$\left{ x_i

y_i=+1 \right}$，$X_{c_2}$被定义为$\left{ x_i

y_i=-1 \right}$。所以，很显然可以得到$

X_{c_1}

=N_1$，$

X_{c_2}

=N_2$，并且$N_1+N_2=N$。

Fisher线性判别分析}

\[\begin{figure}[H] \centering \includegraphics[width=.55\textwidth]{微信图片_20191031095624.png} \caption{Fisher线性判别分析模型图} \label{fig:my_label_1} \end{figure}\]

在左图中，我们设置了两个投影方向，很显然上面那个投影方向可以更好的将两个点之间分开。我们可以在投影方向上找一个点作为两个类别的分界点，也就是阈值(Threshhold)。首先，我们先引入一个有关投影算法的小知识。

投影算法}

首先，我们需要设定一个投影向量$w$，为了保险起见，对这个投影向量$w$作出约束，令$||w||=1$。那么，在空间中的一个数据点，也就是一个向量，在投影向量上的投影长度可以表述为：

\[\begin{equation} x_i\cdot w = |x_i||w|\cos{\theta}=|x_i|\cos{\theta}=\triangle \end{equation}\]

Fisher判别分析的损失函数表达式}

在这个部分，主要是要得出Fisher判别分析的损失函数表达式求法。对于，投影的平均值和方差，我们可以分别表述为:

\[\begin{gather} \Bar{z}=\frac{1}{N}\sum_{i=1}^{N}z_i = \frac{1}{N}\sum_{i=1}^{N}w^Tx_i \\ S_z=\frac{1}{N}\sum_{i=1}^N(z_i-\Bar{z})(z_i-\Bar{z})^T \end{gather}\]

那么对于第一类分类点$X_{c_1}$和第二类分类点$X_{c_2}$可以表述为：

\[\begin{equation} C_1:\qquad \Bar{z_1}= \frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i \qquad S_1 =\frac{1}{N_1}\sum_{i=1}^N(z_i-\Bar{z_1})(z_i-\Bar{z_1})^T \end{equation}\] \[\begin{equation} C_2:\qquad \Bar{z_2}= \frac{1}{N_2}\sum_{i=1}^{N_2}w^Tx_i \qquad S_2 =\frac{1}{N_2}\sum_{i=1}^N(z_i-\Bar{z_2})(z_i-\Bar{z_2})^T \end{equation}\]

那么类间的距离我们可以定义为：$(\Bar{z_1}-\Bar{z_2})^2$, 类内的距离被我们定义为$S_1+S_2$。那么我们的目标函数Target Function $\mathcal{J}(w)$，可以被定义为:

\[\begin{equation} \mathcal{J}(w) = \frac{(\Bar{z_1}-\Bar{z_2})^2}{S_1+S_2} \end{equation}\]

因为，我们的目的是使方差越小越好，均值之间的差越大越好。

损失函数表达式的化简}

$(\Bar{z_1}-\Bar{z_2})^2$}

分子的化简过程如下所示：

\[\begin{equation} \begin{split} (\Bar{z_1}-\Bar{z_2})^2 = & \left( \frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i - \frac{1}{N_2}\sum_{i=1}^{N_2}w^Tx_i \right)^2 \\ = & \left( w^T(\frac{1}{N_1}\sum_{i=1}^{N_1}x_i - \frac{1}{N_2}\sum_{i=1}^{N_2}x_i ) \right)^2 \\ = & \left( w^T(\Bar{X}_{c_1} - \Bar{X}_{c_2}) \right)^2 \\ = & w^T(\Bar{X}_{c_1} - \Bar{X}_{c_2})(\Bar{X}_{c_1} - \Bar{X}_{c_2})^Tw \\ \end{split} \end{equation}\]

$S_1+S_2$}

分母的化简过程如下所示：

\[\begin{equation} \begin{split} S_1 = & \frac{1}{N_1}\sum_{i=1}^N(z_i-\Bar{z}_1)(z_i-\Bar{z}_1)^T \\ = & \frac{1}{N_1}\sum_{i=1}^N(w^Tx_i-\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i)(w^Tx_i-\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i)^T \\ = & w^T\frac{1}{N_1}\sum_{i=1}^N(x_i-\frac{1}{N_1}\sum_{i=1}^{N_1}x_i)(x_i-\frac{1}{N_1}\sum_{i=1}^{N_1}x_i)^Tw \\ = & w^TS_{c_1}w \\ \end{split} \end{equation}\]

同理可得，

\[\begin{equation} S_1 = w^TS_{c_2}w \end{equation}\]

所以，

\[\begin{equation} S_1+S_2=w^T(S_{c_1}+S_{c_2})w \end{equation}\]

$\mathcal{J}(w)$的最简表达形式}

\[\begin{equation} \mathcal{J}(w)=\frac{w^T(\Bar{X}_{c_1} - \Bar{X}_{c_2})(\Bar{X}_{c_1} - \Bar{X}_{c_2})^Tw}{w^T(S_{c_1}+S_{c_2})w} \end{equation}\]

令$S_b$为between-class类间方差，$S_w$为within-class，也就是类内方差。那么有

\[\begin{equation} S_b = (\Bar{X}_{c_1} - \Bar{X}_{c_2})(\Bar{X}_{c_1} - \Bar{X}_{c_2})^T \qquad S_w = (S_{c_1}+S_{c_2}) \end{equation}\]

于是，我们可以得到进一步化简的表达式；

\[\begin{equation} \mathcal{J}(w)=\frac{w^TS_bw}{w^TS_ww} \end{equation}\]

损失函数$\mathcal{J}(w)$的梯度}

为了方便求导，我们令$\mathcal{J}(w)=(w^TS_bw)(w^TS_ww)^{-1}$。

\[\begin{equation} \begin{split} \frac{\partial \mathcal{J}(w)}{\partial w} = 2S_bw(w^TS_ww)^{-1} + & (-1)(w^TS_bw)(w^TS_ww)^{-2}(2)S_ww = 0 \\ S_bw(w^TS_ww)^{-1} = & (w^TS_bw)(w^TS_ww)^{-2}S_ww\\ \end{split} \end{equation}\]

显然，$w$的维度是$p\times 1$，$w^T$的维度是$1 \times p$，$S_w$的维度是$p\times p$，所以，$w^TS_ww$是一个实数，同理可得，$w^TS_ww$是一个实数所以，可以得到

\[\begin{equation} \begin{split} S_bw = & (w^TS_bw)(w^TS_ww)^{-1}S_ww \\ S_bw = & \frac{(w^TS_bw)}{(w^TS_ww)}S_ww \end{split} \end{equation}\]

我们主要是求得梯度的方向，大小不是很重要了。所以，我们可得

\[\begin{equation} w = \frac{(w^TS_bw)}{(w^TS_ww)}S_b^{-1}S_ww \propto S_b^{-1}S_ww \end{equation}\] \[\begin{equation} S_ww = (\Bar{X}_{c_1} - \Bar{X}_{c_2})(\Bar{X}_{c_1} - \Bar{X}_{c_2})^Tw \end{equation}\]

而$(\Bar{X}{c_1} - \Bar{X}{c_2})^Tw$是一个实数，所以汇总可得

\[\begin{equation} S_b^{-1}S_ww \propto S_w^{-1}(\Bar{X}_{c_1} - \Bar{X}_{c_2}) \end{equation}\]

那么，我们就可以求得梯度的方向为$S_w^{-1}(\Bar{X}{c_1} - \Bar{X}{c_2})$。如果，$S_w^{-1}$是一个各向同性的对角矩阵，那么$S^{-1}\propto I$。所以，$w\propto (\Bar{X}{c_1} - \Bar{X}{c_2})$。既然，求得了梯度的方向，其实梯度的大小就不重要的。

Linear_Classification_03

2022年10月