本节的主要目的是，有关于机器学习的导图。对频率派的有关统计学习方法做一个大致的梳理。而在贝叶斯派的学习中，是使用有关于概率图的模型。在频率派的有关统计学习方法中，我们可以大致的分为，线性回归和线性分类。

线性回归}

在前文中已经提到了，我们的线性回归模型可以写为$f(w,b)=w^Tx+b$。线性回归主要有三条性质：线性，全局性和数据未加工。而我们从每一条入手，打破其中的一条规则就是一个新的算法。

线性}

线性可以分为，属性非线性，全局非线性和系数非线性。

属性非线性}

所谓的属性非线性也就是从未知数入手，比如特征变换的方法还有将变量从一维，变换到高维。有点类似于引入二次型的思想，使用$x_1^2+x_2^2+x_1x_2+\cdots$，的方法打破属性的线性。

全局非线性}

全局非线性的方法，是通过对函数的运算结果增加一个函数，来将线性函数改造成非线性函数。比如，神经网络中的激活函数，还有阈值函数来将软分类函数变成硬分类函数。

系数非线性}

所谓系数非线性，感觉就是系数的生成结果并不是单一的，固定的。就像神经网络算法一样。算法的收敛结果是一个分布，也就是位于一个区间之中，这样的算法的结果一定不是线性的，这样通过了不确定的方法来引入非线性。

全局性}

所谓全局性，也就是将所有的数据看成一个整体来进行拟合。而打破的方法很简单，也就是将数据之间分隔开，分段进行拟合。典型的方法有线性样条回归，决策树等方法。

数据未加工}

从字面的意义上理解非常的简单，那就是输入数据不经过加工直接的输入模型中。有一系列类似的方法来打破，比如主成分分析法(PCA)，流形等方法来对输入数据进行预处理。

线性分类}

线性回归和线性分类之间有着很大的联系。从某种意义上说，线性分类就是线性回归函数使用激活函数的结果，同时也可以看成是线性回归降维的结果。对于一个线性回归函数，我们可以通过添加全局函数的形式来将其转换为线性分类函数。也就是

$\begin{equation} y=w^Tx+b \longrightarrow y=f(w^Tx+b) \end{equation}$ 这样就可以将值域从$[0,1]$转换为${0,1}$。其中$f$被定义为activation function，$f^{-1}$定义为link function。那么这个$f$实现了这样一个功能，也就是将$w^Tx+b \mapsto {0, 1}$。而$f^{-1}$恰好是反过来的，也就是将${0, 1} \mapsto w^Tx+b$。

而线性分类，大致上可以划分成硬分类和软分类两个部分。

硬分类}

所谓硬分类，也就是$y\in [0,1]$，大致上可以分成线性判别分析，也就是Fisher判别分析和感知机这两类。

软分类}

所谓硬分类，也就是$y\in {0,1}$，大致上可以分成生成式模型，Gaussian Distribution Analysis和著名的判别式模型，Logistic Regression。

\[\begin{equation} p(y|x)=\frac{p(x|y)p(y)}{p(x)} \propto p(x|y)p(y) \end{equation}\]

也就是在求解$p(y=0

x)$或$p(y=1

x)$的时候，我们不直接求谁大谁小，而是转向求$p(x

y=0)p(y=0)$和$p(x

y=1)p(y=1)$。

总结}

通过这节的学习，我们已经大体上建立了有关于统计学习方法的知识的框架，包括线性分类和线性回归的内容，并作出了一定的梳理。

FEATURED TAGS

Linear Regression Math Basis Exponential Family Distribution Classification Bayes Background Inference Conclusion Feedforward Neural Network Support Vector Machine Margin and Solution Weak Duality Kernel Method of Function Probability Graph Markov Variational Algorithm Belief Process Introduction Gaussian Expectation Maximization Mixture Model Chain Monte Carlo Sampling Hidden Learning Kalman Filter Conditional Random Field Boltzmann Deep Generative Adversarial Reinforcement Blog docker cuda Agent LLM multimodel RAG 文档智能 RL 多模态

Linear_Classification_01

2022年10月