浅谈SVM中的高斯核函数 - 好文

对解线性分类问题，线性分类支持向量机是一种非常有效的方法。但是，有时分类问题
时非线性的，这时可以使用非线性支持向量机。非线性支持向量机，其主要特点是利用核技巧，在此，我主要介绍高斯核函数。

* SVM简单介绍

支持向量机的基本模型是定义在特征空间的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。下图是线性可分且特征为二维时的一个支持向量机的示意图。
听了上述的介绍，肯定还是有人会懵圈，什么凸二次规划，什么合页损失函数的。没有关系，这个不是本文的重点，网上可以找到这些名词的详细说明。

SVM的分类决策函数可以写为：

当引入核技巧时，分类决策函数变为：

上式等价于经过映射函数ϕ将原来的输入空间变换到一个新的空间，将输入空间的内积x_i x_j变换为新的特征空间的内积ϕ(x_i )ϕ(x_j
)，而这个在新特征空间的内积又可以用核函数K(x_i,x_j )直接计算得出
* 高斯核函数

对于每一个核函数，我们都无法想象数据被映射到新空间后，到底有了哪些变化，比如新空间中样本的分布。下面就来简单讨论一下高斯核函数的引入，使得样本在新空间中有怎样的分布情况。

首先，高斯核函数对应的映射函数将样本投射到一个无限维的空间中去了，这个可以将高斯核函数进行多项式展开得到结论。
其次，映射到的新空间后，所有的样本点分布在以原点为圆心半径为1的1/4球面上。
证明如下：

热门工具换一换