从数学角度理解SVM分类算法

从数学角度理解SVM分类算法

1. 背景

支持向量机(Support Vector Machine,SVM)是一种分类算法,以最大化分类器的边际(margin)为目标,并且分类效果在训练数据集上表现非常好。

2. SVM算法原理

SVM算法通过将特征空间映射到高维空间,寻找一个超平面(hyperplane),将不同类别的数据点进行分离。SVM算法的核心思想就是找到数据集的最优超平面。

2.1 SVM的简单公式

$$ f(x) = w^T x + b $$

其中,$w$是超平面的法向量,$b$是超平面的截距,$x$是样本点。

$f(x)$的符号决定了$x$所属的类别。

当$f(x) > 0$时,$x$属于正例类别;

当$f(x) < 0$时,$x$属于负例类别;

当$f(x) = 0$时,$x$在超平面上。

2.2 SVM的目标函数

求解SVM的过程就是在所有可能的超平面中找到最优的超平面。用数学语言描述,就是找到使边际最大的超平面。

定义决策边距(decision margin):

$$margin = \frac{2}{\left|\boldsymbol{w}\right|}$$

其中$\boldsymbol{w}$是向量$(w_1, w_2, ..., w_n)$,所有的$\boldsymbol{w}$都满足边距的条件。

SVM分类问题的目标就是最大化边距,可以转化为以下的优化问题:

$$\max_{\boldsymbol{w},b} \frac{2}{\left|\boldsymbol{w}\right|}$$

同时满足以下约束条件:

$$y^{(i)}(\boldsymbol{w}^Tx^{(i)} + b) \geq 1, i=1, 2, ..., m$$

其中,$y^{(i)}$是类别标签,$x^{(i)}$是样本点,$m$是样本数目。

这个约束条件实际上是告诉我们:所有的样本都必须正确分类。

2.3 最大化边距

根据拉格朗日乘子法,将所有约束条件转化为目标函数的一部分。得到下面的拉格朗日函数:

$$L(\boldsymbol{w}, b, \alpha) = \frac{1}{2}\left|\boldsymbol{w}\right|^2 - \sum_{i=1}^m\alpha_i(y^{(i)}(\boldsymbol{w}^Tx^{(i)} + b) - 1)$$

其中,$\alpha$是拉格朗日乘子向量,可以用于求解最优化问题的惩罚因子。

最优化的问题被转换成了极大极小化的问题:

$$\min_{\boldsymbol{w},b} \max_{\alpha} L(\boldsymbol{w}, b, \alpha)$$

化简后得到:

$$\max_{\alpha} \sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i,j=1}^m y^{(i)}y^{(j)}\alpha_i\alpha_jx^{(i)}\cdot x^{(j)}$$

约束条件为:

$$\sum_{i=1}^m y^{(i)}\alpha_i=0 \;\;\;\;\;\;\;\;\;\;\;\;\ 0 \leq \alpha_i \leq C,$$

其中,$C$是一个惩罚因子,用于控制过拟合的情况。

求解这个优化问题,得到$\alpha$向量,然后就可以用$f(x)$进行分类了。

2.4 对偶问题

这个最优化问题是一个凸二次规划问题,可以用凸优化的方法进行求解。不过,可以将这个原问题转换成对偶问题。

对偶问题的目标函数:

$$\min_{\alpha} \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m y^{(i)}y^{(j)}\alpha_i\alpha_j \cdot \left(x^{(i)}\cdot x^{(j)}\right) - \sum_{i=1}^m \alpha_i$$

约束条件为:

$$\sum_{i=1}^m y^{(i)}\alpha_i=0 \;\;\;\;\;\;\;\;\;\;\;\;\ 0 \leq \alpha_i \leq C$$

通过求解对偶问题,可以得到最优化问题的解,包括$\boldsymbol{w}$和$b$。

2.5 图形化表示

在2维空间中,SVM就是寻找一条直线尽可能远离下面的负点并尽可能接近上面的正点。

SVM-Graphical-Representation

上图中,红色和蓝色的点代表两个不同的分类,绿色的线就是SVM分类器找到的超平面。

2.6 核函数

如果数据集无法线性分割,可以使用核函数来将非线性数据转换为线性数据。

在2维空间中,可以使用圆形的核函数将非线性数据转换为线性数据。

$$K(x, y) = exp(-\gamma||x-y||^2)$$

其中,$\gamma$是一个调节参数,$||x-y||$是点$x$和点$y$之间的欧几里得距离。

在高维空间中,多项式核函数和高斯核函数非常流行。

3. 两个SVM的例子

3.1 线性SVM的例子

在这个例子中,我们使用sklearn库中的make_blobs方法生成1000个随机点,其中包含2个不同的分类。

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np

X, y = make_blobs(n_samples=1000, centers=2, n_features=2,
                  random_state=0, cluster_std=0.5)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='viridis')
plt.show()

SVM-Line

可以看到这些点是可分的,我们可以使用线性SVM将这些点分开。

from sklearn.svm import SVC

model = SVC(kernel='linear', C=1E10)
model.fit(X, y)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='viridis')

xlim = plt.xlim()
ylim = plt.ylim()
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
XX, YY = np.meshgrid(xx, yy)
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = model.decision_function(xy).reshape(XX.shape)

plt.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1],
           alpha=0.5, linestyles=['--', '-', '--'])

plt.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1],
            s=100, linewidth=1, facecolors='none', edgecolors='k')
plt.show()

SVM-Linear-Result

在上面的图片中,黑色实线是超平面,黑色虚线是超平面与两类数据点的边界。在这个例子中线性SVM可以正确地将数据分为两类。

3.2 非线性SVM的例子

在这个例子中,我们使用sklearn库中的make_moons方法生成1000个随机点,其中包含2个不同的分类。

from sklearn.datasets import make_moons

X, y = make_moons(n_samples=1000, noise=0.30, random_state=0)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='viridis')
plt.show()

SVM-Moon

可以看到这些点是非线性可分的,我们需要使用非线性SVM将这些点分开。

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

clf = Pipeline([
    ("scaler", StandardScaler()),
    ("svm", SVC(kernel="rbf", gamma=0.1, C=1E10))
])
clf.fit(X, y)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='viridis')

xlim = plt.xlim()
ylim = plt.ylim()
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
XX, YY = np.meshgrid(xx, yy)
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = clf.decision_function(xy).reshape(XX.shape)

plt.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1],
           alpha=0.5, linestyles=['--', '-', '--'])

plt.scatter(clf["svm"].support_vectors_[:, 0], clf["svm"].support_vectors_[:, 1],
            s=100, linewidth=1, facecolors='none', edgecolors='k')
plt.show()

SVM-Moon-Result

在上面的图片中,黑色实线是SVM函数,黑色虚线是SVM函数与两类数据点的边界。在这个例子中非线性SVM可以正确地将数据分为两类。由于这个例子中数据并不是线性可分的,所以我们需要使用核函数将非线性数据转换为线性数据。在这个例子中我们使用的是高斯核函数。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:从数学角度理解SVM分类算法 - Python技术站

(0)
上一篇 2023年3月27日
下一篇 2023年3月27日

相关文章

  • SVM解决线性不可分问题

    SVM (Support Vector Machine)是一种常用的机器学习算法,主要用于分类问题。在训练过程中,SVM将数据映射到高维空间中,从而将线性不可分问题转化为线性可分问题,然后在高维空间中找到最优的超平面来进行分类。关于 SVM 解决线性不可分问题的完整攻略,可以分为以下几个步骤: 1. 增加特征维度 增加特征维度是将数据从原来的低维空间映射到高…

    机器学习算法 2023年3月27日
    00
  • SVM分类算法应用及实现

    SVM(Support Vector Machine)是一种常用的分类算法,可以在不同领域中得到广泛应用,如文本分类、图像分类等。下面将详细讲解SVM分类算法应用及实现方法的完整攻略。 什么是 SVM SVM是一种监督学习算法,其目的是根据给定的训练数据集,构建一个最优化的分类模型,该模型可将新的数据点分配给各自的类别中的一个。 具体说,对于一个二分类问题,…

    机器学习算法 2023年3月27日
    00
  • 神经网络分类算法的应用及其实现

    神经网络分类算法是机器学习领域中非常重要的算法之一,其应用范围广泛,例如图像识别、自然语言处理、推荐系统等领域都可以使用神经网络分类算法。 神经网络分类算法主要分为两个阶段,训练和预测。在训练阶段中,我们需要向神经网络输入大量的已有标签的训练数据,让神经网络通过学习,不断优化自身的权重和偏差等参数,以实现对输入数据的分类。在预测阶段中,我们可以将未知的数据输…

    机器学习算法 2023年3月27日
    00
  • 理解贝叶斯公式

    接下来我将详细讲解贝叶斯公式的作用、使用方法及其使用场景,希望对您有所帮助。 什么是贝叶斯公式? 贝叶斯公式是由英国统计学家 Thomas Bayes 发现的一个概率公式,也称为贝叶斯定理。它用于计算在已知某一事件发生的前提下,其他相关事件发生的概率。贝叶斯公式的表达式如下: $$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$ 其中 A…

    机器学习算法 2023年3月27日
    00
  • 应用Logistic回归算法

    应用Logistic回归算法的完整攻略 简介 在机器学习中,Logistic回归是一种二分类的监督学习算法。它通常被用于从数据中分析出一个二元结果,这个结果由两个变量之间的关系得到。例如,当我们想知道一个人是否会购买某个产品时,我们可以收集一些人口统计数据和他们最近的购买历史,然后应用Logistic回归模型来预测该人是否会购买该产品。 使用方法 步骤一:准…

    机器学习算法 2023年3月27日
    00
  • 什么是K-means聚类算法

    K-means是一种常用的聚类算法,可以将数据点分成固定数量的簇。本文将详细讲解K-means聚类算法的作用与使用方法。 什么是K-means聚类算法 K-means是一种迭代算法,将数据点分成K个簇。它的基本思路是通过计算每个簇中数据点到簇中心的距离,将所有数据点划分到距离最近的簇中心,然后重新计算每个簇的中心点,直至达到最优解。 K-means算法的步骤…

    机器学习算法 2023年3月27日
    00
  • 详细讲解机器学习常用术语

    下面我列举出机器学习中最常用的10个术语并做简要说明: 数据集 (Dataset):指用于机器学习训练和测试的数据的集合。通常包含输入数据和对应的输出数据。 特征 (Feature):指描述数据中某个特定方面的属性或变量。通常是作为算法的输入,以期基于特征进行分类或其他任务。 标签 (Label):指数据集中的目标变量,也称为输出变量。标签通常是人工标注的,…

    机器学习算法 2023年3月27日
    00
  • 信息熵是什么

    信息熵是信息论中的一个概念,它是用来度量随机变量的不确定性。在信息论中,信息量越大,就表示不确定性越小,反之亦然。 用公式表示信息熵为:$H(X)=-\sum_{i}p(x_i)\log_2p(x_i)$,其中$p(x_i)$表示事件$x_i$发生的概率,$\log_2$表示以2为底的对数。 举个例子,假设有一个硬币,正面朝上和反面朝上的概率相等,那么此时信…

    机器学习算法 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部