如何应用高斯分布开发异常检测算法呢?

  异常检测算法:
  对于给定的数据集 ????(1), ????(2), . . . , ????(????),我们要针对每一个特征计算 ???? 和 ????2 的估计值。

吴恩达机器学习笔记53-高斯分布的算法(Algorithm of Gaussian Distribution)

一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 ????(????):

吴恩达机器学习笔记53-高斯分布的算法(Algorithm of Gaussian Distribution)

当????(????) < ????时,为异常。

下图是一个由两个特征的训练集,以及特征的分布情况:

吴恩达机器学习笔记53-高斯分布的算法(Algorithm of Gaussian Distribution)

下面的三维图表表示的是密度估计函数,????轴为根据两个特征的值所估计????(????)值:

吴恩达机器学习笔记53-高斯分布的算法(Algorithm of Gaussian Distribution)

 

吴恩达机器学习笔记53-高斯分布的算法(Algorithm of Gaussian Distribution)

  我们选择一个????,将????(????) = ????作为我们的判定边界,当????(????) > ????时预测数据为正常数据,
否则为异常。

  本节我们介绍了如何拟合????(????),也就是 ????的概率值,以开发出一种异常检测
算法。同时,在本节中,我们也给出了通过给出的数据集拟合参数,进行参数估计,得到
参数 ???? 和 ????,然后检测新的样本,确定新样本是否是异常