特征选择

  特征选择对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。

特征选择主要有两个功能:

(1)减少特征数量、降维,使模型泛化能力更强,减少过拟合
(2)增强对特征和特征值之间的理解


  拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。

PCA

  PCA是一种数学降维方法,利用正交变换把一系列可能线性相关的变量转换为一组线性不相关的新变量,也称为主成分,从而利用新变量在更小的维度下展示数据的特征。
  主成分是原有变量的线性组合,其数目不多于原始变量。组合之后,相当于我们获得了一批新的观测数据,这些数据的含义不同于原有数据,但包含了之前数据的大部分特征,并且有着较低的维度,便于进一步的分析。

  主成分分析的意义:

    (1)简化运算

    (2)去除数据噪音

    (3)可视化高数据(利用散点图实现维数据可视化)

    (4)发现隐性相关变量

阐述出两者的主要区别

  PCA可用于简化运算,可视化高维数据,发现隐性相关变量就拿画散点图来说特征选择是通过与实际值相关性强弱选择出最大相关性的特征如朝向和房价、建筑面积和房价,显然建筑面积和房价相关性高些,所以特征选择的横坐标选择建筑面积最为合适;而PCA可以将朝向和建筑面积两个特征合为一个特征,当为散点图的横坐标,这体现出PCA的实用性。