机器学习常用的降维方法

2023年4月13日下午9:31 • 机器学习

特征降维方法包括：Lasso，PCA，小波分析，LDA，奇异值分解SVD，拉普拉斯特征映射，SparseAutoEncoder，局部线性嵌入LLE，等距映射Isomap。

1. LASSO通过参数缩减达到降维的目的

LASSO(Least absolute shrinkage and selection operator, Tibshirani(1996))
该方法是一种压缩估计，通过构造一个罚函数得到一个较为精炼的模型，使得压缩一些系数，同时设定一些系数为零。因此保留了子集收缩的优点，，是一种处理具有复共线性数据的有偏估计。Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下，使残差平方和最小化，从而能够产生某些严格等于 0 的回归系数，得到可以解释的模型

2. 主成分分析PCA

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。
设有m条n维数据

1）将原始数据按列组成n行m列矩阵X
2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
3）求出协方差矩阵C=\frac{1}{m}XX^\mathsf{T}
4）求出协方差矩阵的特征值及对应的特征向量
5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
6）Y=PX即为降维到k维后的数据

3. 小波分析

小波分析有一些变换的操作降低其他干扰可以看做是降维。

4. 线性判别LDA

线性判别式分析（Linear Discriminant Analysis），简称为LDA。也称为Fisher线性判别（Fisher Linear Discriminant，FLD），是模式识别的经典算法，在1996年由Belhumeur引入模式识别和人工智能领域。

基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。

LDA与前面介绍过的PCA都是常用的降维技术。PCA主要是从特征的协方差角度，去找到比较好的投影方式。LDA更多的是考虑了标注，即希望投影后不同类别之间数据点的距离更大，同一类别的数据点更紧凑。

5. 拉普拉斯映射

拉普拉斯特征映射将处于流形上的数据，在尽量保留原数据间相似度的情况下，映射到低维下表示。

机器学习常用的降维方法

求解广义特征向量，取前几个非零最小特值对应的特向，即为原数据在低维下的表示

6. 深度学习SparseAutoEncoder

稀疏自编码就是用少于输入层神经元数量的隐含层神经元去学习表征输入层的特征，相当于把输入层的特征压缩了，所以是特征降维。

7. 矩阵奇异值分解SVD

在PCA算法中，用到了SVD，类似PCA，可以看成一类

8. LLE局部线性嵌入

Locally linear embedding（LLE）是一种非线性降维算法，它能够使降维后的数据较好地保持原有流形结构。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。

LLE算法认为每一个数据点都可以由其近邻点的线性加权组合构造得到。算法的主要步骤分为三步：(1)寻找每个样本点的k个近邻点；（2）由每个样本点的近邻点计算出该样本点的局部重建权值矩阵；（3）由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。具体的算法流程如图2所示：

机器学习常用的降维方法

机器学习常用的降维方法

机器学习常用的降维方法

9. Isomap等距映射

Isomap是一种非迭代的全局优化算法，通过一种原本适用于欧式空间的算法MDS，达到降维的目的。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习常用的降维方法 - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

机器学习之一些基本概念及符号系统

上一篇 2023年4月13日

机器学习-chapter1机器学习的生态系统

下一篇 2023年4月13日

张量（Tensor）、标量（scalar）、向量（vector）、矩阵（matrix）

张量（Tensor）：Tensor = multi-dimensional array of numbers 张量是一个多维数组，它是标量，向量，矩阵的高维扩展，是一个数据容器，张量是矩阵向任意维度的推广注意，张量的维度（dimension）通常叫作轴（axis）, 张量轴的个数也叫作阶（rank）］标量（scalar）：只有一个数字的张量叫标量（也叫…

人工智能概论 2023年5月11日
000
Pytorch 中 tensor的维度拼接

torch.stack() 和 torch.cat() 都可以按照指定的维度进行拼接，但是两者也有区别，torch.satck() 是增加新的维度进行堆叠，即其维度拼接后会增加一个维度；而torch.cat() 是在原维度上进行堆叠，即其维度拼接后的维度个数和原来一致。具体说明如下： torch.stack(input,dim) input: 待拼接的张量序…

PyTorch 2023年4月8日
000
目标检测

目标检测中的IOU计算问题

原文来源：https://blog.csdn.net/qq_17550379/article/details/78815637 在目标检测中我们有一个基本的操作，形象表述就是画框框，我们要通过我们画的框把我们要标注的目标给框出来，如下面那个狗。我们既可以说这个狗被框出来了，但是也可以说没有，因为你可以观察到左边和上面是存在一些缝隙的。那问题就出现了。什么…

2023年4月8日
000
caffe的运行create_data.sh前对VOC2007图片格式的更改

运用caffe进行深度学习之前需要对图片进行预处理，将图片的大小，格式等进行修改将300*300的图片改为256*256格式则将以下参数改为： min_dim=256 max_dim=256 width=256 height=256

Caffe 2023年4月5日
000
tensorflow

win10下基于anaconda安装tensorflow-gpu

1.最重要的一点就是，一定要知道你要安装的tensorflow版本跟你的cuda以及cudnn版本是否匹配。小白本人在这里被坑了无数次，以至于一度怀疑人生，花费了我将近一天半的时间。那么，该如何判断呢？下面是小白找的表：小白的anaconda对应的python是3.6.0，在这里附上本次安装所要用到的资源链接：链接：https://pan.baidu…

2023年4月8日
000
史上最全TensorFlow学习资源汇总

tensorfly 十图详解TensorFlow数据读取机制【Tensorflow】你可能无法回避的 TFRecord 文件格式详细讲解 tensorflow—之tf.record如何存浮点数数组 How to load sparse data with TensorFlow? Tensor objects are only iterable when…

tensorflow 2023年4月6日
000
我对卷积神经网络的一点粗浅的理解

Convolutional Neural Network，卷积神经网络，简称CNN，最近几年再次流行起来。 CNN和普通的机器学习算法有什么相同，有什么不同？简单说，CNN=A+B，即CNN包括两个方面的功能： A：feature extactor 特征提取器普通的机器学习算法，比如决策树、随机森林、svm、逻辑回归/softmax等，它的输入通常就是若…

卷积神经网络 2023年4月8日
000
Keras

keras图片数字识别入门AI机器学习

通过使用mnist（AI界的helloworld）手写数字模型训练集，了解下AI工作的基本流程。本例子，要基于mnist数据集（该数据集包含了【0-9】的模型训练数据集和测试数据集）来完成一个手写数字识别的小demo。 mnist数据集，图片大小是28*28的黑白。包含了6w 训练数据和1w验证数据。麻雀虽小五脏俱全。通过这个CV类型的demo需求，我们…

2023年4月5日
000

合作推广

合作推广

返回顶部