深度学习论文笔记-Deep Learning Face Representation from Predicting 10,000 Classes

2023年4月13日上午1:06 • 深度学习

来自：CVPR 2014 作者：Yi Sun ，Xiaogang Wang，Xiaoao Tang

题目：Deep Learning Face Representation from Predicting 10,000 Classes

主要内容:通过深度学习来进行图像高级特征表示（DeepID），进而进行人脸的分类。

长处：在人脸验证上面做，能够非常好的扩展到其它的应用，而且夸数据库有效性；在数据库中的类别越多时，其泛化能力越强，特征比較少，不像其它特征好几K甚至上M，好的泛化能力+只是拟合于小的子训练集。

主要过程：採用卷积神经网络（CNN）方法，而且採用CNN最后一层的激活值输出作为features，不同的人脸区域放入CNN中提取特征，形成了互补、过全然的特征表示。（form complementary and over-complete representations）。

通过深度卷积网络来学习高级的过全然特征（有监督），CNN的最后一层激活值作为输出，

详细细节：

採用3个尺度，10个人脸region，60个patch，训练60个CNN网络，每一个提取两个160维的特征（两个是由于： extracts two 160-dimensional DeepID vectors from a particular patch and its horizontally flipped counterpart.），所以最后一张人脸图像的特征的维度是：160*2*60=19200维。

CNN的结构例如以下：

深度学习论文笔记-Deep Learning Face Representation from Predicting 10,000 Classes

说明：共5层网络，越往上的神经元的个数就越少，到最后就剩下160个神经元的输出，上面的Face patches 是进过对齐过后的的人脸块，也就是说已左（右）眼为中心的人脸区域块，嘴角为中心的人脸区域块等等，这样就有多个不同的输入块输入到CNN中，文章採用了把倒数第二层的输出+倒数第一层的输出作为特征（这应该是採用12年的Le Cun 那篇文章的track）。最后再把不同的块所输出的特征连接起来，就形成了一个终于一张人脸的特征。然后再用各种分类器对其特征进行分类。

採用Max-Pooling，softmax；

输入图像：39*31*k 个人矩形脸图像块+31*31*k （这里k在彩色图像时为3，灰度时k为1）个人脸正方形块（由于后面要考虑到是全局图像还是局部图像，且须要考虑到尺度问题），使用ReLU非线性处理；

注意到【Weights in higher convolutional layers of our ConvNets are locally shared to learn different mid- or high-level features in different regions [18]. r in Equation 1 indicates a local region where weights are shared. In the third convolutional layer,
weights are locally shared in every 2 2 regions, while weights in the fourth convolutional layer are totally unshared.】

深度学习论文笔记-Deep Learning Face Representation from Predicting 10,000 Classes