基于Python的卷积神经网络和特征提取

224

在这篇文章中：

作者：Christian S.Peron

译者：刘帝伟

摘要：本文展示了如何基于nolearn使用一些卷积层和池化层来建立一个简单的ConvNet体系结构，以及如何使用ConvNet去训练一个特征提取器，然后在使用如SVM、Logistic回归等不同的模型之前使用它来进行特征提取。

卷积神经网络（ConvNets）是受生物启发的MLPs（多层感知器），它们有着不同类别的层，并且每层的工作方式与普通的MLP层也有所差异。如果你对ConvNets感兴趣，这里有个很好的教程CS231n – Convolutional Neural Newtorks for Visual Recognition。CNNs的体系结构如下所示：

常规的神经网络（来自CS231n网站）

ConvNet网络体系结构（来自CS231n网站）

如你所见，ConvNets工作时伴随着3D卷积并且在不断转变着这些3D卷积。我在这篇文章中不会再重复整个CS231n的教程，所以如果你真的感兴趣，请在继续阅读之前先花点时间去学习一下。

Lasagne 和 nolearn

Lasagne和nolearn是我最喜欢使用的深度学习Python包。Lasagne是基于Theano的，所以GPU的加速将大有不同，并且其对神经网络创建的声明方法也很有帮助。nolearn库是一个神经网络软件包实用程序集（包含Lasagne），它在神经网络体系结构的创建过程上、各层的检验等都能够给我们很大的帮助。

在这篇文章中我要展示的是，如何使用一些卷积层和池化层来建立一个简单的ConvNet体系结构。我还将向你展示如何使用ConvNet去训练一个特征提取器，在使用如SVM、Logistic回归等不同的模型之前使用它来进行特征提取。大多数人使用的是预训练ConvNet模型，然后删除最后一个输出层，接着从ImageNets数据集上训练的ConvNets网络提取特征。这通常被称为是迁移学习，因为对于不同的问题你可以使用来自其它的ConvNets层，由于ConvNets的第一层过滤器被当做是一个边缘探测器，所以它们可以用来作为其它问题的普通特征探测器。

加载MNIST数据集

MNIST数据集是用于数字识别最传统的数据集之一。我们使用的是一个面向Python的版本，但先让我们导入需要使用的包：

[py] view plaincopy

import matplotlib
import matplotlib.pyplot as plt
import matplotlib.cm as cm
from urllib import urlretrieve
import cPickle as pickle
import os
import gzip
import numpy as np
import theano
import lasagne
from lasagne import layers
from lasagne.updates import nesterov_momentum
from nolearn.lasagne import NeuralNet
from nolearn.lasagne import visualize
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

正如你所看到的，我们导入了用于绘图的matplotlib包，一些用于下载MNIST数据集的原生Python模块，numpy， theano，lasagne，nolearn 以及 scikit-learn库中用于模型评估的一些函数。

然后，我们定义一个加载MNIST数据集的函数（这个功能与Lasagne教程上使用的非常相似）

[py] view plaincopy

def load_dataset():
url = 'http://deeplearning.net/data/mnist/mnist.pkl.gz'
filename = 'mnist.pkl.gz'
if not os.path.exists(filename):
print("Downloading MNIST dataset...")
urlretrieve(url, filename)
with gzip.open(filename, 'rb') as f:
data = pickle.load(f)
X_train, y_train = data[0]
X_val, y_val = data[1]
X_test, y_test = data[2]
X_train = X_train.reshape((-1, 1, 28, 28))
X_val = X_val.reshape((-1, 1, 28, 28))
X_test = X_test.reshape((-1, 1, 28, 28))
y_train = y_train.astype(np.uint8)
y_val = y_val.astype(np.uint8)
y_test = y_test.astype(np.uint8)
return X_train, y_train, X_val, y_val, X_test, y_test

正如你看到的，我们正在下载处理过的MNIST数据集，接着把它拆分为三个不同的数据集，分别是：训练集、验证集和测试集。然后重置图像内容，为之后的Lasagne输入层做准备，与此同时，由于GPU/theano数据类型的限制，我们还把numpy的数据类型转换成了uint8。

随后，我们准备加载MNIST数据集并检验它：

[py] view plaincopy

X_train, y_train, X_val, y_val, X_test, y_test = load_dataset()
plt.imshow(X_train[0][0], cmap=cm.binary)

这个代码将输出下面的图像（我用的是IPython Notebook）

一个MNIST数据集的数字实例（该实例是5）

ConvNet体系结构与训练

现在，定义我们的ConvNet体系结构，然后使用单GPU/CPU来训练它（我有一个非常廉价的GPU，但它很有用）

[py] view plaincopy

net1 = NeuralNet(
layers=[('input', layers.InputLayer),
('conv2d1', layers.Conv2DLayer),
('maxpool1', layers.MaxPool2DLayer),
('conv2d2', layers.Conv2DLayer),
('maxpool2', layers.MaxPool2DLayer),
('dropout1', layers.DropoutLayer),
('dense', layers.DenseLayer),
('dropout2', layers.DropoutLayer),
('output', layers.DenseLayer),
],
# input layer
input_shape=(None, 1, 28, 28),
# layer conv2d1
conv2d1_num_filters=32,
conv2d1_filter_size=(5, 5),
conv2d1_nonlinearity=lasagne.nonlinearities.rectify,
conv2d1_W=lasagne.init.GlorotUniform(),
# layer maxpool1
maxpool1_pool_size=(2, 2),
# layer conv2d2
conv2d2_num_filters=32,
conv2d2_filter_size=(5, 5),
conv2d2_nonlinearity=lasagne.nonlinearities.rectify,
# layer maxpool2
maxpool2_pool_size=(2, 2),
# dropout1
dropout1_p=0.5,
# dense
dense_num_units=256,
dense_nonlinearity=lasagne.nonlinearities.rectify,
# dropout2
dropout2_p=0.5,
# output
output_nonlinearity=lasagne.nonlinearities.softmax,
output_num_units=10,
# optimization method params
update=nesterov_momentum,
update_learning_rate=0.01,
update_momentum=0.9,
max_epochs=10,
verbose=1,
)
# Train the network
nn = net1.fit(X_train, y_train)

如你所视，在layers的参数中，我们定义了一个有层名称/类型的元组字典，然后定义了这些层的参数。在这里，我们的体系结构使用的是两个卷积层，两个池化层，一个全连接层（稠密层，dense layer）和一个输出层。在一些层之间也会有dropout层，dropout层是一个正则化矩阵，随机的设置输入值为零来避免过拟合（见下图）。