解决Pytorch 训练与测试时爆显存(out of memory)的问题

当使用PyTorch进行训练和测试时,可能会遇到显存不足的问题。这种情况通常会导致程序崩溃或无法正常运行。以下是解决PyTorch训练和测试时显存不足问题的完整攻略,包括两个示例说明。

1. 示例1:使用PyTorch的DataLoader进行批量加载数据

当训练和测试数据集非常大时,可能会导致显存不足的问题。为了解决这个问题,可以使用PyTorch的DataLoader进行批量加载数据。以下是使用PyTorch的DataLoader进行批量加载数据的步骤:

  1. 导入必要的库

python
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

  1. 定义数据预处理

python
transform = transforms.Compose(
[transforms.Resize(256),
transforms.CenterCrop(224),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])])

  1. 加载数据集

```python
trainset = torchvision.datasets.ImageFolder(root='./data/train', transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)

testset = torchvision.datasets.ImageFolder(root='./data/test', transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
```

  1. 定义AlexNet模型

```python
class AlexNet(nn.Module):
def init(self, num_classes=1000):
super(AlexNet, self).init()
self.features = nn.Sequential(
nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Conv2d(64, 192, kernel_size=5, padding=2),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Conv2d(192, 384, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(384, 256, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(256, 256, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
)
self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
self.classifier = nn.Sequential(
nn.Dropout(),
nn.Linear(256 * 6 * 6, 4096),
nn.ReLU(inplace=True),
nn.Dropout(),
nn.Linear(4096, 4096),
nn.ReLU(inplace=True),
nn.Linear(4096, num_classes),
)

   def forward(self, x):
       x = self.features(x)
       x = self.avgpool(x)
       x = torch.flatten(x, 1)
       x = self.classifier(x)
       return x

```

  1. 定义损失函数和优化器

python
net = AlexNet()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

  1. 训练模型

```python
for epoch in range(10):
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
inputs, labels = data
optimizer.zero_grad()
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
running_loss += loss.item()
if i % 2000 == 1999:
print('[%d, %5d] loss: %.3f' %
(epoch + 1, i + 1, running_loss / 2000))
running_loss = 0.0

print('Finished Training')
```

  1. 测试模型

```python
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data
outputs = net(images)
_, predicted = torch.max(outputs.data, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (
100 * correct / total))
```

2. 示例2:使用PyTorch的半精度浮点数(FP16)进行训练和测试

另一种解决显存不足问题的方法是使用PyTorch的半精度浮点数(FP16)进行训练和测试。这种方法可以减少显存的使用量,从而避免显存不足的问题。以下是使用PyTorch的半精度浮点数(FP16)进行训练和测试的步骤:

  1. 导入必要的库

python
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

  1. 定义数据预处理

python
transform = transforms.Compose(
[transforms.Resize(256),
transforms.CenterCrop(224),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])])

  1. 加载数据集

```python
trainset = torchvision.datasets.ImageFolder(root='./data/train', transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)

testset = torchvision.datasets.ImageFolder(root='./data/test', transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
```

  1. 定义AlexNet模型

```python
class AlexNet(nn.Module):
def init(self, num_classes=1000):
super(AlexNet, self).init()
self.features = nn.Sequential(
nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Conv2d(64, 192, kernel_size=5, padding=2),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Conv2d(192, 384, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(384, 256, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(256, 256, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
)
self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
self.classifier = nn.Sequential(
nn.Dropout(),
nn.Linear(256 * 6 * 6, 4096),
nn.ReLU(inplace=True),
nn.Dropout(),
nn.Linear(4096, 4096),
nn.ReLU(inplace=True),
nn.Linear(4096, num_classes),
)

   def forward(self, x):
       x = self.features(x)
       x = self.avgpool(x)
       x = torch.flatten(x, 1)
       x = self.classifier(x)
       return x

```

  1. 定义损失函数和优化器

python
net = AlexNet()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

  1. 将模型转换为FP16

python
net = net.half()
criterion = criterion.half()

  1. 训练模型

```python
for epoch in range(10):
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
inputs, labels = data
inputs = inputs.half()
optimizer.zero_grad()
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
running_loss += loss.item()
if i % 2000 == 1999:
print('[%d, %5d] loss: %.3f' %
(epoch + 1, i + 1, running_loss / 2000))
running_loss = 0.0

print('Finished Training')
```

  1. 测试模型

```python
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data
images = images.half()
outputs = net(images)
_, predicted = torch.max(outputs.data, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (
100 * correct / total))
```

以上就是解决PyTorch训练和测试时显存不足问题的完整攻略,包括两个示例说明。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:解决Pytorch 训练与测试时爆显存(out of memory)的问题 - Python技术站

(0)
上一篇 2023年5月15日
下一篇 2023年5月15日

相关文章

  • 莫烦pytorch学习笔记(一)——torch or numpy

    Q1:什么是神经网络? Q2:torch vs numpy Numpy:NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高 效的多(该结构也可以用来表示矩阵(matrix))。专为进行严格的数字处理而产生。   Q3:numpy和Torch…

    2023年4月8日
    00
  • Pytorch 扩展Tensor维度、压缩Tensor维度的方法

    PyTorch扩展Tensor维度、压缩Tensor维度的方法 在PyTorch中,我们可以使用一些函数来扩展或压缩张量的维度。在本文中,我们将介绍如何使用PyTorch扩展Tensor维度、压缩Tensor维度,并提供两个示例说明。 示例1:使用PyTorch扩展Tensor维度 以下是一个使用PyTorch扩展Tensor维度的示例代码: import …

    PyTorch 2023年5月16日
    00
  • 从零搭建Pytorch模型教程(三)搭建Transformer网络

    ​ 前言 本文介绍了Transformer的基本流程,分块的两种实现方式,Position Emebdding的几种实现方式,Encoder的实现方式,最后分类的两种方式,以及最重要的数据格式的介绍。   本文来自公众号CV技术指南的技术总结系列 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。   在讲如何…

    PyTorch 2023年4月8日
    00
  • Pytorch 和 Tensorflow v1 兼容的环境搭建方法

    以下是“PyTorch和TensorFlow v1兼容的环境搭建方法”的完整攻略,包含两个示例说明。 示例1:使用conda创建虚拟环境 步骤1:安装conda 首先,我们需要安装conda。您可以从Anaconda官网下载并安装conda。 步骤2:创建虚拟环境 我们可以使用conda创建一个虚拟环境,该环境包含PyTorch和TensorFlow v1。…

    PyTorch 2023年5月15日
    00
  • Pytorch释放显存占用方式

    下面是关于Pytorch如何释放显存占用的完整攻略,包含两条示例说明。 1. 使用with torch.no_grad()释放显存 在Pytorch中,通过with语句使用torch.no_grad()上下文管理器可以释放显存,这个操作对于训练中不需要梯度计算的代码非常有用。 代码示例: import torch # 创建一个3000 * 3000的矩阵 t…

    PyTorch 2023年5月17日
    00
  • PyTorch-批量训练技巧

    来自:https://morvanzhou.github.io/tutorials/machine-learning/torch/3-05-train-on-batch/  import torch import torch.utils.data as Data torch.manual_seed(1) BATCH_SIZE = 8 # 批训练的数据个数 x…

    PyTorch 2023年4月6日
    00
  • PyTorch 导数应用的使用教程

    PyTorch 导数应用的使用教程 PyTorch 是一个基于 Python 的科学计算库,它主要用于深度学习和神经网络。在 PyTorch 中,导数应用是非常重要的一个功能,它可以帮助我们计算函数的梯度,从而实现自动微分和反向传播。本文将详细讲解 PyTorch 导数应用的使用教程,并提供两个示例说明。 1. PyTorch 导数应用的基础知识 在 PyT…

    PyTorch 2023年5月16日
    00
  • 深度之眼PyTorch训练营第二期 —5、Dataloader与Dataset 以及 transforms与normalize

    一、人民币二分类 描述:输入人民币,通过模型判定类别并输出。   数据:四个子模块     数据收集 -> img,label 原始数据和标签     数据划分 -> train训练集 valid验证集 test测试集     数据读取 -> DataLoader ->(1)Sampler(生成index) (2)Dataset(读取…

    PyTorch 2023年4月8日
    00
合作推广
合作推广
分享本页
返回顶部