解决Pytorch 训练与测试时爆显存(out of memory)的问题

当使用PyTorch进行训练和测试时,可能会遇到显存不足的问题。这种情况通常会导致程序崩溃或无法正常运行。以下是解决PyTorch训练和测试时显存不足问题的完整攻略,包括两个示例说明。

1. 示例1:使用PyTorch的DataLoader进行批量加载数据

当训练和测试数据集非常大时,可能会导致显存不足的问题。为了解决这个问题,可以使用PyTorch的DataLoader进行批量加载数据。以下是使用PyTorch的DataLoader进行批量加载数据的步骤:

  1. 导入必要的库

python
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

  1. 定义数据预处理

python
transform = transforms.Compose(
[transforms.Resize(256),
transforms.CenterCrop(224),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])])

  1. 加载数据集

```python
trainset = torchvision.datasets.ImageFolder(root='./data/train', transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)

testset = torchvision.datasets.ImageFolder(root='./data/test', transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
```

  1. 定义AlexNet模型

```python
class AlexNet(nn.Module):
def init(self, num_classes=1000):
super(AlexNet, self).init()
self.features = nn.Sequential(
nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Conv2d(64, 192, kernel_size=5, padding=2),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Conv2d(192, 384, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(384, 256, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(256, 256, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
)
self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
self.classifier = nn.Sequential(
nn.Dropout(),
nn.Linear(256 * 6 * 6, 4096),
nn.ReLU(inplace=True),
nn.Dropout(),
nn.Linear(4096, 4096),
nn.ReLU(inplace=True),
nn.Linear(4096, num_classes),
)

   def forward(self, x):
       x = self.features(x)
       x = self.avgpool(x)
       x = torch.flatten(x, 1)
       x = self.classifier(x)
       return x

```

  1. 定义损失函数和优化器

python
net = AlexNet()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

  1. 训练模型

```python
for epoch in range(10):
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
inputs, labels = data
optimizer.zero_grad()
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
running_loss += loss.item()
if i % 2000 == 1999:
print('[%d, %5d] loss: %.3f' %
(epoch + 1, i + 1, running_loss / 2000))
running_loss = 0.0

print('Finished Training')
```

  1. 测试模型

```python
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data
outputs = net(images)
_, predicted = torch.max(outputs.data, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (
100 * correct / total))
```

2. 示例2:使用PyTorch的半精度浮点数(FP16)进行训练和测试

另一种解决显存不足问题的方法是使用PyTorch的半精度浮点数(FP16)进行训练和测试。这种方法可以减少显存的使用量,从而避免显存不足的问题。以下是使用PyTorch的半精度浮点数(FP16)进行训练和测试的步骤:

  1. 导入必要的库

python
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

  1. 定义数据预处理

python
transform = transforms.Compose(
[transforms.Resize(256),
transforms.CenterCrop(224),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])])

  1. 加载数据集

```python
trainset = torchvision.datasets.ImageFolder(root='./data/train', transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)

testset = torchvision.datasets.ImageFolder(root='./data/test', transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
```

  1. 定义AlexNet模型

```python
class AlexNet(nn.Module):
def init(self, num_classes=1000):
super(AlexNet, self).init()
self.features = nn.Sequential(
nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Conv2d(64, 192, kernel_size=5, padding=2),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Conv2d(192, 384, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(384, 256, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(256, 256, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
)
self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
self.classifier = nn.Sequential(
nn.Dropout(),
nn.Linear(256 * 6 * 6, 4096),
nn.ReLU(inplace=True),
nn.Dropout(),
nn.Linear(4096, 4096),
nn.ReLU(inplace=True),
nn.Linear(4096, num_classes),
)

   def forward(self, x):
       x = self.features(x)
       x = self.avgpool(x)
       x = torch.flatten(x, 1)
       x = self.classifier(x)
       return x

```

  1. 定义损失函数和优化器

python
net = AlexNet()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

  1. 将模型转换为FP16

python
net = net.half()
criterion = criterion.half()

  1. 训练模型

```python
for epoch in range(10):
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
inputs, labels = data
inputs = inputs.half()
optimizer.zero_grad()
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
running_loss += loss.item()
if i % 2000 == 1999:
print('[%d, %5d] loss: %.3f' %
(epoch + 1, i + 1, running_loss / 2000))
running_loss = 0.0

print('Finished Training')
```

  1. 测试模型

```python
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data
images = images.half()
outputs = net(images)
_, predicted = torch.max(outputs.data, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (
100 * correct / total))
```

以上就是解决PyTorch训练和测试时显存不足问题的完整攻略,包括两个示例说明。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:解决Pytorch 训练与测试时爆显存(out of memory)的问题 - Python技术站

(0)
上一篇 2023年5月15日
下一篇 2023年5月15日

相关文章

  • pytorch中:使用bert预训练模型进行中文语料任务,bert-base-chinese下载。

    1.网址:https://huggingface.co/bert-base-chinese?text=%E5%AE%89%E5%80%8D%E6%98%AF%E5%8F%AA%5BMASK%5D%E7%8B%97 2.下载: 下载 在这里插入图片描述

    PyTorch 2023年4月6日
    00
  • pytorch 矩阵数据增加维度unsqueeze和降低维度squeeze

    增加一个维度 out.unsqueeze(-1) 降低一个维度 out.squeeze(dim=1)  

    PyTorch 2023年4月8日
    00
  • pytorch 中模型的保存与加载,增量训练

     让模型接着上次保存好的模型训练,模型加载 #实例化模型、优化器、损失函数 model = MnistModel().to(config.device) optimizer = optim.Adam(model.parameters(),lr=0.01) if os.path.exists(“./model/mnist_net.pt”): model.loa…

    2023年4月8日
    00
  • Jupyter Notebook远程登录及密码设置操作

    Jupyter Notebook远程登录及密码设置操作 Jupyter Notebook是一种非常流行的交互式计算环境,它可以让用户在浏览器中编写和运行代码。本文将介绍如何在远程服务器上设置Jupyter Notebook,并设置密码以保护您的笔记本。 远程登录Jupyter Notebook 要在远程服务器上登录Jupyter Notebook,您需要执行…

    PyTorch 2023年5月15日
    00
  • pytorch 6 batch_train 批训练

    import torch import torch.utils.data as Data torch.manual_seed(1) # reproducible # BATCH_SIZE = 5 BATCH_SIZE = 8 # 每次使用8个数据同时传入网路 x = torch.linspace(1, 10, 10) # this is x data (to…

    PyTorch 2023年4月8日
    00
  • 在jupyter Notebook中使用PyTorch中的预训练模型ResNet进行图像分类

    预训练模型是在像ImageNet这样的大型基准数据集上训练得到的神经网络模型。 现在通过Pytorch的torchvision.models 模块中现有模型如 ResNet,用一张图片去预测其类别。 1. 下载资源 这里随意从网上下载一张狗的图片。 类别标签IMAGENET1000 从 https://blog.csdn.net/weixin_3430401…

    PyTorch 2023年4月7日
    00
  • pytorch中动态调整学习率

    https://blog.csdn.net/bc521bc/article/details/85864555 这篇bolg说的很详细了,但是具体在代码中怎么用还是有点模糊。自己试验了一下,顺路记一下,其实很简单,在optimizer后面定义一下,然后在每个epoch中step一下就可以了。一开始出错是因为我把step放到 T_optimizer.step()…

    PyTorch 2023年4月6日
    00
  • 实践torch.fx第一篇——基于Pytorch的模型优化量化神器

    第一篇——什么是torch.fx 今天聊一下比较重要的torch.fx,也趁着这次机会把之前的torch.fx笔记整理下,笔记大概拆成三份,分别对应三篇: 什么是torch.fx 基于torch.fx做量化 基于torch.fx量化部署到TensorRT 本文对应第一篇,主要介绍torch.fx和基本使用方法。废话不多说,直接开始吧! 什么是Torch.FX…

    2023年4月8日
    00
合作推广
合作推广
分享本页
返回顶部