pytorch使用指定GPU训练的实例

yizhihongxing

在PyTorch中,我们可以使用指定的GPU来训练模型。在本文中,我们将详细讲解如何使用指定的GPU来训练模型。我们将使用两个示例来说明如何完成这些步骤。

示例1:使用单个GPU训练模型

以下是使用单个GPU训练模型的步骤:

import torch
import torch.nn as nn
import torch.optim as optim

# 检查GPU是否可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

# 定义模型
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = x.view(-1, 784)
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

model = Net().to(device)

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.1)

# 加载数据
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)

# 训练模型
for epoch in range(10):
    running_loss = 0.0
    for i, data in enumerate(train_loader, 0):
        inputs, labels = data
        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()

    print(f'Epoch {epoch + 1}, Loss: {running_loss / len(train_dataset)}')

在上述代码中,我们首先检查GPU是否可用,并将模型移动到GPU上。然后,我们定义了一个简单的全连接神经网络Net,它含有一个输入层、一个隐藏层和一个输出层。在训练模型的过程中,我们使用inputs.to(device)labels.to(device)将数据移动到GPU上。在训练模型的过程中,我们使用torch.utils.data.DataLoader加载数据,并使用enumerate()函数遍历数据。在每个批次中,我们使用optimizer.zero_grad()清除梯度,使用model(inputs)计算输出,使用criterion(outputs, labels)计算损失,使用loss.backward()计算梯度,使用optimizer.step()更新权重。

示例2:使用多个GPU训练模型

以下是使用多个GPU训练模型的步骤:

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.parallel
import torch.distributed as dist
import torch.multiprocessing as mp
import torch.utils.data
import torch.utils.data.distributed

# 检查GPU是否可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

# 定义模型
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = x.view(-1, 784)
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

model = Net().to(device)

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss().to(device)
optimizer = optim.SGD(model.parameters(), lr=0.1)

# 加载数据
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True, num_workers=4, pin_memory=True)

# 训练模型
def train(gpu, train_loader):
    rank = gpu
    dist.init_process_group(backend='nccl', init_method='tcp://127.0.0.1:23456', world_size=2, rank=rank)
    torch.cuda.set_device(gpu)
    model = Net().to(device)
    model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[gpu])
    criterion = nn.CrossEntropyLoss().to(device)
    optimizer = optim.SGD(model.parameters(), lr=0.1)

    for epoch in range(10):
        running_loss = 0.0
        for i, data in enumerate(train_loader, 0):
            inputs, labels = data
            inputs, labels = inputs.to(device), labels.to(device)
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()

        print(f'Epoch {epoch + 1}, Loss: {running_loss / len(train_dataset)}')

# 启动多个进程
if __name__ == '__main__':
    mp.spawn(train, nprocs=2, args=(train_loader,))

在上述代码中,我们首先检查GPU是否可用,并将模型移动到GPU上。然后,我们定义了一个简单的全连接神经网络Net,它含有一个输入层、一个隐藏层和一个输出层。在训练模型的过程中,我们使用inputs.to(device)labels.to(device)将数据移动到GPU上。在训练模型的过程中,我们使用torch.utils.data.DataLoader加载数据,并使用enumerate()函数遍历数据。在每个批次中,我们使用optimizer.zero_grad()清除梯度,使用model(inputs)计算输出,使用criterion(outputs, labels)计算损失,使用loss.backward()计算梯度,使用optimizer.step()更新权重。在使用多个GPU训练模型时,我们使用torch.nn.parallel.DistributedDataParallel函数将模型并行化,并使用mp.spawn()函数启动多个进程。

结论

在本文中,我们详细讲解了如何使用指定的GPU来训练模型。我们使用了两个示例来说明如何完成这些步骤。如果您按照这些步骤操作,您应该能够成功使用指定的GPU来训练模型。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:pytorch使用指定GPU训练的实例 - Python技术站

(0)
上一篇 2023年5月15日
下一篇 2023年5月15日

相关文章

  • pytorch中nn.RNN()总结

    nn.RNN(input_size, hidden_size, num_layers=1, nonlinearity=tanh, bias=True, batch_first=False, dropout=0, bidirectional=False) 参数说明 input_size输入特征的维度, 一般rnn中输入的是词向量,那么 input_size 就…

    PyTorch 2023年4月6日
    00
  • 取出预训练模型中间层的输出(pytorch)

    1 遍历子模块直接提取 对于简单的模型,可以采用直接遍历子模块的方法,取出相应name模块的输出,不对模型做任何改动。该方法的缺点在于,只能得到其子模块的输出,而对于使用nn.Sequensial()中包含很多层的模型,无法获得其指定层的输出。 示例 resnet18取出layer1的输出 from torchvision.models import res…

    2023年4月5日
    00
  • Pytorch中的图像增广transforms类和预处理方法

    在PyTorch中,我们可以使用transforms类来进行图像增广和预处理。transforms类提供了一些常用的函数,例如transforms.Resize()函数可以调整图像的大小,transforms.RandomCrop()函数可以随机裁剪图像,transforms.RandomHorizontalFlip()函数可以随机水平翻转图像等。在本文中,…

    PyTorch 2023年5月15日
    00
  • pytorch hook 钩子函数的用法

    PyTorch Hook 钩子函数的用法 PyTorch中的Hook钩子函数是一种非常有用的工具,可以在模型的前向传播和反向传播过程中插入自定义的操作。本文将详细介绍PyTorch Hook钩子函数的用法,并提供两个示例说明。 什么是Hook钩子函数 在PyTorch中,每个nn.Module都有一个register_forward_hook方法和一个reg…

    PyTorch 2023年5月16日
    00
  • pytorch进行上采样的种类实例

    PyTorch进行上采样的种类实例 在PyTorch中,上采样是一种常见的操作,用于将低分辨率图像或特征图放大到高分辨率。本文将介绍PyTorch中的上采样种类,并提供两个示例说明。 双线性插值 双线性插值是一种常见的上采样方法,它使用周围四个像素的值来计算新像素的值。以下是一个简单的双线性插值示例: import torch import torch.nn…

    PyTorch 2023年5月16日
    00
  • pytorch中修改后的模型如何加载预训练模型

    问题描述 简单来说,比如你要加载一个vgg16模型,但是你自己需要的网络结构并不是原本的vgg16网络,可能你删掉某些层,可能你改掉某些层,这时你去加载预训练模型,就会报错,错误原因就是你的模型和原本的模型不匹配。   此时有两种解决方法: 1、重新解析参数的字典,将预训练模型的参数提取出来,然后放在自己的模型中对应的位置 2、直接用原本的vgg16网络去加…

    PyTorch 2023年4月6日
    00
  • pytorch函数之torch.normal()

    Returns a Tensor of random numbers drawn from separate normal distributions who’s mean and standard deviation are given. 这个是官网给出的解释,大意是返回一个张量,张量里面的随机数是从相互独立的正态分布中随机生成的。 根据官网中给出的实例进…

    PyTorch 2023年4月8日
    00
  • 从零搭建Pytorch模型教程(四)编写训练过程–参数解析

    ​  前言 训练过程主要是指编写train.py文件,其中包括参数的解析、训练日志的配置、设置随机数种子、classdataset的初始化、网络的初始化、学习率的设置、损失函数的设置、优化方式的设置、tensorboard的配置、训练过程的搭建等。由于篇幅问题,这些内容将分成多篇文章来写。本文介绍参数解析的两种方式。 欢迎关注公众号CV技术指南,专注于计算机…

    2023年4月8日
    00
合作推广
合作推广
分享本页
返回顶部