pytorch DistributedDataParallel 多卡训练结果变差的解决方案

2023年5月15日下午9:33 • 卷积神经网络

为了解决pytorch DistributedDataParallel多卡训练结果变差的问题，我们可以采用以下解决方案：

数据加载器设置shuffle参数
在使用多卡训练时，我们需要使用torch.utils.data.DistributedSampler并设置shuffle参数为True。这可以确保数据在多机多卡之间均匀地分配，从而避免了训练结果变差的原因。

train_dataset = YourDataset()
train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, shuffle=True)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=args.batch_size, num_workers=args.num_workers, pin_memory=True, sampler=train_sampler)

使用torch.nn.SyncBatchNorm来同步batch normalization参数
BatchNorm层在多卡训练时可能会导致训练结果变差，原因是不同卡之间的数据分布不同，导致每个卡计算的均值和方差不同，从而影响最终的结果。为了解决这个问题，我们可以使用torch.nn.SyncBatchNorm来同步batch normalization参数。

import torch.nn as nn
import torch.nn.functional as F

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1)
        self.bn1 = nn.SyncBatchNorm(64)

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = F.relu(x)
        return x

示例1：
假设我们有两张GPU，我们可以使用以下代码来启动分布式训练模式

torch.distributed.init_process_group(backend='nccl', init_method='tcp://localhost:23456', rank=rank, world_size=2)

model = Model()

# Wrap the model with DDP
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[rank])

示例2：
假设我们有4张GPU，我们可以使用以下代码来启动分布式训练模式

torch.distributed.init_process_group(backend='nccl', init_method='tcp://localhost:23456', rank=rank, world_size=4)

model = Model()

# Wrap the model with DDP
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[rank % 2], output_device=rank % 2)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：pytorch DistributedDataParallel 多卡训练结果变差的解决方案 - Python技术站

卷积神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python实战小项目之Mnist手写数字识别

上一篇 2023年5月15日

tensorflow实现KNN识别MNIST

下一篇 2023年5月15日

卷积神经网络

FFT在卷积中的应用

两个函数的卷积是一个非常有意义的物理概念，在谐波分析和图象处理等许多科学领域都有重要应用。在FFT出现之前，关于卷积的计算，与DFT一样，忍受着沉重的计算负担。为此，本节将讨论卷积以及利用FFT对离散卷积的计算问题。 §4.1 卷积假设x(t)和h(t)是定义在实轴上的实值或复值函数，则x(t)与h(t)的卷积简记为x(t)*h(t)，且由以下积分确定 …

2023年4月8日
000
卷积神经网络

Deep Learning论文笔记之（五）CNN卷积神经网络代码理解 – blogernice

Deep Learning论文笔记之（五）CNN卷积神经网络代码理解自己平时看了一些论文，但老感觉看完过后就会慢慢的淡忘，某一天重新拾起来的时候又好像没有看过一样。所以想习惯地把一些感觉有用的论文中的知识点总结整理一下，一方面在整理过程中，自己的理解也会更深，另一方面也方便未来自己的勘察。更好的还可以放到博客上面与大家交流。因为基础有限，所以对论文的一些理…

2023年4月8日
000
卷积神经网络

卷积神经网络中十大拍案叫绝的操作【转】

原文：https://cloud.tencent.com/developer/article/1038802 CNN从2012年的AlexNet发展至今，科学家们发明出各种各样的CNN模型，一个比一个深，一个比一个准确，一个比一个轻量。我下面会对近几年一些具有变革性的工作进行简单盘点，从这些充满革新性的工作中探讨日后的CNN变革方向。注：水平所限，下面…

2023年4月6日
000
一文让你彻底了解卷积神经网络

介绍卷积神经网络（Convolutional Neural Network，CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer)。对比：卷积神经网络、全连接神经网络左图：全连接神经网络（平面）组成：输入层、…

卷积神经网络 2023年4月7日
000
CNN卷积层：ReLU函数 Rectified Linear Units)激活函数

卷积层的非线性部分一、ReLU定义 ReLU：全称 Rectified Linear Units)激活函数定义 def relu(x): 　　return x if x >0 else 0 #Softplus为ReLU的平滑版二、传统sigmoid系激活函数 Sigmoid与人的神经反应很相似，在很多浅层模型上发挥巨大作用传统神经网络中最常…

卷积神经网络 2023年4月7日
000
卷积神经网络

3-4 卷积的滑动窗口实现

假设对象检测算法输入一个 14×14×3 的图像，图像很小。在这里过滤器大小为 5×5，数量是 16， 14×14×3 的图像在过滤器处理之后映射为 10×10×16。然后通过参数为 2×2 的最大池化操作，图像减小到 5×5×16。然后添加一个连接 400 个单元的全连接层，接着再添加一个全连接层，最后通过 softmax 单元输出。这里用 4 个数字来表…

2023年4月8日
000
怎样理解傅立叶变换和卷积

傅立叶变换先看连续和离散系统的公式： \[F(w)=\int^{+\infty}_{-\infty} f(t)e^{-iwt}dt=\int^{+\infty}_{-\infty} f(t)(\cos wt-i\sin wt)dt \tag{1} \] \[F(w)=\sum^{+\infty}_{t=-\infty}f(t)(\cos wt-i\sin …

卷积神经网络 2023年4月7日
000
卷积定理的证明

今天终于搞明白了卷积定理的证明，以前一直拿来就用的“时域卷积等于频域点积”终于得以揭秘：直接证明一下连续情况好了，很容易推广到离散域（我不会）：傅里叶变换的定义是：　　　　FT(f) = integrate [-inf,+inf] f(t)*e^(-i*w*t) dt 卷积的定义是(先用@冒充一下卷积的算符qwq,学完latex一定改)： …

卷积神经网络 2023年4月6日
000

合作推广

合作推广

返回顶部