PyTorch 多GPU下模型的保存与加载（踩坑笔记）

2023年4月8日上午1:05 • PyTorch

这几天在一机多卡的环境下，用pytorch训练模型，遇到很多问题。现总结一个实用的做实验方式：

多GPU下训练，创建模型代码通常如下：

os.environ['CUDA_VISIBLE_DEVICES'] = args.cuda
model = MyModel(args)
if torch.cuda.is_available() and args.use_gpu:
    model = torch.nn.DataParallel(model).cuda()

官方建议的模型保存方式，只保存参数：

torch.save(model.module.state_dict(), "model.pkl")

其实，这样很麻烦，我建议直接保存模型（参数+图）：

torch.save(model, "model.pkl")

这样做很实用，特别是我们需要反复建模和调试的时候。这种情况下模型的加载很方便，因为模型的图已经和参数保存在一起，我们不需要根据不同的模型设置相应的超参，更换对应的网络结构，如下：

 if not (args.pretrained_model_path is None):
        print('load model from %s ...' % args.pretrained_model_path)
        model = torch.load(args.pretrained_model_path)
        print('success!')

但是需要注意，这种方式加载的是多GPU下模型。如果服务器环境变化不大，或者和训练时候是同一个GPU环境，就不会出现问题。

如果系统环境发生了变化，或者，我们只想加载模型参数，亦或是遇到下面的问题：

AttributeError: 'model' object has no attribute 'copy'

或者

AttributeError: 'DataParallel' object has no attribute 'copy'

或者

RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found

这时候我们可以用下面的方式载入模型，先建立模型，然后加载参数。

os.environ['CUDA_VISIBLE_DEVICES'] = args.cuda
# 建立模型
model = MyModel(args)

if torch.cuda.is_available() and args.use_gpu:
    model = torch.nn.DataParallel(model).cuda()

if not (args.pretrained_model_path is None):
    print('load model from %s ...' % args.pretrained_model_path)
    # 获得模型参数
    model_dict = torch.load(args.pretrained_model_path).module.state_dict()
    # 载入参数
    model.module.load_state_dict(model_dict)
    print('success!')

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：PyTorch 多GPU下模型的保存与加载（踩坑笔记） - Python技术站

pytorch 人工智能

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

pytorch使用gpu加速的方法

上一篇 2023年4月8日

pytorch的visdom启动不了、蓝屏

下一篇 2023年4月8日

《14天动手学深度学习》——循环神经网络进阶

GRU RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系RNN: Ht=ϕ(XtWxh+Ht−1Whh+bh)Ht=ϕ(XtWxh+Ht−1Whh+bh) GRU: Rt=σ(XtWxr+Ht−1Whr+br)Zt=σ(XtWxz+Ht−1Whz+bz)H˜t=tanh(XtWxh+(Rt⊙Ht−…

循环神经网络 2023年4月7日
000
目标检测算法综述

1. 传统的目标检测框架，主要包括三个步骤：（1）利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域；（2）提取候选区域相关的视觉特征。比如人脸检测常用的Harr特征；行人检测和普通目标检测常用的HOG特征等；（3）利用分类器进行识别，比如常用的SVM模型； 2. 目标检测领域的深度学习方法主要分为两类：一阶段（One Stage ）：不需要产生候选框，…

目标检测 2023年4月5日
000
tensorflow

windows下tensorflow的安装

一、直接python安装 1.CPU版本: pip3 install –upgrade tensorflow 2.GPU版本:pip3 install –upgrade tensorflow-gpu 一般学习推荐安装CPU版本，GPU版本有一些前置条件二、Anaconda安装 1.安装Anaconda,如果下载过慢,请点清华镜像下载 2.打开它的命令行…

2023年4月8日
000
循环神经网络

循环神经网络应用举例

RNN的应用举例——基于RNN的语言模型现在，我们介绍一下基于RNN语言模型。我们首先把词依次输入到循环神经网络中，每输入一个词，循环神经网络就输出截止到目前为止，下一个最可能的词。例如，当我们依次输入：我昨天上学迟到了神经网络的输出如下图所示：其中，s和e是两个特殊的词，分别表示一个序列的开始和结束。向量化我们知道，神经网络的输入和输出…

2023年4月6日
000
GAN生成对抗网络

吴恩达Deeplearning.ai国庆节上新：生成对抗网络（GAN）专项课程

公众号关注 “ML_NLP” 设为 “星标”，重磅干货，第一时间送达！ Coursera 刚刚上新了 GAN 的专项课程，或许在这个国庆假期，你应该学习一波了。生成对抗网络（Generative Adversarial Network，GAN）是当前功能最强大的机器学习模型之一，其能够生成逼真的图像、视频和语音输出结果。基于 GAN 的应用十分广泛，比如防…

2023年4月5日
000
卷积神经网络

机器学习进阶-背景建模-(帧差法与混合高斯模型) 1.cv2.VideoCapture(进行视频读取) 2.cv2.getStructureElement(构造形态学的卷积) 3.cv2.createBackgroundSubtractorMOG2(构造高斯混合模型) 4.cv2.morpholyEx(对图像进行形态学的变化)

1. cv2.VideoCapture(‘test.avi’) 进行视频读取参数说明：‘test.avi’ 输入视频的地址2. cv2.getStructureElement(cv2.MORPH_ELLIPSE, (3, 3)) # 构造一个全是1的kernel用于形态学的操作参数说明：cv2.MORPH_ELLIPSE 生成全是1的kernel，(3…

2023年4月8日
000
pytorch保存模型等相关参数，利用torch.save()，以及读取保存之后的文件

转载自： https://www.cnblogs.com/qinduanyinghua/p/9311410.html 假设网络为model = Net(), optimizer = optim.Adam(model.parameters(), lr=args.lr), 假设在某个epoch，我们要保存模型参数，优化器参数以及epoch 一、 1. 先建立一个…

PyTorch 2023年4月8日
000
Pytorch自定义数据集

自定义数据集的代码如下： import os import pandas as pd from torchvision.io import read_image class CustomImageDataset(Dataset): def __init__(self, annotations_file, img_dir, transform=None, ta…

PyTorch 2023年4月8日
000

合作推广

合作推广

返回顶部