Docker AIGC等大模型深度学习环境搭建步骤最新详细版

Docker AIGC大模型深度学习环境搭建步骤

简介

Docker是一款虚拟化容器技术,它可以将应用及其依赖打包为一个可移植的容器,从而实现软件环境的一致性和跨平台性。在深度学习领域,Docker不仅可以简化环境搭建的复杂度,也可以减少环境带来的差异性。

AIGC (AI Grand Challenge)是面向深度学习领域的AI竞赛平台,通过在平台上提供大规模计算和高带宽数据传输的能力,实现了大规模、高效的深度学习模型训练。搭建Docker AIGC大模型深度学习环境,即可在AIGC平台上使用GPU和分布式GPU进行大模型深度学习训练。

Docker安装

Ubuntu系统

sudo apt-get update
sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
echo \
 "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu \
 $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io

CentOS系统

sudo yum install -y yum-utils device-mapper-persistent-data lvm2
sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo
sudo yum install docker-ce docker-ce-cli containerd.io

Windows系统

可以在Docker官网下载安装程序进行安装。

验证Docker是否安装成功

docker --version

Docker AIGC环境搭建

下载Docker AIGC环境镜像

docker pull sungsu55/daigc:gpu

镜像启动

docker run -it --gpus all -v /host_dir:/container_dir sungsu55/daigc:gpu /bin/bash

其中--gpus all参数表示启用全部GPU,-v /host_dir:/container_dir参数表示将宿主机的/host_dir目录映射到容器中的/container_dir目录。此外,sungsu55/daigc:gpu表示Docker AIGC环境的镜像名称和版本号。

容器中环境搭建

Miniconda3环境安装

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash ./Miniconda3-latest-Linux-x86_64.sh -b

echo 'export PATH=/root/miniconda3/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

PyTorch、Tensorflow等深度学习框架安装

conda install pytorch torchvision torchaudio cudatoolkit=11.1 -c pytorch -y
pip install tensorflow-gpu keras

容器退出

容器退出命令为:

exit

示例说明

示例1:使用Docker AIGC环境进行PyTorch训练

在容器中启动jupyter lab

jupyter lab --ip=0.0.0.0 --port=8888 --allow-root

此时可以在浏览器中使用AIGC平台提供的jupyter lab服务,也可以在本机浏览器中打开http://localhost:8888进行访问。在jupyter lab中新建Python3代码文件,编写PyTorch模型代码:

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

net = Net()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

然后进行模型训练:

import torchvision
import torchvision.transforms as transforms

transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
                                        download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
                                          shuffle=True, num_workers=2)

for epoch in range(2):  # loop over the dataset multiple times

    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        # get the inputs; data is a list of [inputs, labels]
        inputs, labels = data

        # zero the parameter gradients
        optimizer.zero_grad()

        # forward + backward + optimize
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        # print statistics
        running_loss += loss.item()
        if i % 2000 == 1999:    # print every 2000 mini-batches
            print('[%d, %5d] loss: %.3f' %
                  (epoch + 1, i + 1, running_loss / 2000))
            running_loss = 0.0

print('Finished Training')

示例2:使用Docker AIGC环境进行TensorFlow分布式训练

在容器中启动TensorFlow集群:

python -m torch.distributed.launch --nproc_per_node=4 train.py --model_dir=./model

此时可以在本机浏览器中打开http://localhost:8888进行TensorBoard查看训练情况。在本机终端中启动tensorboard

tensorboard --logdir=./model

总结

本文简单介绍了如何在Docker中搭建AIGC大模型深度学习环境,并提供了两个示例。除此之外,还可以通过使用Docker Compose等技术实现多个容器间的协同工作,进一步提高深度学习模型训练的效率。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Docker AIGC等大模型深度学习环境搭建步骤最新详细版 - Python技术站

(0)
上一篇 2023年5月25日
下一篇 2023年5月25日

相关文章

  • OpenCV实现透视变换矫正

    接下来我来讲解一下利用OpenCV实现透视变换矫正的完整攻略。 什么是透视变换矫正 透视变换是一种将三维空间中的物体映射到二维平面的方式,但因为透视映射效果的限制,会导致图像出现畸变,如角度失真和形状扭曲等。为了解决这个问题,可以使用透视变换矫正技术,通过恢复透视的变换参数来消除这种畸变。 实现步骤 以下是实现透视变换矫正的基本步骤: 提取图像中需要进行透视…

    人工智能概论 2023年5月24日
    00
  • Vs2019+Qt+Opencv环境配置心得(图文)

    我的回答将包含以下内容: 环境准备 安装Qt 安装OpenCV 配置Qt和OpenCV的集成 示例说明 1. 环境准备 在开始配置Vs2019+Qt+OpenCV环境之前,我们需要确保以下环境已经搭建好: Visual Studio 2019 Qt 5.12 或以上版本 OpenCV 3.4.1 或以上版本 CMake 2. 安装Qt 首先,我们需要从Qt官…

    人工智能概览 2023年5月25日
    00
  • pytorch中使用cuda扩展的实现示例

    使用CUDA可以在GPU上加速深度学习模型的计算,PyTorch提供了非常方便的API来实现CUDA扩展。本攻略将介绍如何在PyTorch中使用CUDA扩展提高模型的训练和推断效率。 准备工作 在使用CUDA扩展之前,我们需要确保系统上已经安装了GPU驱动程序和CUDA工具包,同时需要安装PyTorch和相关的依赖库。 示例1:使用CUDA加速神经网络的训练…

    人工智能概论 2023年5月25日
    00
  • 浅谈linux下的串口通讯开发

    浅谈 Linux 下的串口通讯开发 什么是串口通讯 在计算机与外设通讯中,串口通讯是一种老而弥坚的通讯方式,它通过一组简单的信号线传输数据,它能够对应用上出现的许多通讯问题提供精确、不出错的通讯解决方案。 Linux 中的串口通讯 在 Linux 中,串口通讯也被广泛应用于硬件与软件的沟通连接中。Linux 操作系统提供了开源的串口通讯库,可以方便的对串口进…

    人工智能概览 2023年5月25日
    00
  • django连接Mysql中已有数据库的方法详解

    当我们使用Django框架进行Web应用开发时,通常会用到数据库。其中,MySQL是一种常用的关系型数据库,Django也提供了很好的MySQL集成支持。本文将详细讲解如何连接MySQL中已有数据库的方法。 确认MySQL已安装 在连接MySQL数据库之前,确保已安装MySQL数据库,并确定数据库服务器地址、端口、数据库名称、用户名和密码。 安装并配置Dja…

    人工智能概论 2023年5月25日
    00
  • ubuntu下安装Python多版本的方法及注意事项

    下面我会详细讲解“ubuntu下安装Python多版本的方法及注意事项”的完整攻略。在Ubuntu系统中,我们可以通过以下步骤来安装Python多版本。 安装pyenv pyenv是一个Python版本管理工具,它可以方便地管理多个Python版本,我们可以通过以下命令来安装pyenv。 $ git clone https://github.com/yyuu…

    人工智能概览 2023年5月25日
    00
  • Python+OpenCV实战之拖拽虚拟方块的实现

    “Python+OpenCV实战之拖拽虚拟方块的实现”是一个非常有趣的实践项目,可以提高我们的Python编程和OpenCV图像处理技能。下面是实现该项目的攻略: 1. 准备工作 在开始项目之前,需要进行以下准备工作: 1.1 安装OpenCV 如果你还没有安装OpenCV,请通过以下命令在终端中安装: pip3 install opencv-python …

    人工智能概论 2023年5月25日
    00
  • Django自定义用户认证示例详解

    Django自定义用户认证示例详解 Django提供了默认的用户认证系统,但有时我们需要根据自己的需求进行自定义。下面是一个完整的Django自定义用户认证的攻略。 使用Django内置的auth模块进行用户认证 首先我们来回顾一下Django内置的用户认证系统。在settings.py中配置’django.contrib.auth’后,我们可以使用内置的U…

    人工智能概览 2023年5月25日
    00
合作推广
合作推广
分享本页
返回顶部