深度学习多机多卡解决方案-purine

2023年4月10日下午10:32 • 深度学习

未经允许请不要转载，原作者：zhxfl，http://www.cnblogs.com/zhxfl/p/5287644.html

一、简介

二、环境配置

三、运行demo

四、硬件配置建议

五、其他

一、简介

深度学习多机多卡集群已经成为主流，相对于caffe和mxnet这两个比较活跃的开源，purine显得更值得在高校的学生细读，因为purine的代码显得更加短小精悍，作者的C++功力也相当浑厚，其采用的思想也是非常有价值和启发性的。但是purine已经停止维护，所以其实并不适合企业用户，但是依然有很大的学术价值，特别适合高校研究软件体系结构，深度学习，甚至机器学习GPU集群性能优化等方向的学生阅读。

二、环境配置

2.1、支持C++11

由于purine使用了C++11的标准，所以在ubuntu执行安装gcc-4.8和g++-4.8的命令，此外，为了避免多个版本冲突的问题，可以把其他版本的都卸载掉，免得要去管理和切换编译器的版本。这里我选的是gcc-4.8

1 sudo apt-get --yes --force-yes remove gcc-4.6 g++-4.6 gcc-4.7 g++-4.7 gcc-4.9 g++-4.9
2 sudo apt-get update
3 sudo apt-get --yes --force-yes install gcc-4.8 g++-4.8
4 sudo apt-get --yes --force-yes install gfortran

2.2、安装CUDA和CUDNN

这里我使用的是CUDA-7.0版本，目前知道的是支持的版本有（6.5，7.0，7.5）。需要注意的是，如果安装了其他版本的CUDA，需要先卸载原来版本的CUDA才能安装新的，避免冲突。
卸载CUDA的方法如下：

1 sudo perl /usr/local/cuda/bin/uninstall_cuda_7.5.pl

卸载完原来版本的CUDA之后，需要卸载ubuntu自带的驱动，因为CUDA的安装包中已经自带了相应的驱动。

1 sudo apt-get --yes --force-yes remove nvidia*

由于桌面会占用驱动导致CUDA无法安装显卡驱动，所以在安装CUDA之前，需要先关闭桌面，再执行CUDA的安装包，cuda的安装包可以从官方网站下载：https://developer.nvidia.com/cuda-downloads

1 sudo /etc/init.d/lightdm stop
2 sudo sh ./cuda_7.5.18_linux.run

接下来需要配置cudnn，cudnn是NVIDIA官方维护的深度学习加速库，在某种程度上将，这个库的性能是最快的，所以purine也借用了cudnn来优化性能。cudnn下载前要先注册和申请，稍微比较麻烦一点，地址如下：https://developer.nvidia.com/cudnn，我使用的是cudnn7.0的版本，直接解压然后把对应的文件拷贝到cuda的安装目录即可。

1 sudo tar -xvf ./cudnn-7.0-linux-x64-v3.0-prod.tgz
2 sudo mv ./cuda/include/* /usr/local/cuda/include/
3 sudo mv ./cuda/lib64/* /usr/local/cuda/lib64/
4 sudo rm -rf cuda/

2.3、安装libuv

libuv是一个异步编程的C++库，通过libuv可以很容易实现“事件”，“线程同步”，“线程等待”，“线程池”等逻辑。libuv是个开源库，可以现在源码下来编译：https://github.com/libuv/libuv，我使用的是1.x的版本。

先安装libuv依赖库：

1 sudo apt-get --yes --force-yes install aptitude
2 sudo apt-get --yes --force-yes install libtool automake autoconf autogen

解压下载的安装包进行编译和安装：

 1 echo "Install libuv"
 2 rm -rf ./libuv-1.x.zi
 3 sudo unzip libuv-1.x.zip
 4 cd ./libuv-1.x/
 5 sudo sh autogen.sh
 6 sudo ./configure/
 7 sudo make -j4
 8 sudo make install
 9 cd ../
10 rm -rf ./libuv-1.x/

2.4、CMake安装

CMake是一个跨平台组织编译依赖的工具，可以下载源码进行安装编译，建议使用3.3.2或者以上的版本，一方面是因为我验证过了，第二方面是因为CMAKE对CUDA的支持较晚，建议不要使用3.3.2以下的版本，避免做无用功，CMAKE下载地址https://cmake.org/

1 echo "cmake install"
2 rm -rf ./cmake-3.3.2
3 sudo tar -xvf ./cmake-3.3.2.tar.gz
4 cd ./cmake-3.3.2/
5 ./configure
6 make -j 4
7 sudo make install
8 cd ../
9 rm -rf ./cmake-3.3.2

2.5、安装opencv

opencv是一个图像处理的库，caffe和purine依赖于这个库，建议选择3.0以上的版本，http://opencv.org/downloads.html，这里我使用的是3.0版本，并且使用源码进行编译，此外，建议关闭WITH_CUDA 和 WITH_IPP，因为这两个实际上在purine的项目里面用不上，命令如下：

 1 echo "Install opencv"
 2 sudo apt-get remove libopencv-dev
 3 rm -rf opencv-3.0.0/
 4 sudo unzip ./opencv-3.0.0.zip
 5 cd ./opencv-3.0.0/
 6 cmake -D WITH_CUDA=OFF -D WITH_IPP=OFF .
 7 make -j 4
 8 sudo make install
 9 cd ../
10 rm -rf opencv-3.0.0/

2.6、安装MPI

MPI是一套并行编程的接口，其主要是依赖于SPMD（单个程序，多个数据流，具体到集群就是每个节点所处理的逻辑都是一样的，但是数据流不一样）思想进行编程设计的，由于purine只支持mpich，所以我使用的版本是mpich-3.2b4，地址如下：https://www.mpich.org/2015/07/25/mpich-3-2b4-released/

1 echo "Install mpich"
2 rm -rf ./mpich-3.2b4/
3 tar -xvf ./mpich-3.2b4.tar.gz
4 cd ./mpich-3.2b4/
5 ./configure
6 make -j 4
7 sudo make install
8 cd ../
9 rm -rf ./mpich-3.2b4/

2.7、其他依赖：

1 #sudo apt-get --yes --force-yes install libprotobuf-dev libleveldb-dev libsnappy-dev libboost-all-dev libhdf5-serial-dev libgflags-dev libgoogle-glog-dev liblmdb-dev protobuf-compiler
2 sudo apt-get --yes --force-yes install libprotobuf-dev libgflags-dev libgoogle-glog-dev liblmdb-dev protobuf-compiler libboost-dev
3 sudo apt-get --yes --force-yes install libatlas-base-dev libatlas3gf-base
4 sudo apt-get install libatlas-base-dev libatlas3gf-base

三、运行demo

3.1 编译

先从git上把代码拉下来，原作者的官网在https://github.com/purine/purine2，但是原来git上的工程不能编译通过，其发布的CMakeList.txt有一些bug导致无法编译。也可以使用我fork的分支https://github.com/zhxfl/purine2，我的分支将cmakelist.txt做了修改保证其能正常编译。我后续还在上面做了不少改进的尝试，不过都是增量维护的，并没有曲解作者的初衷，所以可以放心使用我的分支代码。

1 git clone https://github.com/zhxfl/purine2

代码下载下来之后,使用下面命令进行编译，如果这里"cmake ."命令没有顺利通过，可以联系我"zhxfl##mail.ustc.edu.cn"，将“##”替换为@，可能是我前面描述少了导致某些依赖出了问题。

1 cd purine2/
2 cmake .
3 make -j2

3.2 demo数据库制作

这里选用cifar-10数据集，运行

1 ~/tmp/purine2/data/cifar-10/get_cifar10.sh

到purine根目录下执行cifar10_data生成数据库，代码如下，这里强调一下，因为代码利用的是相对目录，所以必须在purine2/目录下执行，执行完毕之后会在purine2/data/cifar-10目录下会生成两个数据库文件cifar-10-train-lmdb和cifar-10-test-lmdb两个目录。

./test/cifar10_data

3.3 单机多卡

运行demo之前，需要先配置两个文件，parallel_config文件中加入

0 0 64
0 1 64

这三个参数分别表示（机器编号，显卡标号，迭代对应的batch_size）

接下来要配置一下HOSTFILE文件，填入本机的IP地址，一个地址一行，接下来使用如下命令启动purine运行，该命令表示启动两个进程，

mpirun -n 1 -hostfile HOSTFILE ./test/nin_cifar10

3.4 多机多卡

1、在进行多机多卡之前，在不同机器之间配置一下ssh无密码认证。

2、确认不同机器之间已经可以无密码认证之后，先配置一下每台机器上的hosts文件，给每个机器取一个名字，比如我们有两个节点，分别为A，B，其中A上面有两块显卡。那么parallel_config文件配置如下：

0 0 64
0 1 64
1 0 64

HOSTFILE

A
B

将这两个配置文件拷贝到不同机器的purine目录下，这里要保证每台机器都有purine目录，并且其可执行文件都是一样的，此外，由于我们没有分布式文件系统，所以必须保证每台机器上都有数据。

接下来执行如下命令：

mpirun -n 2 -hostfile HOSTFILE ./test/nin_cifar10

此外，所有log都保存在系统/tmp/目录下

四、硬件配置建议

如果是用于学术研究而不是商业化，推荐一个经济实惠的硬件方案：

1、显卡：titianx显卡2个，gtx98ti也可以，

2、主板可以选可以插几块显卡的，一般也就几千块钱，如“技嘉LGA2011-3 GA-X99”

机箱和电源什么让供应商配就行了，整个解决方案可以控制在2,3w之间。

五、其他

如果你不是研究集群性能的，只是有做做实验，甚至希望在windows上进行开发和研究，

可以考虑我们实验室的其他开源CUDA-CNN和CUDA-MCDNN，我们大部分修改算法的尝试都是在这两个项目上进行的。

如果有其他问题，可以联系我：zhxfl##mail.ustc.edu.cn

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习多机多卡解决方案-purine - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

《动手学深度学习》系列笔记 —— 语言模型（n元语法、随机采样、连续采样）

上一篇 2023年4月10日

深度学习 CNN CUDA 版本2

下一篇 2023年4月10日

【深度学习】K-L 散度，JS散度，Wasserstein距离

度量两个分布之间的差异（一）K-L 散度 K-L 散度在信息系统中称为相对熵，可以用来量化两种概率分布 P 和 Q 之间的差异，它是非对称性的度量。在概率学和统计学上，我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。一般情况下，P 表示数据的真实分布，Q 表示数据的理…

深度学习 2023年4月11日
000
20180813视频笔记深度学习基础上篇（1）之必备基础知识点深度学习基础上篇（2）神经网络模型视频笔记：深度学习基础上篇（3）神经网络案例实战和深度学习基础下篇

https://www.bilibili.com/video/av27935126/?p=1 第一课:开发环境的配置 Anaconda的安装库的安装 Windows下TensorFlow的安装 Jupyternotebook 可视化方便，但不能debug 第二课：IDE的使用 PyCharm Eclipce的下载安装环境配置第三课：一个简单的神经…

深度学习 2023年4月11日
000
深度学习之收敛问题

http://blog.csdn.net/xlbryant/article/details/48470987 1.数据库太小一般不会带来不收敛的问题，只要你一直在train总会收敛（rp问题跑飞了不算）。反而不收敛一般是由于样本的信息量太大导致网络不足以fit住整个样本空间。样本少只可能带来过拟合的问题，你看下你的training set上的loss收敛了吗…

深度学习 2023年4月13日
000
微软IJCAI2016演讲PPT：深度学习在语义理解上不再难有用武之地

微软研究院在IJCAI2016第一天的Tutorial上讲述了自己将深度学习、深度神经网络应用于语义理解上的一些经验和收获。作为小娜和小冰的开发者，微软在自然预言语义理解上的造诣无疑是很高的。而早在一月就将其深度学习开发工具包CNTK开源的举动也表明微软确实希望促进人工智能的发展。这次就让我们通过Tutorial上演讲PPT的概览部分，看看微软在他们最擅长的…

深度学习 2023年4月11日
000
复现深度强化学习论文经验之谈

近期深度强化学习领域日新月异，其中最酷的一件事情莫过于 OpenAI 和 DeepMind 训练智能体接收人类的反馈而不是传统的奖励信号。本文作者认为复现论文是提升机器学习技能的最好方式之一，所以选择了 OpenAI 论文《Deep Reinforcement Learning from Human Preferences》作为 target，虽获得最后成功…

深度学习 2023年4月13日
000
《神经网络和深度学习》系列文章三：sigmoid神经元

出处： Michael Nielsen的《Neural Network and Deep Leraning》，点击末尾“阅读原文”即可查看英文原文。本节译者：哈工大SCIR硕士生徐伟 (https://github.com/memeda) 声明：我们将在每周一，周四，周日定期连载该书的中文翻译，如需转载请联系wechat_editors@ir.hit.e…

深度学习 2023年4月12日
000
神经网络与深度学习[邱锡鹏] 第二章习题解析

视角1：一般平方损失函数的公式如下图所示： h表示的是你的预测结果，y表示对应的标签，J就可以理解为用二范数的方式将预测和标签的差距表示出来，模型学习的过程就是优化权重参数，使得J达到近似最小值。理论上这个损失函数是很有效果的，但是在实践中却又些问题。它这个h是激活函数激活后的结果，激活函数通常是非线性函数，例如sigmoid之类的，这就使得这个J的曲线变得…

深度学习 2023年4月11日
000
《C语言深度解剖》学习笔记之符号

第2章符号 1.注释符号　　编译器会将注释剔除，用空格代替原来的注释　　y=x /* p; 编译器提示出错的原因：实际上，编译器会把“/*”当作一段注释的开始，直到出现“*/”为止。【规则 2-1】注释应当准确，易懂，防止二义性【规则 2-2】注释是对代码的提示，而不是文档【规则 2-3】边写代码边写注释【规则 2-4】一目了然的语句不加注释 …

深度学习 2023年4月11日
000

深度学习多机多卡解决方案-purine

相关文章