深度学习框架TensorFlow在Kubernetes上的实践

2023年4月8日下午1:25 • tensorflow

什么是TensorFlow

TensorFlow是谷歌在去年11月份开源出来的深度学习框架。开篇我们提到过AlphaGo，它的开发团队DeepMind已经宣布之后的所有系统都将基于TensorFlow来实现。TensorFlow一款非常强大的开源深度学习开源工具。它可以支持手机端、CPU、GPU以及分布式集群。TensorFlow在学术界和工业界的应用都非常广泛。在工业界，基于TensorFlow开发的谷歌翻译、谷歌RankBrain等系统都已经上线。在学术界很多我在CMU、北大的同学都表示TensorFlow是他们实现深度学习算法的首选工具。

深度学习框架TensorFlow在Kubernetes上的实践

上面的ppt给出了一个简单的TensorFlow程序样例，这个样例实现了向量加法的功能。TensorFlow提供了Python和C++的API，但Python的API更全面，所以大部分TensorFlow程序都是通过Python实现的。在上面程序的第一行我们通过import将TensorFlow加载进来。在TensorFlow中所有的数据都是通过张量（Tensor）的方式存储，要计算张量中数据的具体取值，我们需要通过一个会话（session）。

上面代码中的第二行展示了如何生成会话。会话管理运行一个TensorFlow程序所需要的计算资源。TensorFlow中一个比较特殊的张量是变量（tf.Variable），在使用变量之前，我们需要明确调用变量初始化的过程。在上面的代码最后一行，我们可以看到要得到结果张量output的取值，我们需要明确调用计算张量取值的过程。

深度学习框架TensorFlow在Kubernetes上的实践

通过TensorFlow实现神经网络是非常简单的。通过TFLearn或者TensorFlow-Slim可以在10行之内实现MNIST手写体数字识别问题。上面的ppt展示了TensorFlow对于不同神经网络结构的支持，可以看出，TensorFlow可以在很短的代码内支持各种主要的神经网络结构。

虽然TensorFlow可以很快的实现神经网络的功能，不过单机版的TensorFlow却很难训练大规模的深层神经网络。

深度学习框架TensorFlow在Kubernetes上的实践

这张图给出了谷歌在2015年提出的Inception-v3模型。这个模型在ImageNet数据集上可以达到95%的正确率。然而，这个模型中有2500万个参数，分类一张图片需要50亿次加法或者乘法运算。即使只是使用这样大规模的神经网络已经需要非常大的计算量了，如果需要训练深层神经网络，那么需要更大的计算量。神经网络的优化比较复杂，没有直接的数学方法求解，需要反复迭代。在单机上要把Inception-v3模型训练到78%的准确率大概需要5个多月的时间。如果要训练到95%的正确率需要数年。这对于实际的生产环境是完全无法忍受的。

TensorFlow on Kubernetes

如我们上面所介绍的，在单机环境下是无法训练大型的神经网络的。在谷歌的内部，Google Brain以及TensorFlow都跑在谷歌内部的集群管理系统Borg上。我在谷歌电商时，我们使用的商品分类算法就跑在1千多台服务器上。在谷歌外，我们可以将TensorFlow跑在Kubernetes上。在介绍如何将TensorFlow跑在Kubernetes上之前，我们先来介绍一下如何并行化的训练深度学习的模型。

深度学习框架TensorFlow在Kubernetes上的实践

深度学习模型常用的有两种分布式训练方式。一种是同步更新，另一种是异步更新。如上面的ppt所示，在同步更新模式下，所有服务器都会统一读取参数的取值，计算参数梯度，最后再统一更新。而在异步更新模式下，不同服务器会自己读取参数，计算梯度并更新参数，而不需要与其他服务器同步。同步更新的最大问题在于，不同服务器需要同步完成所有操作，于是快的服务器需要等待慢的服务器，资源利用率会相对低一些。而异步模式可能会使用陈旧的梯度更新参数导致训练的效果受到影响。不同的更新模式各有优缺点，很难统一的说哪一个更好，需要具体问题具体分析。

无论使用哪种更新方式，使用分布式TensorFlow训练深度学习模型需要有两种类型的服务器，一种是参数服务器，一种是计算服务器。参数服务器管理并保存神经网络参数的取值；计算服务器负责计算参数的梯度。

在TensorFlow中启动分布式深度学习模型训练任务也有两种模式。一种为In-graph replication。在这种模式下神经网络的参数会都保存在同一个TensorFlow计算图中，只有计算会分配到不同计算服务器。另一种为Between-graph replication，这种模式下所有的计算服务器也会创建参数，但参数会通过统一的方式分配到参数服务器。因为In-graph replication处理海量数据的能力稍弱，所以Between-graph replication是一个更加常用的模式。

深度学习框架TensorFlow在Kubernetes上的实践

最后一个问题，我们刚刚提到TensorFlow是支持以分布式集群的方式运行的，那么为什么还需要Kubernetes？如果我们将TensorFlow和Hadoop系统做一个简单的类比就可以很清楚的解释这个问题。大家都知道Hadoop系统主要可以分为Yarn、HDFS和mapreduce计算框架，那么TensorFlow就相当于只是Hadoop系统中Mapreduce计算框架的部分。

TensorFlow没有类似Yarn的调度系统，也没有类似HDFS的存储系统。这就是Kubernetes需要解决的部分。Kubernetes可以提供任务调度、监控、失败重启等功能。没有这些功能，我们很难手工的去每一台机器上启动TensorFlow服务器并时时监控任务运行的状态。除此之外，分布式TensorFlow目前不支持生命周期管理，结束的训练进程并不会自动关闭，这也需要进行额外的处理。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习框架TensorFlow在Kubernetes上的实践 - Python技术站

tensorflow 人工智能

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

深入浅出TensorFlow（二）：TensorFlow解决MNIST问题入门

上一篇 2023年4月8日下午1:25

Tensorflow最简单实现ResNet50残差神经网络，进行图像分类，速度超快

下一篇 2023年4月8日

卷积神经网络

感受野（Receptive Field）理解为什么采用多层小卷积核来替换一层大卷积核

1.什么是感受野？卷积神经网络各输出层每个像素点在原始图像上的映射区域大小下图是感受野示意图如果对这个5×5的原始输入图片，用黄色的3×3卷积核作用，会输出一个3×3的输出特征图，这个输出特征图上的每个像素点映射到原始的图片是3×3的区域，所以它（输出特征图）的感受野是3，如果再对这个3×3的特征图，用这个绿色的3×3卷积核作用，会输出一个1×1的输…

2023年4月8日
000
PyTorch

PyTorch——(8) 正则化、动量、学习率、Dropout、BatchNorm

@ 目录正则化 L-1正则化实现 L-2正则化动量学习率衰减当loss不在下降时的学习率衰减固定循环的学习率衰减 Dropout Batch Norm L-1正则化实现 PyTorch没有L-1正则化，所以用下面的方法自己实现 L-2正则化一般用L-2正则化weight_decay 表示\(\lambda\) 动量 moment参数设置上式中的\…

2023年4月8日
000
Caffe

caffe再见之训练自己的数据

Caffe的数据格式采用leveldb或者lmdb格式本文采用数据为已标定过的彩色图像，共1000张训练图共10个类别，200张测试图像10个类别，下载地址：http://pan.baidu.com/s/1hsvz4g8。第一步：数据格式转换 1.编译conver_imageset,在\Caffe-Master\Build\x6…

2023年4月8日
000
Keras下载的数据集以及预训练模型保存在哪里

Keras下载的数据集在以下目录中： root\\.keras\datasets Keras下载的预训练模型在以下目录中： root\\.keras\models 在win10系统来说,用户主目录是：C:\Users\user_name,一般化user_name是Administrator在Linux中，用户主目录是：对一般用户，/home/user_nam…

Keras 2023年4月7日
000
目标检测

目标检测之Loss：softmaxLoss函数代码解读

在caffe中softmaxwithLoss是由两部分组成，softmax+Loss组成，其实主要就是为了caffe框架的可扩展性。表达式（1）是softmax计算表达式，（2）是sfotmaxLoss的计算损失表达。在caffe中是单独的计算每层的输入和输出，然后再进行向后传递data结果和向前传递diff的结果。 caffe中softma…

2023年4月8日
000
PyTorch

Pytorch优化过程展示：tensorboard

训练模型过程中，经常需要追踪一些性能指标的变化情况，以便了解模型的实时动态，例如：回归任务中的MSE、分类任务中的Accuracy、生成对抗网络中的图片、网络模型结构可视化…… 除了追踪外，我们还希望能够将这些指标以动态图表的形式可视化显示出来。 TensorFlow的附加工具Tensorboard就完美的提供了这些功能。不过现在经过Pytorch团队的努力…

2023年4月6日
000
Caffe

windows+caffe(六)——convert.bat

convert.bat的格式为 convert_imageset.exe的位置+空格+FLAGS+空格+图片所在的位置+空格+你生成的list的位置+空格+将要生成的db格式要保存的位置建议都使用绝对位置！！！例子： D:/deeptools/caffe-windows-master/bin/convert_imageset.exe –shuffle …

2023年4月8日
000
深入理解Tensorflow中的masking和padding

深入理解Tensorflow中的masking和padding 在TensorFlow中，masking和padding是在处理序列数据时非常重要的技术。本攻略将介绍如何在TensorFlow中使用masking和padding，并提供两个示例。示例1：TensorFlow中的masking 以下是示例步骤：导入必要的库。 python import t…

tensorflow 2023年5月15日
000

合作推广

合作推广

返回顶部