AI 大战 AI，一个深度强化学习多智能体竞赛系统

2023年4月10日上午8:50 • 深度学习

小伙伴们快看过来！这是一款全新打造的 ⚔️ AI vs. AI ⚔️——深度强化学习多智能体竞赛系统。

这个工具托管在 Space 上，允许我们创建多智能体竞赛。它包含三个元素:

一个带匹配算法的 Space，使用后台任务运行模型战斗。
一个包含结果的 Dataset。
一个获取匹配历史结果和显示模型 LEO 的 Leaderboard。

然后，当用户将一个训练好的模型推到 Hub 时，它会获取评估和排名。得益于此，我们可以在多智能体环境中对你的智能体与其他智能体进行评估。

除了作为一个托管多智能体竞赛的有用工具，我们认为这个工具在多智能体设置中可以成为一个 健壮的评估技术。通过与许多策略对抗，你的智能体将根据广泛的行为进行评估。这应该能让你很好地了解你的策略的质量。

让我们看看它在我们的第一个竞赛托管: SoccerTwos Challenge 上是如何工作的。

AI 大战 AI，一个深度强化学习多智能体竞赛系统

AI vs. AI是怎么工作的？

AI vs. AI 是一个在 Hugging Face 上开发的开源工具，对多智能体环境下强化学习模型的强度进行排名。

其思想是通过让模型之间持续比赛，并使用比赛结果来评估它们与所有其他模型相比的表现，从而在不需要经典指标的情况下了解它们的策略质量，从而获得 对技能的相对衡量，而不是客观衡量。

对于一个给定的任务或环境，提交的智能体越多，评分就越有代表性。

为了在一个竞争的环境里基于比赛结果获得评分，我们决定根据 ELO 评分系统进行排名。

游戏的核心理念是，在比赛结束后，双方玩家的评分都会根据比赛结果和他们在比赛前的评分进行更新。当一个拥有高评分的用户打败一个拥有低排名的用户时，他们便不会获得太多分数。同样，在这种情况下，输家也不会损失很多分。

相反地，如果一个低评级的玩家击败了一个高评级的玩家，这将对他们的评级产生更显著的影响。

在我们的环境中，我们尽量保持系统的简单性，不根据玩家的初始评分来改变获得或失去的数量。因此，收益和损失总是完全相反的 (例如+10 / -10)，平均 ELO 评分将保持在初始评分不变。选择一个1200 ELO 评分启动完全是任意的。

如果你想了解更多关于 ELO 的信息并且查看一些计算示例，我们在深度强化学习课程里写了一个解释。

使用此评级，可以 自动在具有可对比强度的模型之间进行匹配。你可以有多种方法来创建匹配系统，但在这里我们决定保持它相当简单，同时保证比赛的多样性最小，并保持大多数比赛的对手评分相当接近。

AI 大战 AI，一个深度强化学习多智能体竞赛系统

以下是该算法的工作原理:

从 Hub 上收集所有可用的模型。新模型获得初始 1200 的评分，其他的模型保持在以前比赛中得到或失去的评分。
从所有这些模型创建一个队列。
从队列中弹出第一个元素 (模型)，然后从 n 个模型中随机抽取另一个与第一个模型评级最接近的模型。
通过在环境中 (例如一个 Unity 可执行文件) 加载这两个模型来模拟这个比赛，并收集结果。对于这个实现，我们将结果发送到 Hub上的 Hug Face Dataset。
根据收到的结果和 ELO 公式计算两个模型的新评分。
继续两个两个地弹出模型并模拟比赛，直到队列中只有一个或零个模型。
保存结果评分，回到步骤 1。

为了持续运行这个配对过程，我们使用 免费的 Hug Face Spaces 硬件和一个 Scheduler 来作为后台任务持续运行这个配对过程。

Space 还用于获取每个以及比赛过的模型的 ELO 评分，并显示一个排行榜，每个人都可以检查模型的进度。

AI 大战 AI，一个深度强化学习多智能体竞赛系统

该过程通常使用几个 Hugging Face Datasets 来提供数据持久性 (这里是匹配历史和模型评分)。

因为这个过程也保存了比赛的历史，因此可以精确地看到任意给定模型的结果。例如，这可以让你检查为什么你的模型与另一个模型搏斗，最显著的是使用另一个演示 Space 来可视化匹配，就像这个。

目前，这个实验是在 MLAgent 环境 SoccerTwos 下进行的，用于 Hugging Face 深度强化学习课程，然而，这个过程和实现通常是 环境无关的，可以用来免费评估广泛的对抗性多智能体设置。

当然，需要再次提醒的是，此评估是提交的智能体实力之间的相对评分，评分本身 与其他指标相比没有客观意义。它只表示一个模型与模型池中其他模型相对的好坏。尽管如此，如果有足够大且多样化的模型池 (以及足够多的比赛)，这种评估将成为表示模型一般性能的可靠方法。

我们的第一个 AI vs. AI 挑战实验: SoccerTwos Challenge ⚽

这个挑战是我们免费的深度强化学习课程的第 7 单元。它开始于 2 月 1 日，计划于 4 月 30 日结束。

如果你感兴趣，你不必参加课程就可以加入这个比赛。你可以在这里开始

在这个单元，读者通过训练一个 2 vs 2 足球队 学习多智能体强化学习 (MARL) 的基础。

用到的环境是 Unity ML-Agents 团队制作的。这个比赛的目标是简单的: 你的队伍需要进一个球。要做到这一点，他们需要击败对手的团队，并与队友合作。

AI 大战 AI，一个深度强化学习多智能体竞赛系统

除了排行榜，我们创建了一个 Space 演示，人们可以选择两个队伍并可视化它们的比赛。

这个实验进展顺利，因为我们已经在排行榜上有 48 个模型了。

AI 大战 AI，一个深度强化学习多智能体竞赛系统

我们也创造了一个叫做 ai-vs-ai-competition 的 discord 频道，人们可以与他人交流并分享建议。

结论，以及下一步

因为我们开发的这个工具是 环境无关的，在未来我们想用 PettingZoo 举办更多的挑战赛和多智能体环境。如果你有一些想做的环境或者挑战赛，不要犹豫，与我们联系。

在未来，我们将用我们创造的工具和环境来举办多个多智能体比赛，例如 SnowballFight。

AI 大战 AI，一个深度强化学习多智能体竞赛系统

除了称为一个举办多智能体比赛的有用工具，我们考虑这个工具也可以在多智能体设置中成为 一项健壮的评估技术: 通过与许多策略对抗，你的智能体将根据广泛的行为进行评估，并且你将很好地了解你的策略的质量。

保持联系的最佳方式是加入我们的 Discord与我们和社区进行交流。

引用

引用: 如果你发现这对你的学术工作是有用的，请考虑引用我们的工作:

Cochet, Simonini, "Introducing AI vs. AI a deep reinforcement learning multi-agents competition system", Hugging Face Blog, 2023.

BibTeX 引用:

@article{cochet-simonini2023,
  author = {Cochet, Carl and Simonini, Thomas},
  title = {Introducing AI vs. AI a deep reinforcement learning multi-agents competition system},
  journal = {Hugging Face Blog},
  year = {2023},
  note = {https://huggingface.co/blog/aivsai},
}

英文原文: https://huggingface.co/blog/aivsai

作者: Carl Cochet、Thomas Simonini

译者: AIboy1993 (李旭东)

审校、排版: zhongdongy (阿东)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：AI 大战 AI，一个深度强化学习多智能体竞赛系统 - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

知识蒸馏、轻量化模型架构、剪枝…几种深度学习模型压缩方法

上一篇 2023年4月10日上午8:49

代码优化与程序加速指南——针对数值优化和深度学习领域

下一篇 2023年4月10日上午8:50

深度学习之四大经典CNN技术浅析

《TensorFlow实战》作者黄文坚做客【硬创公开课】，为我们讲解了关于四大经典CNN网络：AlexNet、VGGNet、Google Inception Net和ResNet的基本原理。本次公开课内容主要节选自作者《TensorFlow实战》第6章，关于这四大CNN网络实现方式可参考作者新书《TensorFlow实战》，其中有这几种网络的详细实现步骤。 …

深度学习 2023年4月13日
000
基于深度学习的文本分类案例：使用LSTM进行情绪分类

Sentiment classification using LSTM 在这个笔记本中，我们将使用LSTM架构在电影评论数据集上训练一个模型来预测评论的情绪。首先，让我们看看什么是LSTM？ LSTM，即长短时记忆，是一种序列神经网络架构，它利用其结构保留了对前一序列的记忆。第一个被引入的序列模型是RNN。但是，很快研究人员发现，RNN并没有保留很多以前序列…

深度学习 2023年4月10日
000
神经网络、深度学习创新点的思考

从特征学习（Feature Learning）的观点来看，神经网络尤其是深度神经网络（也即是深度学习）是十分强大的特征学习方法。例如就可将 Autoencode 视为一种特征降维的方法。也正因如此，在经过深度学习模型（ANN、CNN、RNN、LSTM等模型）的训练之后，其实是学习到了一些很好的特征，便可以用来分类（classification），recog…

深度学习 2023年4月13日
000
浏览器里玩机器学习、深度学习

大家好，我是章北海我一直探索更好玩地介绍机器学习，降低学习门槛，用其开发有趣，有价值的应用。之前介绍过很多机器学习应用方面的玩法，比如：gRPC部署训练好的机器学习模型，使用FastAPI构建机器学习API，用streamlit快速生成机器学习web应用，在Excel里玩机器学习。←点击直达最近我在玩 TensorFlow.js ，计划用它整个活儿。本文…

深度学习 2023年4月11日
000
《神经网络和深度学习》系列文章七：实现我们的神经网络来分类数字（下）

尝试创建只有两层的神经网络，一个784个神经元的输入层和一个10个神经元的输出层，没有隐含层。用随机梯度下降法来训练这个网络。你能取得多高的分类精度？早些时候，我跳过了MNIST数据时如何被加载的细节。它相当的简单。为了完整性，这是代码。被用于存储MNIST数据的数据结构在文档注释中被说明。这是简单明了的事情，由Numpy的ndarray对象构成的元组和列…

深度学习 2023年4月12日
000
深度学习——无监督，自动编码器——尽管自动编码器与 PCA 很相似，but自动编码器既能表征线性变换，也能表征非线性变换；而 PCA 只能执行线性变换

自动编码器是一种有三层的神经网络：输入层、隐藏层（编码层）和解码层。该网络的目的是重构其输入，使其隐藏层学习到该输入的良好表征。自动编码器神经网络是一种无监督机器学习算法，其应用了反向传播，可将目标值设置成与输入值相等。自动编码器的训练目标是将输入复制到输出。在内部，它有一个描述用于表征其输入的代码的隐藏层。自动编码器的目标是学习函数 h(x…

深度学习 2023年4月12日
000
吴恩达深度学习笔记（八） —— ResNets残差网络

（很好的博客：残差网络ResNet笔记）主要内容：一.深层神经网络的优点和缺陷二.残差网络的引入三.残差网络的可行性四.identity block 和 convolutional block 一.深层神经网络的优点和缺陷 1.深度神经网络很大的一个优点就是能够表示一个复杂的功能。网络的层数越多，意味着能够提取到不同level的特征越丰…

深度学习 2023年4月13日
000
吴恩达《深度学习》第二课第二周编程作业

参考链接：https://blog.csdn.net/u013733326/article/details/79907419 代码： # coding=utf-8 # This is a sample Python script. # Press ⌃R to execute it or replace it with your code. # Press D…

深度学习 2023年4月11日
000

AI 大战 AI，一个深度强化学习多智能体竞赛系统

AI vs. AI是怎么工作的？

我们的第一个 AI vs. AI 挑战实验: SoccerTwos Challenge ⚽

结论，以及下一步

相关文章