欢迎访问网易云社区,了解更多网易技术产品运营经验。  

传统意义上,弹性和性能确实分别是云计算和超算最大的特色,这是二者设计目标不一致所决定的。

  • 通用 vs 专用:云计算的发展就是共享经济在计算领域的演进,面向所有需要信息技术的场景,应用领域和应用层次不断扩张,要支撑构造千变万化的应用;超算则主要提供国家高科技领域和尖端技术研究需的运算速度和存储容量,包括航天、国防、石油勘探、气候建模和基因组测序等,如美国的 Sequoia(红杉)超级计算机的设计初衷主要是应用于核试验模拟,Mira (米拉)超级计算机主要用于研究星体爆炸、核反应、气候变化、喷气发动机等。

  • 分布 vs 并行:云计算以分布式为特色,统筹分散的硬件、软件和数据资源,通过软件实现资源共享和业务协同,运行的任务也是分布式的,现在甚至引申出了边缘计算;超算集群逻辑上是集中式的,针对计算密集型任务更强调并行计算(以获得高性能),各节点任务存在前后的依赖,节点之间数据交换的延迟要求非常高。

  • 成本 vs 性能:云计算是规模经济,讲究成本效益,采用廉价x86硬件搭建,可用性、可靠性、扩展性主要通过软件实现;超算舍得花钱堆计算和存储能力,加速芯片、infiniband通信、高级文件系统的使用比较随意,最后能源消耗也很高。

提问希望了解二者的区别,但小编在这里要说,将云计算和高性能计算对立起来,已经不符合当下的云和高性能计算(HPC)的发展形势了。

  • 系统管理、高带宽、低延迟、海量数据处理等,这些是当前云计算和 HPC 都需要解决的问题,某些云计算平台允许提高成本以提升高性能,同时 HPC 也需要提升扩展能力以适应数据的膨胀。比如网易云基础服务,为性能优化引入 SR-IOV 网卡 ,在必要的时候也摒弃虚拟化层;如 SparkRDMA,使用较昂贵的 RDMA 技术提升 Spark 的 Shuffle 性能;如主流深度学习框架 TensofFlow ,也支持直接通过 RDMA 来做数据传输。

  • 云计算的生意已经覆盖到 HPC 的需求,支持异构计算,各大云服务商都推出 HPC 产品,主要面向深度学习应用,但也有科学计算的探索。AlphaGo 所需要的计算能力,就是由谷歌云提供的,当然谷歌的 TPU 不可或缺。谷歌的 Cloud TPU 就是云 HPC。云 HPC 在外部网络通信上还是短板,谷歌是通过 TPU pod 运算阵列的设计支持高速数据连接的。

据介绍,第二代 TPU 设备单个的性能就能提供高达 180 teraflops 的浮点计算量。不仅如此,谷歌还将这些升级版的 TPU 集成在一起成为 Cloud TPU。每个 TPU 都包含了一个定制的高速网络,构成了一个谷歌称之为“TPU pod”的机器学习超级计算机。一个TPU pod 包含 64 个第二代TPU,最高可提供多达 11.5 petaflops,加速对单个大型机器学习模型的培训。

云计算中心和超算中心有何区别? 

                                       Cloud TPU Pod 示意图,包含 64 块 Cloud TPU

  • 超算也已经通过云化的形式共享其计算能力。比如部署在国家超算广州中心的天河二号,研究人员根据应用的需求以及实际的硬件环境,对开源的 OpenStack 进行大量的定制和优化,并结合容器技术,打造企业级解决方案 KylinCloud 云平台,为政府部门和企事业单位的信息化建设和大数据处理提供资源支撑。参考:天河二号上OpenStack的实践和体会-CSDN.NET

  • 另外,从部署规模的维度来看,云计算的底层也是一种超级计算机——通过数据中心级操作系统,把不同地域的超大规模的物理服务器,聚合成一台超级计算机,统一调度和使用。

所以,现在云计算和超算更像是不同维度的概念,前者侧重信息技术的交付模式,后者侧重体现系统的构建。

相关文章:
【推荐】 网易对象存储NOS图床神器
【推荐】 线上日志集中化可视化管理:ELK