阿里云弹性计算首席架构师分享云上应用架构演进三大方向

 

12月10日,在2021云上架构与运维峰会上,阿里云智能弹性计算首席架构师蔡俊杰发表了主题为“可靠、敏捷、智能——云上应用架构演进”的演讲,分享其在“云上架构”方向丰富的行业经验。以下为他的演讲精华:

 

一、直面机遇与挑战,技术驱动业务创新

 

时代发展到今天,各行各业的企业均面临着不同的机遇和挑战。

幻灯片3.JPG

 

首先的关注点就是社会的生活方式与生产方式的全面的数字化,无论是传统企业还是互联网企业,他们的生产系统、办公系统、商业销售、客户交互,都会不可逆转地全面线上化,比如今的外卖平台或者出行交通系统,都可以用手机操作来达成线上交易。

 

其次企业所面临的外部环境变化极快。比如消费者的喜好和需求,随着消费层级及大环境在不断变化,进而很多零售企业也需要不断地加快产品上线,提高产品的核心竞争力,To C的互联网企业也如此。10月的云栖大会上,阿里云的客户映客分享,其新应用上线的频率高达1次/周。

 

即便不考虑消费者,竞争对手也在不断地互相拼速度。当下现状还伴随着不可控的疫情影响,以及监管政策、地缘政治等时刻影响着行业环境。

 

人工智能、5G、大数据等新技术、同样也给了企业更多的能力和工具创新、实现自我变革和发展。

 

企业全面数字化,意味着企业的关键业务乃至“身家性命”都已经全部放在IT系统之上,因此企业需要系统足够稳定可靠,变化迅速的市场和激烈的竞争环境,也需要更敏捷的研发效率和应用架构来支持业务创新,从而在市场上赢得先机。更需要利用好AI、大数据等新技术,优化业务管理和运营,实现智能化的业务升级。

 

以上,都需要一个优秀的IT架构来支撑一个优秀的架构应该具备三个方面的特征:可靠、敏捷和智能

幻灯片4.JPG

 

 

云如何帮助企业构建优秀的IT架构?

 

每个架构模式都有其适合的场景,企业所处阶段的不同、人力资源的多寡、开发人员的技能高低等,都会影响架构的选择。没有最好的架构,只有最适合的架构。并且架构需要持续演进,才能够支持业务发展。

image.gif

幻灯片5.JPG

不管是从业务需求场景还是技术趋势来说,架构的发展要求整体来讲都是要更可靠、更敏捷、更智能

 

越来越多的企业,重视高可用架构的构建,使用双活、多可用区、多地域、混沌工程等丰富的手段来提升应用的可靠性。微服务、Serverless也是近年来非常的热门话题。以上均是相较之前更为敏捷的IT架构,某种程度上,也可以称作其是更可靠的架构。同时移动互联网、物联网的到来也让数据大爆发,大数据和AI等大计算需求场景也在日益增加。

 

那么云计算如何能帮助客户构建一个可靠、敏捷和智能的架构呢?

 

01 可靠

在可靠的层面,可以分为两部分:基础设施层的可靠以及应用层的可靠

 

幻灯片6.JPG

基础不牢、地动山摇,这是在架构师中流传很广的一句话。阿里云提供了非常可靠的基础资源,是全球第一个提供单实例可用性SLA 99.975%、多可用区多实例可用性99.995%的云厂商。以上都得益于阿里云自主研发的飞天底座,其中有大量的技术创新,比如准确率达到70%以上的智能故障预测、95%以上客户无感的热迁移技术等。

 

阿里云自研的神龙架构,也让整个系统的性能十分线性和平稳,客户也能够在使用阿里云产品的同时体验到了可预期的高性能。

 

当然,单实例和单可用区的可用性只能保证当前地域的高可靠,但不能抵抗极端天气,工地施工导致光纤被挖断等导致的地域性故障。因此,客户还需要做好应用层的高可用,使用多可用区、多地域部署等容灾方案。

 

我们建议使用成熟的托管型产品代替自建,比如数据库和中间件类产品,阿里云在这些产品上投入巨大,通常要比自建更加可靠和方便。最终高可用的应用必定是一个面面俱到的架构设计,是高可靠的基础资源,加上高稳定的托管产品,再加上应用本身的高可用设计组合而成的。

image.gif幻灯片7.JPG

 

基础设施除了做到自身高可靠,还需要透明开放。很多客户上云之后,觉得基础设施层变成了一个黑盒,因此要求提供方能清晰地告诉他们底层的基础设施在发生什么,以便他们能做更好的主动运维。

 

其实这个需求非常合理,因此,ECS会把这些信息尽可能多地开放给用户,封装成不同的接口和事件,提供给用户,比如用户可以随时获取云服务器、操作系统等基础设施的最新情况。系统预测到客户方的机器可能会宕机、检测到CPU和内存用到警戒线了,都会发送事件,客户可以选择订阅。

 

有用户反馈,最吸引他能长期使用阿里云产品的一点就是,阿里云有非常丰富和全面的接口。阿里云的接口,迄今为止是国内最全面、最丰富、最细致的,甚至在全球范围内,也是毫不逊色的。

 

02 敏捷

这个世界变化太快,怎么办?所谓天下武功,唯快不破!面对变化,唯一的办法就是比变化更快

 

这就需要一个极度敏捷的架构。同样,企业需要在两个层面上实现敏捷:应用层的敏捷和基础设施层的敏捷

幻灯片8.JPG

 

企业都在构建敏捷灵活的组织架构和软件架构,这里面的其中一个核心思想是让研发团队之间的依赖更少、更容易地独立迭代演进,于是企业都开始采用微服务架构,也是符合云原生趋势的应用架构。

 

其实应用架构的敏捷也是依托于基础设施的敏捷。越是敏捷的架构,越能快速响应不寻常的业务峰值,处理过程也就越平滑,不仅能够降低成本,客户体验也是最好的。比如12306、比如微博热点,这种瞬时级别的流量,在线下的数据中心里,即便上层架构再敏捷,也很难在短时间交付和部署如此大的计算量。

 

敏捷的基础设施,需要做到两点:敏捷交付和高效管理

幻灯片9.JPG

 

阿里云作为领先的基础设施,首先要做到的就是快速交付

 

阿里云弹性计算提供了多种开箱即用的基础资源,仅云服务器就有上百款规格,并且提供极致的弹性能力。今年7月,阿里云作为首个也是唯一一个通过信通院大规模云平台性能测试的云厂商,在信通院工作人员的见证下,18分钟扩容了1万台云服务器,而这还不是阿里云最快的速度。

 

2021年10月的云栖大会上,阿里云弹性容器实例ECI的研发同学,现场演示了在6秒内扩容了3000个POD。借助阿里云弹性计算强大的弹性伸缩能力,客户可以快速地交付和部署底层资源,轻松应对流量峰值或者扩容新业务。

 

针对不同的资源交付方式,阿里云还提供了丰富的付费模式,客户可以兼顾灵活与实惠

幻灯片10.JPG

 

要真正实现敏捷,客户在管理和使用计算资源的时候,还需要做到非常高效,这就需要各种自动化能力支持。从迁移、部署、运维到容量管理,阿里云提供了一整套覆盖资源全生命周期的自动化运维工具。

 

比如,利用阿里云的资源编排服务ROS,可以自动化部署几千几万台云服务器。疫情期间,钉钉就使用ROS在短短2小时内新增部署了超过1万台云服务器,平稳渡过流量洪峰。

 

03 智能

全方位的智能包括业务应用层的智能和基础设施层的智能。

幻灯片11.JPG

 

在业务层,企业需要根据自己的业务,引入相对应的机器学习、大数据等相关的技术,实现智能客服、自动驾驶等能力,这些都需要大量的数据和算力作为基础。为此,阿里云弹性计算针对这些场景提供了量身定做的大数据和本地盘实例,以及GPU和NPU等实例,为上层业务创新提供最适合的基础设施。

 

PaaS层面,阿里云提供了丰富的人工智能服务、机器学习和大数据框架等,客户可以轻松构建上层的应用智能。

 

基础设施层,阿里云的调度系统、故障预测和运维系统等,都广泛使用人工智能技术,使阿里云成为全球领先的IaaS技术平台。同时在弹性计算服务的用户体验上,我们也利用人工智能技术为客户提供一个更为聪明的基础设施。

幻灯片12.JPG

 

比如智能弹性服务,以往客户可能需要根据自身的业务特点,在需要的时候提前开好机器给上层业务使用,或者使用阿里云的弹性伸缩服务设置好策略,让其定时开启。

 

阿里云弹性伸缩产品最新的预测模式,可以根据用户伸缩组最近1-14天的CPU使用率、内网出入流量等进行建模,通过机器学习算法预测未来2天整体的使用情况,并自动进行扩缩容操作。使用了这个功能,常规的扩缩容客户基本上不用费心。

 

其次是阿里云的智能诊断与自助修复工具,当阿里云用户遇到ECS相关的问题时,只能通过提交工单或者联系服务同学来解决,周期较长,一定程度上影响了用户体验。实例健康诊断工具,利用后端的NLP等AI能力,可以帮助用户快速定位ECS内外部可能存在的问题,并提供修复方案,将问题的解决周期从24小时缩短至分钟级。在云服务器领域,阿里云是第一个为用户开放此全覆盖诊断能力的云厂商

 

再比如阿里云的智能资源优化服务,它可以根据用户的资源使用情况,为用户识别出资源错配的情况,并根据业务负载为用户推荐适合的实例。倘若客户资源使用率长期偏低,造成了成本浪费;CPU负载持续偏高,可能会导致业务不稳定,它就会推荐您升级配置或者新增资源。

幻灯片13.JPG

 

整体来看,阿里云弹性计算已经不仅仅是一个提供计算资源的平台,而进化成了一个支持应用全生命周期服务的云平台。阿里云通过强劲可靠、覆盖全场景的云服务器,高效智能的自动化运维套件,还有灵活弹性的资源供给,帮助客户构建可靠、敏捷、智能的云上架构。今年,阿里云还推出了面向办公场景的无影云电脑、以及面向合作伙伴服务上云的计算巢平台

幻灯片14.JPG

 

把云用好来构建一个优秀的应用架构,给业务带来的价值是多方面的,包括帮助业务永续、平稳运行,降低了业务的风险;降低成本;提高效率;也正面提升了团队的人效和幸福感。

 

蔡俊杰也在末尾给大家分享了两个实际案例

客户案例.png

 

原来,申通快递使用线下机房作为计算及数据存储平台,逢双11资源需求就会膨胀,大促之后则闲置浪费。上云后,几乎全部的资源都是按量购买,稳步度过双11后即刻释放,真正做到了开箱即用,不产生一天浪费。2020年双11与2019年双11当天对比,相比此前传统IDC架构方案,使用云上的神龙裸金属服务器+容器服务方案,帮助申通快递在业务量大幅提升的情况下,IT投入反而降低了30%。

 

吉利汽车制造企业通过使用神龙超级计算集群 SCC 在同等硬件基础上效率提升20%,任务排队时间缩短了3倍左右,集群规模随着业务弹性伸缩,最终显著提升仿真效率近三成,缩短车型设计和推出市场时间若干个月。

 

 

二、从上云到用好云,把握技术红利

 

用好云.png

 

上云已经成为了业界的共识

 

云计算虽已发展十余年,但这仅仅还是开始。我们观察到,很多的客户还没有把云的红利与优势充分地利用起来,比如云改变得最多的运维领域,大部分客户还处于半手工半自动化的阶段。所以,现在很多企业的关注重点,已经从上云变成了用好云。我们相信,未来十年,用好云,将为企业释放巨大的技术红利

 

福利时间12月21日14:00-17:00,澎湃算力,无处不在——2021阿里云弹性计算年度峰会,将开启线上直播。结合企业上云大势和云计算的技术红利浪潮,本次峰会将在前沿技术、产品生态、上云实践等方面带来最新的业态解读与创新实践分享。

 

点击大会官网,欢迎预约,线上观看峰会直播。