随着云计算的不断发展和普及,在背后支撑它的基础设施技术也在飞速演进。2019年杭州云栖大会,在《大规模云计算基础设施智能运维》分论坛上,来自阿里巴巴的资深技术专家们、以及英特尔的资深架构师和数万开发者们分享了如何在数据,计算力,网络互联能力规模化增长的情况下,利用新的理念和技术手段来满足云计算运维对于稳定性,成本和效率的核心诉求。

论坛深入浅出,集数据中心,服务器,网络变更等硬件基础设施运维,和云监控,云上应用运维为一体, 多元化地呈现给听众大规模云计算基础设施运维领域的全方位发展及未来机遇。

云计算基础设施智能运维的下一段征程,你们准备好了吗?


云计算基础设施智能运维的下一段征程,你们准备好了吗?

整个专场由阿里巴巴云智能基础设施事业部研究员赵晓雪作为出品人及主持人。在开场为大家解读了基础设施运维领域面临的机遇与挑战,并且带领听众从始至终了解了运维在不同基础设施领域和层面遇到的问题,及最新的解决方案。


云计算基础设施智能运维的下一段征程,你们准备好了吗?

              阿里巴巴基础设施事业部研究员  赵晓雪


阿里巴巴云智能基础设施事业部的高级算法专家何诚详细解读了阿里云如何借助数据智能技术来进行基础设施服务器集群的运维。其中提到的集群自动修复系统,其核心是通过对服务器海量日志文本进行自然语言处理分析和分类,结合基于传统的专家和工程师的历史经验规则进行故障状态的智能检测和问题发现,最终形成修复操作的智能化决策,并及时通知云上业务进行快速授权修复。目前的自动修复成功率达到了~90%。

云计算基础设施智能运维的下一段征程,你们准备好了吗?

《阿里巴巴智能运维创新探索和实践》

何诚 阿里巴巴高级算法专家

大型计算机集群之间的数据通信离不开网络的互联。网络运维也不容忽视。阿里巴巴云智能基础设施事业部的高级技术专家翟恩南介绍了《阿里巴巴网络的智能变更验证》领域的最新研究进展,详细分析了把复杂的网络变更难题的智能化解决方案。保证网络变更的稳定性,如何做到趋于零的变更故障率?翟恩南认为,可以从变更方案的形式化验证,变更仿真灰度测试,执行中的实时验证,自动回滚等一系列的全套解决方案来攻破这个难题。

云计算基础设施智能运维的下一段征程,你们准备好了吗?

阿里巴巴网络的智能变更验证》

翟恩南 阿里巴巴高级技术专家

云基础设施物理层的设备需要运维,跑在云上的应用本身也需要运维。阿里巴巴云智能研发效能事业部的高级技术专家刘抚狄介绍了阿里巴巴应用运维大脑 —— 监管控一体化中枢。以10年的时间展开,他介绍了阿里集团研发体系如何通过一套应用运维产品从物理资源、虚拟机平稳的过渡到云原生架构,提出了研发团队面临微服务和云原生场景下运维爆炸式增长问题的解决方案,以及应用运维的核心方法论。此外,阿里巴巴采用了分层的运维的方式,清晰定义各运维层次的组织职能和关键SLA,以追求可靠性、自动化的策略应对线上应用运维复杂性。刘抚狄认为,在不久的将来,阿里巴巴主打稳定性和安全工程解决方案的应用运维产品体系将会完成产品化,面向云客户和企业提供混合云应用运维的集成解决方案。

云计算基础设施智能运维的下一段征程,你们准备好了吗?

 《阿里巴巴应用运维大脑 —— 监管控一体化中枢》

刘抚狄 阿里巴巴高级技术专家

 

智能决策算法离不开海量的监控数据。运维的终极目标也是监管控一体化。所以高可用,可扩展的监控系统必不可少。阿里巴巴云智能基础设施事业部的资深技术专家陈国栋详细介绍阿里云监控技术及未来。云监控对于上云客户就像一双双眼睛,不仅能够帮助用户透视云上业务和计算存储资源的数据,站点监控还可以提供外部网络拨测,收集数据,一旦出现问题通知运维人员快速处理。云监控新的全球部署和负载均衡的架构会支持阿里云产品和用户的飞速增长,同时保持监控告警的准确性和稳定性。云监控作为阿里云的事件中心,能把阿里云各云产品的事件也都收集起来,并且在未来基于这些信息实现更多的智能运维管控决策。

云计算基础设施智能运维的下一段征程,你们准备好了吗?

《阿里云监控技术及未来》 

陈国栋 阿里巴巴资深技术专家

 

基础设施的运维优化不仅是服务器,网络,数据中心每个领域本身的优化,也需要看全局。能够平衡成本,稳定性和效率的一定是全局最优的解法。数据中心整体的能耗管控和优化就是个好例子。阿里巴巴云智能基础产品事业部的资深技术专家宋军深入介绍阿里巴巴基础设施功耗管控和优化的解决方案。通过服务器,机柜,数据中心设施等多维度功耗数据采集,分析,处理,同时加以云上产品的业务负载信息,形成上下层联动的智能决策机制,寻找同时满足稳定性、成本、资源弹性三个方面的全局最优解。此外,宋军通过功耗管控平台的三个具体优化案例,带领大家了解了如何做到提高性能的同时降低了能耗。

云计算基础设施智能运维的下一段征程,你们准备好了吗?

阿里巴巴基础设施功耗管控和优化》

宋军 阿里巴巴资深技术专家

 

阿里巴巴基础设施运维的很多技术实践,离不开战略合作伙伴的研发和技术赋能。本次专场特邀英特尔(Intel)的资深架构师宋川,为大家带来了英特尔最新的云数据中心管理技术分享。宋川提到,英特尔是一个计算平台的提供商,所以会从计算平台的角度,帮助云客户、互联网客户应对云计算带来的各种挑战。他分享了目前英特尔如何利用数据来帮助数据中心管理进行持续优化,以及从计算平台的基础硬件管理能力角度如何通过技术创新来帮助客户解决云计算及数据中心环境中的关键问题。

云计算基础设施智能运维的下一段征程,你们准备好了吗?

《云数据中心管理技术》

宋川 英特尔资深架构师

2019的云栖大会大规模云计算基础设施智能运维》分论坛圆满结束,希望讨论和交流能够带给业界同行更多的启发和思想的碰撞,生态与行业的协力,让云计算基础设施技术不断前行,助力中国数字经济发展和企业的数字化改革。

云计算基础设施智能运维的下一段征程,你们准备好了吗?

资料免费送(点击链接下载)

加入运维管理VIP群(点击链接查看)

扫描以下二维码加入学习群

云计算基础设施智能运维的下一段征程,你们准备好了吗?