云原生容器高可用运维能力应用

摘要:华为云容器SRE在海量集群和容器运维实践中,从智能运维能力、确定性场景恢复等多方面总结出一套确定性运维实践,以应对云原生业务快速增长。

本文分享自华为云社区《云原生容器高可用运维能力应用》,作者:陈勇/刘志超/袁文峰。

云原生场景下,对架构高可用、应用高可用、基础云平台高可用提出了更高的要求,企业以及云平台都在不断致力于稳定性建设。但面对海量复杂的客户业务场景,业务会不可避免的遇到非预期的故障,比如配置异常、应用过载、底层网络异常、硬件故障等,当这些确定性故障场景出现时,如何做到快速诊断和快速恢复,如何在故障发生前提前识别风险、消除隐患,如何在故障发生时监控准确发现定界,一直是云计算厂商面临的困难问题之一。

云原生容器面对的挑战与解决方案

1、华为云云原生容器年复合增长快,需要维护的站点和k8s集群多,复杂的海量客户应用场景给运维工作带来巨大挑战。
2、云原生便捷的快速部署能力、可伸缩性使得用户业务容器、集群结构等无时无刻不在变化之中,单局点节点变化非常快。
3、云原生社区丰富的应用实践以及容器开放的部署方式,用户易出现配置类错误,导致故障发生。
4、面对客户不同的业务场景、集群类型,当前社区在监控准确率、故障快速定位恢复等通用运维能力尚无有效的解决方案。

解决思路:

1、现网客户请求事件同比增长,单纯依赖人力的运维已无法支撑业务的快速增长,以软件工程的手段解决现网运维中的实际困难,构建贴合业务特征的自动化运维平台。
2、将业务形态与业界开源方案相结合,构建可靠、可信的租户监控能力
3、打通运维能力产品化落地路径,将实践可靠的运维能力固化到产品中,提升产品易用性以及客户自运维能力。

智能运维能力

>> 故障预防

“故障预防"在确定性运维中是很重要的一环,可以有效避免客户业务发生故障。风险识别在故障预防中极为有效的一种手段,客户业务的高可用部署、容器的资源配置合理性、依赖各服务的使用配额、集群和节点分配和使用率等,均会导致业务存在潜在风险,完备、及时的有效风险识别可消除客户业务隐患,防止应用故障。

解决思路和措施:

a. 结合历史现网故障以及容器业务架构,梳理关键风险场景和有效监控指标。
b. 基于专家经验、历史故障场景、结合租户历史行为,构建风险指标判断识别系统,自动检测租户容器场景集群风险项,为集群构建集群画像,识别集群风险。
c. 风险识别能力实现原子化对接TSC平台,赋能客户经理。
d. 风险识别联动周边,推动产品设计改进、引导租户提前消除、支撑SRE风险收编以及故障快速恢复。

云原生容器高可用运维能力应用

现网效果:

周级别自动识别全网集群风险、分钟级单集群深度自动巡检,数据入湖并被TSC订阅消费。

云原生容器高可用运维能力应用

>> 监控故障发现

监控发现”旨在先于客户发现,在底层ECS故障、网络故障发生时,及时发现故障,及时自愈或通知到客户,尽最大可能短时间止损,减少客户的损失。另一方面,在真正客户业务受损时,监控要做到快速判断故障影响面,做到应用链路透视监控,可以辅助快速定位至故障点。

解决思路和措施:

  1. 历史事件+业务架构,确定监控场景:通过对历史现网事件负向分析和容器场景故障模式正向分析,梳理确定容器监控场景。
  2. 从0到1构建监控能力:构建容器prometheus监控能力,实现从集群、租户、站点三级视图的监控能力,并完成1-N个站点的快速复制和覆盖。
  3. 引入基于孤立森林的智能检测算法以及租户面集群容器状态细粒度监控等不断提升监控覆盖率和准确度。

云原生容器高可用运维能力应用

现网效果:

容器现网warroom提前发现率显著提高。

云原生容器高可用运维能力应用

确定性场景恢复

>> 快速定位恢复

“快速定位恢复”从定位和止损两方面出发,目标是降低故障发生后的MTTR,减少客户业务损失。通过历史海量用户故障输入,明确故障确定性场景,针对这些确定性故障场景,建设自动诊断能力和一键恢复预案能力。

解决思路和措施:

a. 基于CMC/AOM/Promtheus/CLS/datahub等构建容器场景全指标监控接入.

b. 结合容器场景业务生命周期以及现网故障,构建容器域故障推导模型。

c. 结合监控数据,业务性,CLS日志等构建故障推导原子能力。

d. 基于CAR打造故障定位编排引擎。

e. 结合故障模式以及应急预案,降故障恢复动作平台化。

云原生容器高可用运维能力应用

现网效果:

  1. 实现核心故障场景预案平台化、构建故障场景故障定位能力,对应确定性故障场景5min定界。
  2. 对应确定性故障场景实现10min恢复。

云原生容器高可用运维能力应用

云原生容器场景运维方向

未来华为云云原生容器体量会更快速的增长,k8s社区新特性也在快速迭代,跨云跨地域业务部署是大趋势,如何在云原生时代为客户业务提供稳定的运维保障能力,如何在不断指数式增长的容器规模下,构建统一确定性运维能力是我们的方向。

总结

华为云通过海量复杂云原生客户业务场景,从风险预防、数据面监控、故障自动诊断、确定性场景预案恢复等方面,识别云原生客户云上确定性业务使用和故障场景,持续构建智能运维能力和确定性场景恢复能力,保障客户云上业务稳定,以应对云原生业务快速增长。

 

点击关注,第一时间了解华为云新鲜技术~

原文链接:https://www.cnblogs.com/huaweiyun/p/17272932.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:云原生容器高可用运维能力应用 - Python技术站

(0)
上一篇 2023年4月17日
下一篇 2023年4月17日

相关文章

  • ABP框架中导航菜单的使用及JavaScript API获取菜单的方法

    ABP框架是基于ASP.NET Core的应用程序框架,用于快速开发现代Web应用程序。导航菜单在Web应用程序中扮演着非常重要的角色,ABP框架提供了方便的API用于处理导航菜单。本文将详细讲解ABP框架中导航菜单的使用及JavaScript API获取菜单的方法。 ABP框架中导航菜单的使用 当我们采用ABP框架开发Web应用程序时,可以在项目的Star…

    云计算 2023年5月17日
    00
  • 关于云计算的讨论,一年就等这一回!

    关于云计算,有这么一个段子: 一个中国留学生在国外打工,从来不用计算器,每次找零时,只抬头望云,心算一下,结果就清清楚楚。顾客们都大为惊讶,也纷纷抬头望天,充满敬畏地赞叹道:“这,就是传说中的云计算?” 听到此,云计算本人只能微微一笑:【这种水平的段子,我 1 秒钟能写出几万个你信不信?】 2018 年,Amazon Web Services(AWS)用一句…

    云计算 2023年4月12日
    00
  • MRS IoTDB时序数据库的总体架构设计与实现

    MRS IoTDB时序数据库的总体架构设计与实现 MRS IoTDB是华为FusionInsight MRS大数据套件最新推出的时序数据库产品,其领先的设计理念在时序数据库领域展现出越来越强大的竞争力,得到了越来越多的用户认可。为了大家更好地了解MRS IoTDB,本文将会系统地为大家介绍MRS IoTDB的来龙去脉和功能特性,重点为大家介绍MRS IoTD…

    云计算 2023年4月10日
    00
  • asp.net mvc3.0安装失败如何解决

    为了解决asp.net mvc3.0安装失败的问题,可以按照以下步骤进行操作: 1. 确认系统环境 在进行任何修复或升级之前,请先验证并升级您的系统环境。asp.net mvc3.0要求最低支持.NET Framework 4.0。确保运行的Windows版本支持或相容.NET Framework 4.0及以上。 2. 手动安装 如果您尝试通过启动程序进行安…

    云计算 2023年5月17日
    00
  • 青年开发者说:了不起的“桩源”守护者,开启智能充电新模式

    摘要:听来自深圳大学的高校开发者们,分享基于华为云技术创新、收获成功的故事。代码改变世界,2023年华为开发者大赛不容错过! 本文分享自华为云社区《青年开发者说:了不起的“桩源”守护者,开启智能充电新模式》,作者:华为云社区精选 。 “桩源守护者”,一个听起来有点热血、又充满了英雄主义色彩的词,这是由四个来自深圳大学的青年开发者组成的团队,他们基于华为云开发…

    人工智能概论 2023年5月5日
    00
  • 解析Instagram网站的图片存储架构

    解析Instagram网站的图片存储架构 背景介绍 Instagram是一个为用户分享照片和短视频的社交媒体平台,拥有数亿的用户。每天,数以百万计的照片和视频被上传到该平台并被存储在该平台的服务器上。了解Instagram的图片存储架构是非常有趣的,因为它可以让我们更好地了解它的性能和可扩展性。 总体架构 Instagram的存储架构主要包括两部分:Web服…

    云计算 2023年5月18日
    00
  • 基于python实现地址和经纬度转换

    基于Python实现地址和经纬度转换 在Python应用程序中,有时需要将地址转换为经纬度,或将经纬度转换为地址。本文将提供一个完整的攻略,包括如何使用Python实现地址和经纬度转换。以下是详细步骤: 步骤1:安装必要的库 在使用Python实现地址和经纬度转换之前,我们需要安装必要的库。以下是一个示例说明,演示如何安装必要的库: pip install …

    云计算 2023年5月16日
    00
  • 使用云计算服务器部署网站 Android+Tomcat通过http获取本机服务器资源

    写在前面:本博客为本人原创,严禁任何形式的转载!本博客只允许放在博客园(.cnblogs.com),如果您在其他网站看到这篇博文,请通过下面这个唯一的合法链接转到原文! 本博客全网唯一合法URL:http://www.cnblogs.com/acm-icpcer/p/8996404.html     本博客用到了我写的以下两篇博客的内容: 云主机登录教程  …

    云计算 2023年4月11日
    00
合作推广
合作推广
分享本页
返回顶部