4种API性能恶化根因分析

摘要:服务发生性能恶化时,需要投入大量人力分析性能异常根因,分析成本高,耗时长。我们提出了一种先在异常调用链内部分析候选根因,再在全局拓扑环境下对候选根因进行汇聚的二级分析方法,克服了调用链之间异常相互影响导致根因难以确定的问题,快速识别和定位恶化接口的根因。

本文分享自华为云社区《【AIOps专题】API性能恶化根因分析》,作者:DevAI。

背景介绍

当微服务系统发生性能恶化问题时,真正有问题的服务和与它相关的服务,都会出现指标异常以及发出告警。大量的告警让运维人员无法确定哪个服务才是恶化根因,只能逐个服务去检查,排除掉那些本身并没有异常的服务,定位成本高。自动化的恶化根因定位服务对于快速处理基于服务的系统恶化是非常重要的。

4种API性能恶化根因分析

图例 调用链上的根因定位

基于长尾任务的性能恶化根因分析

一种常见的根因分析方法是将耗时长尾事件作为性能异常的根因事件。首先获得指定时间窗口内的恶化调用链,遍历接口恶化关联的多个调用链,选择耗时最长的一条;再基于耗时主导原则,对这条耗时最长的调用链找到耗时最长的调用事件,并将其作为恶化根因。这种方法的主要缺点在于,只考虑服务的耗时情况,认为根因只会发生在耗时最长的一条恶化调用链,对调用链结构异常、参数错误等导致的性能异常不具有识别能力;

4种API性能恶化根因分析

基于单调用链拓扑的性能恶化根因分析

基于单调用链拓扑的性能恶化定位方法,首先从历史成功调用链数据中提炼正常调用链模板,对于每条待测用例,匹配最佳模板,再进行差异分析,最后排序推荐根因。这种根因分析方法仅着眼于根因在单条调用链上的影响因素,忽略了异常在调用链之间的相互影响以及调用链之间的差异。

4种API性能恶化根因分析

基于恶化传播图的性能恶化根因分析

此方法针对目前相关性分析方法没有很好考虑到微服务动态位移的问题,设计新的异常评分算法以衡量微服务组件的恶化程度,构建恶化传播图;然后对传统随机游走算法进行优化。然而基于随机游走的方法都存在一个缺陷,即当系统中同时出现多个恶化时,服务可能会受到叠加影响,而导致定位的准确性下降。

4种API性能恶化根因分析

基于拓扑汇聚的性能恶化根因分析方法

针对当前痛点,我们提出了一种基于拓扑汇聚的性能恶化根因分析方法,该方法最创新的特征是提出了一种先在异常调用链内部分析候选根因,再在全局拓扑环境下对候选根因进行汇聚的二级分析方法,综合利用了微服务场景下尽可能多的信息,并进行了综合汇聚和多指标评价,克服了调用链之间异常相互影响导致根因难以确定的问题,快速识别和定位恶化接口事件粒度的根因,减少了根因定位分析成本。方案主要包含两个模块,预处理模块和汇聚定位模块。

预处理模块通过输入时间窗口内的正常调用链数据,学习正常调用链模式并建立全局拓扑,包括三个部分:建立正常模板库、提取真实节点拓扑和维护反向可达性表。

汇聚定位模块首先对候选根因从三个维度进行分数计算,再根据汇聚公式对候选根因进行汇聚,包含三个维度的计算:链上得分的计算、链间得分的计算和拓扑得分的计算;再根据组合公式,得到最终的根因推荐分数,分数越高表示越有可能是根因。

4种API性能恶化根因分析

总结

针对目前性能恶化定位成本高的问题,我们提出了一种先在异常调用链内部分析候选根因,再在全局拓扑环境下对候选根因进行汇聚的二级分析方法,并提出了一种计算三项得分的多维评价方法,综合考虑真实环境中的多种因素,以更准确更高效地推荐根因。

文章来自:PaaS技术创新Lab,PaaS技术创新Lab隶属于华为云,致力于综合利用软件分析、数据挖掘、机器学习等技术,为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力,不断构筑研发利器,持续交付高价值商业特性!加入我们,一起开创研发新“境界”!

PaaS技术创新Lab主页链接:https://www.huaweicloud.com/lab/paas/home.html

 

点击关注,第一时间了解华为云新鲜技术~

原文链接:https://www.cnblogs.com/huaweiyun/p/17242892.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:4种API性能恶化根因分析 - Python技术站

(0)
上一篇 2023年4月17日
下一篇 2023年4月17日

相关文章

  • Python 网络编程说明第1/2页

    Python 网络编程说明是一份介绍 Python 网络编程的文档。本文档主要介绍了 Python 中的网络编程模块、基于 TCP/UDP 协议的套接字编程等多个方面的内容。文档共分为两页,本篇主要介绍第1/2页的内容。 第1页 模块和类 本节介绍了 Python 中的 socket 模块,及其常用的类 Socket 和 ServerSocket。Socke…

    云计算 2023年5月18日
    00
  • ASP.NET WebAPI导入CSV

    下面是ASP.NET WebAPI导入CSV的完整攻略,包含以下内容: 准备工作 创建ASP.NET WebAPI应用程序 导入CSV数据文件 编写CSV导入API接口 验证CSV导入API接口 示例说明 1. 准备工作 在开始本文的操作之前,您需要首先安装以下软件: Visual Studio 2017 或更高版本 ASP.NET WebAPI 和 Ent…

    云计算 2023年5月17日
    00
  • python:HDF和CSV存储优劣对比分析

    Python: HDF和CSV存储优劣对比分析 背景介绍 在日常数据处理和存储中,人们经常会使用CSV等文本格式存储数据,但是这种方法在处理大量数据时存在一些问题,比如读取速度慢、文件占用空间过大等等。近年来,HDF(HDF5)格式作为一种新的数据存储格式,逐渐受到人们的青睐。那么,HDF和CSV存储格式各自的优缺点是什么呢?本文将为你详细分析。 HDF格式…

    云计算 2023年5月18日
    00
  • 云计算理念将拉动软件开发迈入开发即服务(DaaS)的新阶段

    开篇之前先写一段话:技术创新在技术与从业者的关系方面,终极思维就是脱离对人的依赖。人类任何一个只要和技术有关的行业自创立之后,技术创新的努力除了提升行业效能以外,典型的表现就是逐步减少对从业人员的个人脑力、体力的独特依赖,直至不需要人。 先说说云计算的发展历程。 1988年,太阳电脑(Sun Microsystems)的约翰·盖奇提出“网络就是计算机”(“T…

    云计算 2023年4月13日
    00
  • 企业ERP核心模型与云计算生态

    企业数据 合作伙伴 合作伙伴沟通 产品模型 产品供应 订单模型 Quote报价 工作模型 评价 账单 支付 会计 企业云计算生态 IaaS App在PaaS在 IaaS的伸缩 Instances of the GAE development web-server, dev_appserver.py are deployed on multiple virtu…

    云计算 2023年4月11日
    00
  • 资深架构师用通俗易懂的语言告诉你什么是云计算

      什么是云计算 “云计算”这三个字相信你一定听过无数遍了,那么“云计算”到底是什么?当我们听到云计算三个字时,感觉非常高大上,高不可测。丈二和尚摸不着头脑。今天我们用通俗易懂的语言来说说什么是云计算。 我们通过这三个问题来了解云计算。 咱们先从四次工业革命开始说起:     第一次工业革命是以蒸汽机的发明为开始,人类从此进入蒸汽时代; 第二次工业革命是以电…

    云计算 2023年4月13日
    00
  • 云计算服务模型,第 2 部分: 平台即服务(PaaS)

    平台即服务 (PaaS) 常常是最容易让人迷惑的云计算类别,因为很难识别它,常常把它误认为是基础设施即服务 (IaaS) 或软件即服务 (SaaS)。在这个分三部分的文章系列的第二部分中,了解 PaaS 的特点以及如何在企业中应用它。  英文原文:Cloud computing service models, Part 2: Platform as a Se…

    云计算 2023年4月12日
    00
  • SpringBoot项目集成Swagger和swagger-bootstrap-ui及常用注解解读

    下面是关于”SpringBoot项目集成Swagger和swagger-bootstrap-ui及常用注解解读”的完整攻略,包含两个示例说明。 简介 Swagger是一个用于设计、构建、文档化和使用RESTful Web服务的开源工具。它可以帮助我们快速地生成API文档,并提供了一个交互式的UI界面,方便我们测试API接口。Swagger-bootstrap…

    云计算 2023年5月16日
    00
合作推广
合作推广
分享本页
返回顶部