云计算之路-阿里云上：OCS问题的进展以及11:30-11:50遇到的问题

2023年4月13日上午2:31 • 云计算

（上图是今天出问题期间Web服务器性能监控图，紫色表示的是Request Execution Time）

昨天我们发布了一篇博客分享了我们这两天遇到的OCS（开放缓存服务）问题，详见云计算之路-阿里云上：愚人节被阿里云OCS愚。

后来，阿里云确认了问题的原因：在OCS升级过程中造成了写入的缓存数据过期时间丢失，只需删除这些有问题的缓存数据就不会再出现这个问题。

今天一大早访问低峰的时候，我们进行了清空OCS实例缓存的操作，解决了OCS缓存不能过期的问题。

今天中午11:30左右，园子访问速度突然变慢，上Web服务器一看——就看到了上面的性能监控器，大量请求执行缓慢。当时看到这样的图，真的很心痛——每个跳高的紫色都代表着用户的不满、愤怒，都是对用户体验的极大伤害，我们性能优化的一切努力都是为了降低这个紫色。而云基础实施服务的一点问题就会让我们的努力付之流水。

心痛归心痛，面对问题，唯一的选择是解决问题。

再看上面的性能监控图，Web服务器的CPU占用是正常的（红色线条），说明问题不在云服务器。

接着看数据库服务器（RDS）的状况——

云计算之路-阿里云上：OCS问题的进展以及11:30-11:50遇到的问题

（上图是RDS数据库连接数的监控数据）

出问题期间，RDS的数据库连接数突然飙上去了，这是一个很重要的线索——根据我们的应用场景，只有缓存服务出问题或者缓存命中率急骤下降，才能造成这样的数据库连接数突增。

而出现这样的问题，不仅仅是给数据库带来压力造成性能下降，更糟糕的是在从数据库中读取数据后还要再写入缓存，这也带来额外的性能影响。如果缓存一直有问题，就会不断地进行这样的循环：读缓存->没命中->读数据库->写缓存。。。这样一折腾，网站访问速度会大受影响

出问题时的场景很可能就是这样，所以我们不得不把怀疑对象又放到了阿里云OCS上。

紧接着就是查看应用程序的日志，我们在应用中进行了这样的记录——只要读取缓存超过100毫秒，就记录日志。出人意料的是日志中几乎没有超过100毫秒的缓存读取记录，也就是说出问题期间读取OCS缓存的速度是很快的。

难道也不是OCS引起的问题？。。。

关于缓存，还有一个我们不能忽视的地方——缓存命中率。

如果假设当时OCS的缓存命中出了问题——缓存中有数据却读取不到或者数据没有真正写入缓存，问题期间所发生的现象就都得到了合理的解释。

但是由于OCS管理控制台查看不到历史监控数据，看不到出问题期间的缓存命中率，我们无法验证这个猜测。只能等待阿里云的排查，目前阿里云还在排查中。

11:50左右，一切又恢复了正常。

在出问题的期间，给大家带来了麻烦，望大家谅解！

转载于:https://www.cnblogs.com/cmt/p/aliyun-ocs-20140402.html

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：云计算之路-阿里云上：OCS问题的进展以及11:30-11:50遇到的问题 - Python技术站

云计算

0 0 打赏

微信扫一扫

支付宝扫一扫

大数据和云计算技术周报（第70期)

上一篇 2023年4月13日

中国电信云计算及SDx联合技术开发实验室执行主任王峰：中国电信SDN/NFV实践－从边缘到核心…

下一篇 2023年4月13日

JavaScript DOM API的使用教程及综合案例

关于“JavaScript DOM API的使用教程及综合案例”的完整攻略，我可以为你提供如下详细解释：什么是JavaScript DOM API？ DOM（Document Object Model）是 HTML 文档的对象表示，JavaScript 可以通过 DOM API 来访问、添加、修改、删除 HTML 页面的元素（元素、属性、文本等），并对页面…

云计算 2023年5月17日
000
生信云实证Vol.6：155个GPU！多云场景下的Amber自由能计算

在上一篇生信云实证《提速2920倍！用AutoDock Vina对接2800万个分子》里，我们基于不同用户策略，调用10万核CPU资源，帮用户进行了2800万量级的大规模分子对接，将运算效率提高2920倍。对药物分子的虚拟筛选，仅仅实现分子对接是不够的，往往会面临一个问题就是药物分子活性的评价。许多药物和其它生物分子的活性都是通过与受体大分子之间的相互作用…

云计算 2023年4月12日
000
云计算

基于微软Dryad分布式并行计算平台云技术的研究

微软于2010年12月21日发布了分布式并行计算基础平台——Dryad测试版，成为谷歌MapReduce分布式数据计算平台的竞争对手。它可以使开发人员能够在Windows或者.Net平台上编写大规模的并行应用程序模型，并能够在单机上所编写的程序很轻易的运行在分布式并行计算平台上，程序员可以利用数据中心的服务器集群对数据进行并行处理，当程序开发人员…

2023年4月10日
000
新兴科技成果——越穷越要云计算

一直以来，技术的应用都存在一个误区，那就是资金雄厚、规模大、发展良好的企业才需要采纳新技术。但是云计算技术应用却是个中奇葩的存在，大企受到本身发展的良好、企业规模等限制，相比之下，云计算的应用反而在资金短缺的中小型企业中表现更好，似乎有越穷越适合使用云计算的趋势。穷却用最新的资源资金短缺所带来的困局还包括了合作伙伴不足，资源短缺等。云计算作为一种新兴商业服务…

云计算 2023年4月13日
000
详解node HTTP请求客户端 – Request

下面是关于“详解node HTTP请求客户端 – Request”的完整攻略，包含两个示例说明。简介在Node.js应用程序中，我们经常需要向其他服务器发送HTTP请求。在本攻略中，我们将介绍如何使用Node.js的HTTP请求客户端 – Request来发送HTTP请求，并提供两个示例说明。步骤在Node.js应用程序中使用HTTP请求客户端 – …

云计算 2023年5月16日
000
云计算：SaaS,IaaS,PaaS 通俗解释

云计算生意三个范畴： 1. SaaS（Software as a Service） AMAZON搞出了他们的云计算服务，把自己闲置的计算资源出租给其他人来使用。有的客户什么都不懂，你把计算资源直接给他，他毛也不会用，于是有的云计算提供商就直接把一些软件运行在自己的集群上，这些客户直接上网使用这些软件就好啦，这就是SaaS（Software as a …

云计算 2023年4月12日
000
2019年Linux运维趋势与规划展望

2019年Linux运维趋势与规划展望 Linux运维是当前IT行业中非常重要的一个领域，随着技术的不断发展，Linux运维也在不断变化和发展。本文将介绍2019年Linux运维趋势与规划展望的完整攻略，包括背景介绍、趋势分析、规划展望、示例说明等。 1. 背景介绍 Linux运维是指对Linux系统进行管理、维护和优化的工作。随着云计算、大数据、人工智能等…

云计算 2023年5月16日
000
Python读大数据txt

当我们面对大量数据的时候，传统上我们会选择使用关系型数据库（如MySQL、Oracle）去处理数据。然而在小规模、非商业情况下，使用关系型数据库有些“杀鸡焉用牛刀”。这时我们可以将原始数据存储为文本(txt)格式，便于进行数据的清洗、筛选和统计等操作。接下来是Python读取大数据txt的完整攻略： 1. 确认文件编码大数据文件往往会因为编码问题导致乱码。…

云计算 2023年5月18日
000

云计算之路-阿里云上：OCS问题的进展以及11:30-11:50遇到的问题

相关文章