云计算背景下的自动化运维体系

2023年4月12日上午9:01 • 云计算

结合现在云计算和DevOps的发展趋势，我觉得一个成熟的自动化运维平台应该包括以下的特性：

一、支持混合云的CMDB现在越来越多的服务器都转到了云上，而主流的公有云、私有云平台都拥有比较完备的资源管理的API，这些API也就是构建一个自动化CMDB的基础。

新一代的自动化运维平台应该是可以基于这些API来自动维护和管理相关的服务器、存储、网络、负载均衡的资源的。通过API对资源的操作都应该被作为操作日志记录下来，以备作为后续操作审计的基础数据。CMDB这个东西听上去是老生常谈，但这个确实是所有运维工具的基础设施。而基于开源工具做运维平台最大的麻烦，就是如何在各个工具之间把CMDB统一起来。CMDB不统一起来，就意味着一旦要增加一台服务器，可能要在各个运维工具里面都要同步一下，这个还是非常折腾滴。。。

二、比较完备的监控+应用性能分析（APM）能支持对平台的可用性、服务器的性能、各种服务（web服务、应用服务、数据库服务）的性能进行监控。
做的好一些应该能进行更深入、或者关联性的性能分析。

现在市面上一般都会将资源性能监控和应用性能监控（APM）混合着讲，这里面的产品确实也有很多都是重叠的，两方面都会涉及到。开源的性能监控系统主流有的Zabbix、Nagios，国产的开源监控平台有小米OpenFalcon，但这些基本都只是做基本的资源监控（服务器，磁盘、网络等）和简单的服务软件的性能监控（中间件，数据库等）。而市面上的APM系统更主打的功能是应用性能分析，比如能精确定位到某个应用的URL的访问速度快慢，某些SQL执行速度的快慢，这些对于开发人员和运维人员快速定位问题还是很有帮助的。APM这方面的商业工具，国外比较主流的有New Reclic、Dynatrace，国内的也就是透视宝、Oneapm、听云等，他们也提供了API进行集成。APM这方面的开源工具有pinpoint（一个韩国团队开源的），zipkin（twitter开源），cat（大众点评开源）。

三、有一个还不错UI的批量运维工具在业务发展比较快的情况下，从几台服务器，到几十台服务器，再到几百台服务器，批量运维的需求很自然就产生了，老板也希望越少的人干越多的活。
现在也有不少开源的批量运维工具，也都比较成熟了，比如puppet、chef、ansible、saltstack。puppet和chef都是ruby做的，实话实说，ruby的熟手市面上很少，比python不是难招一点。我个人比较推荐使用ansible或者saltstack，这两个系统都是python写的，代码质量和社区活跃度都挺不错的。ansible有官方的web ui——Tower，但实话实说不好用，所以我们也在重新做一套自己用起来更顺手的WEB UI。

四、日志集中分析工具线上系统最常规的问题定位方式，就是日志分析了。随着服务器的增多，日志的分析定位也成为一个难点和痛点（想象一下，系统出故障之后，要去几十甚至数百个节点去上去查日志，是有多折腾）。国内有一家叫日志易的公司，是专门做日志分析方面的运维工具的。另外还有一家log insight，也是做这个领域，但产品好像还处于beta阶段。日志分析这个领域现在是一个热点，现在的开源方案也比较多了，比如著名的ELKStack，还有Flume+Kafka+Storm的体系。上面这两个方案相对重一些，部署比较复杂，网上介绍的文章也不少。比较轻量级的开源日志集中采集方案有python做的Sentry，他是通过改造各种语言的日志采集框架来实现日志的集中采集，各种主流的开发语言的日志框架都支持得很完整了，比如java的log4j和logpack。

五、持续集成和发布工具这方面其实比较难有统一的需求，很多公司集成发布的做法都差异挺大的。
持续集成方面，一般用jenkins的比较多，这方面网上介绍的文章也很多。而如何把打好的包发布至各台服务器，则可以通过批量运维工具或者脚本来完成了。版本发布的过程涉及到很多细节，包括了版本文件的上传、分发、版本管理、回滚等各种操作。对于一般不太复杂的项目，我比较推荐的做法是把打包好的文件上传到svn上，然后通过脚本在各台服务器上进行发布操作就行了，这样其实是利用了SVN来完成文件的上传、分发、版本管理、回滚等各种操作。

六、安全漏洞扫描工具现在一个稍微有点知名度的系统，都会遭受各种各样的安全攻击的折磨。一般的公司不太可能请得起专职的安全工程师，所以运维工程师最好能自己借助一些安全扫描工具来发现自己系统的漏洞。安全工具方面我了解不多，不太熟这个领域的开源工具。之前乌云网推出过一个SaaS化的漏扫平台——唐朝巡航，有对外提供漏洞扫描的API，不过最近乌云网一直在升级，所以也就暂时无法调用了。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：云计算背景下的自动化运维体系 - Python技术站

云计算

0 0 打赏

微信扫一扫

支付宝扫一扫

什么是云计算，及其原理

上一篇 2023年4月12日

云计算——云服务器ECS（2）

下一篇 2023年4月12日

从这两年的云计算行业安全黑板报来看看云安全现状

余波未平，暗潮又起的nsa武器攻击事件给整个IT业都带来了巨大的危机感。这段时间也看到了各云厂商，绝大多数是提供公有云服务的，从基础设施虚拟化到容器微服务领域都有，纷纷强调了自家的安全能力。其实，类似本次SAMBA漏洞的这种通用软件级漏洞得益于官方与行业内众多力量的聚集，预先防护与应急响应在云厂商处都尤为迅速。而各家自己开发的应用/系统，如云管平台、用…

云计算 2023年4月10日
000
剖析Python的Twisted框架的核心特性

剖析Python的Twisted框架的核心特性什么是Twisted Twisted是一个Python的事件驱动、异步网络框架，提供了包括TCP、UDP、SSL、控制台、Web等在内的多个协议的实现，以及其他一些工具。Twisted通过非阻塞I/O和一系列高级API实现了异步编程，可以帮助用户构建高吞吐、高并发的网络应用。核心特性 Twisted的核心特性…

云计算 2023年5月18日
000
云原生时代顶流消息中间件Apache Pulsar部署实操之轻量级计算框架

本篇逐层递进了解Pulsar Functions的基本概念和理论，如工作原理、处理保证模式、窗口函数；进一步搭建Pulsar函数运行环境，一步步操作演示函数也包括窗口函数的示例使用，最后通过Java语言实现原生语言接口和Pulsar函数SDK两种方式的代码示例、打包、部署和结果验证。 @ 目录 Pulsar Functions(轻量级计算框架) 基础定义工…

云计算 2023年4月13日
000
Python3 文章标题关键字提取的例子

首先我们需要明确的是，文章标题关键字提取是为了从文章标题中提取出关键字，以便于文章的分类、索引和搜索。Python3是一种强大的编程语言，可以用来编写提取文章标题关键字的程序。下面是这个过程的完整攻略： 1. 安装依赖在开始之前，我们需要安装一些必要的Python包。可以使用以下命令安装： pip install jieba pip install nl…

云计算 2023年5月18日
000
如何用python开发Zeroc Ice应用

如何用Python开发Zeroc Ice应用 Zeroc Ice是一种高效、灵活、跨平台的RPC框架，支持多种编程语言。在这里，我们将讨论如何使用Python语言开发Zeroc Ice应用程序的方法。安装Zeroc Ice 在开始编写Python应用程序之前，您需要先安装Zeroc Ice软件包。您可以在Zeroc官网下载最新版本的Ice软件包进行安装。 …

云计算 2023年5月17日
000
一文学会Hadoop与Spark等大数据框架知识

一文学会Hadoop与Spark等大数据框架知识对于想要入门大数据领域的人来说，Hadoop和Spark这两个大数据框架是不可或缺的。本文将介绍如何从零开始学习Hadoop和Spark，并提供一些示例以帮助读者更好地理解。 Hadoop学习攻略 1. 安装和配置首先需要安装Hadoop，可以从官网或其他可靠网站下载。安装完后，需要进行配置才能使用。主要包…

云计算 2023年5月18日
000
分享Python切分字符串的一个不错方法

如果要将一个字符串按照某种方式进行切分， Python内置的split()方法是最常用的选择之一。但是，有一些特殊情况下，我们想要使用一种更灵活的方式进行字符串切分，本文将会介绍一种不错的Python字符串切分技巧，它可以更加高效地处理一些特殊情况下的字符串切分需求。使用 split() 进行字符串切分的问题首先，让我们来看看使用 split() 进行字…

云计算 2023年5月18日
000
云计算

云计算设计模式（十六）——优先级队列模式

优先发送到服务，以便具有较高优先级的请求被接收和高于一个较低优先级的更高速地处理请求。这样的模式是在应用程序是实用的，它提供不同的服务级别保证或者针对独立客户。背景和问题应用程序能够托付给其它服务的详细任务;比如，为了运行后台处理或与其它应用程序或服务的整合。在云中，消息队列通经常使用于将任务委派给后台处理。在很多情况下，请求由服务接收的顺序是不重要的。…

2023年4月10日
000

云计算背景下的自动化运维体系

相关文章