Kubernetes集群调度增强之超容量扩容

2023年4月18日下午4:38 • 云计算

作者：京东科技徐宪章

1 什么是超容量扩容

超容量扩容功能，是指预先调度一定数量的工作节点，当业务高峰期或者集群整体负载较高时，可以使应用不必等待集群工作节点扩容，从而迅速完成应用横向扩容。通常情况下HPA、ClusterAutosacler和超容量扩容同时使用以满足负载敏感度高的业务场景。

超容量扩容功能是通过K8S应用优先级设置和ClusterAutosaler共同作用实现的，通过调整低优先级空载应用的数量，使集群已调度资源保持在较高的状态，当其他高优先级应用因为HPA或者手动调整应用分片数量时，可以通过驱逐空载的方式腾空调度资源却保高优先级应用可以在第一时间调度并创建。当空载应用从被驱逐转变为等到状态时，ClusterAutosaler此时对集群机型扩容，确保下次高优先级应用调度时，有足够的空载应用可以被驱逐。

超容量扩容功能的核心为OverprovisionAutoscaler（超容量扩容）和ClusterAutosaler(集群自动扩容)，两者都需要通过不断调整参数配置去适配多重业务需求需求。

超容量扩容功能在一定程度上降低了资源使用饱和度，通过增加成本提高了集群和应用的稳定性，实际业务场景中需要根据需求进行取舍并合理配置。

2 什么情况下需要使用超容量扩容

当集群值开启Hpa和Autoscaler时，在发生节点扩容的情况下，应用调度时间通常为4-12分钟，主要取决于创建工作节点资源以及工作节点从加入集群到Ready的总耗时。以下为最佳和最差效率分析

最佳案例场景－４分钟

• 30秒 - 目标指标值更新：30-60秒

• 30秒 - HPA检查指标值：30秒 - >30秒 - HPA检查指标值：30秒 - >

• <2秒 - Pods创建之后进入pending状态<2秒－Pods创建之后进入pending状态

• <2秒 - CA看到pending状态的pods，之后调用来创建node 1秒<2秒－CA看到pending状态的pods，之后调用来创建node 1秒

• 3分钟 - cloud provider创建工作节点，之后加入k8s之后等待node变成ready

最糟糕的情况 - 12分钟

• 60 秒 —目标指标值更新

• 30 秒 — HPA检查指标值

• < 2 秒 — Pods创建之后进入pending状态

• < 2 秒 —CA看到pending状态的pods，之后调用来创建node 1秒

• 10 分钟 — cloud provider创建工作节点，之后加入ｋ8s之后等待node变成ready

两种场景下，创建工作节点耗时占比超过75%，如果可以降低或者完全不考虑该时间，将大大提高应用扩容速度，配合超容量扩容功能可以大大增强集群和业务稳定性。超容量扩容主要用于对应用负载敏感度较高的业务场景

大促备战
流计算/实时计算
Devops系统
其他调度频繁的业务场景

3 如何开启超容量扩容

超容量扩容功能以ClusterAutoscaler为基础，配合OverprovisionAutoscaler实现。以京东公有云Kubernetes容器服务为例

3.1 开启ClusterAutoscaler

https://cns-console.jdcloud.com/host/nodeGroups/list

• 进入 “kubernetes容器服务”->“工作节点组”

• 选择需要对应节点组，点击开启自动伸缩

• 设置节点数量区间，并点击确定

Kubernetes集群调度增强之超容量扩容

3.2 部署OverprovisionAutoscaler

1 部署控制器及配置

apiVersion: apps/v1
kind: Deployment
metadata:
  name: overprovisioning-autoscaler
  namespace: default
  labels:
    app: overprovisioning-autoscaler
    owner: cluster-autoscaler-overprovisioning
spec:
  selector:
    matchLabels:
      app: overprovisioning-autoscaler
      owner: cluster-autoscaler-overprovisioning
  replicas: 1
  template:
    metadata:
      labels:
        app: overprovisioning-autoscaler
        owner: cluster-autoscaler-overprovisioning
    spec:
      serviceAccountName: cluster-proportional-autoscaler
      containers:
        - image: jdcloud-cn-north-1.jcr.service.jdcloud.com/k8s/cluster-proportional-autoscaler:v1.16.3
          name: proportional-autoscaler
          command:
            - /autoscaler
            - --namespace=default
            ## 注意这里需要根据需要指定上述的configmap的名称 
            ## /overprovisioning-autoscaler-ladder/overprovisioning-autoscaler-linear
            - --configmap=overprovisioning-autoscaler-{provision-mode}
            ## 预热集群应用（类型）/ 名称,基准应用和空值应用需要在同一个命名空间下
            - --target=deployment/overprovisioning
            - --logtostderr=true
            - --v=2
          imagePullPolicy: IfNotPresent
          volumeMounts:
            - name: host-time
              mountPath: /etc/localtime
      volumes:
        - name: host-time
          hostPath:
            path: /etc/localtime
---
kind: ServiceAccount
apiVersion: v1
metadata:
  name: cluster-proportional-autoscaler
  namespace: default
---
kind: ClusterRole
apiVersion: rbac.authorization.k8s.io/v1
metadata:
  name: cluster-proportional-autoscaler
rules:
  - apiGroups: [""]
    resources: ["nodes"]
    verbs: ["list", "watch"]
  - apiGroups: [""]
    resources: ["replicationcontrollers/scale"]
    verbs: ["get", "update"]
  - apiGroups: ["extensions","apps"]
    resources: ["deployments/scale", "replicasets/scale","deployments","replicasets"]
    verbs: ["get", "update"]
  - apiGroups: [""]
    resources: ["configmaps"]
    verbs: ["get", "create"]
---
kind: ClusterRoleBinding
apiVersion: rbac.authorization.k8s.io/v1
metadata:
  name: cluster-proportional-autoscaler
subjects:
  - kind: ServiceAccount
    name: cluster-proportional-autoscaler
    namespace: default
roleRef:
  kind: ClusterRole
  name: cluster-proportional-autoscaler
  apiGroup: rbac.authorization.k8s.io
---
apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: overprovisioning
value: -1
globalDefault: false
description: "Priority class used by overprovisioning."

2 部署空载应用

apiVersion: apps/v1
kind: Deployment
metadata:
  name: overprovisioning
  namespace: default
  labels:
    app: overprovisioning
    owner: cluster-autoscaler-overprovisioning
spec:
  replicas: 1
  selector:
    matchLabels:
      app: overprovisioning
      owner: cluster-autoscaler-overprovisioning
  template:
    metadata:
      annotations:
        autoscaler.jke.jdcloud.com/overprovisioning: "reserve-pod"
      labels:
        app: overprovisioning
        owner: cluster-autoscaler-overprovisioning
    spec:
      priorityClassName: overprovisioning
      containers:
        - name: reserve-resources
          image: jdcloud-cn-east-2.jcr.service.jdcloud.com/k8s/pause-amd64:3.1
          resources:
            requests:
              ## 根据预热预期设置配置的分片数量及单分片所需资源
              cpu: 7
          imagePullPolicy: IfNotPresent

3.3 验证超容量扩容功能是否正常

1 验证Autoscaler

• 查看autoscaler控制器是否Running

• 不断创建测试应用，应用需求资源略微小于节点组单节点可调度资源

• 观察集群节点状态，当资源不足导致pod 等待中状态时，autocalser是否会按照预设(扩容等待、扩容冷却、最大节点数量等)进行扩容

• 开启集群自动缩容，删除测试应用，观察集群节点资源Request到达阈值后是否发生缩容。

2 验证OverprovisionAutoscaler

• 查看OverprovisionAutoscaler控制器是否Running

• 不断创建测试应用，当发生autoscaler后，空载应用数量是否会根据配置发生变化

• 当业务应用pendding后，空载应用是否会发生驱逐，并调度业务应用

4 设置OverprovisionAutoscaler及ClusterAutoscaler参数

4.1 配置ClusterAutoscaler

1 ca参数说明

参数名称	默认值	参数说明
scan_interval	20s	How often cluster is reevaluated for scale up or down
max_nodes_total	0	Maximum number of nodes in all node groups
estimator	binpacking	Type of resource estimator to be used in scale up.
expander	least-waste	Type of node group expander to be used in scale up
max_empty_bulk_delete	15	Maximum number of empty nodes that can be deleted at the same time
max_graceful_termination_sec	600	Maximum number of seconds CA waits for pod termination when trying to scale down a node
max_total_unready_percentage	45	Maximum percentage of unready nodes in the cluster. After this is exceeded, CA halts operations
ok_total_unready_count	100	Number of allowed unready nodes, irrespective of max-total-unready-percentage
max_node_provision_time	900s	Maximum time CA waits for node to be provisioned
scale_down_enabled	true	Should CA scale down the cluster
scale_down_delay_after_add	600s	How long after scale up that scale down evaluation resumes
scale_down_delay_after_delete	10s	How long after node deletion that scale down evaluation resumes, defaults to scanInterval
scale_down_delay_after_failure	180s	How long after scale down failure that scale down evaluation resumes
scale_down_unneeded_time	600s	How long a node should be unneeded before it is eligible for scale down
scale_down_unready_time	1200s	How long an unready node should be unneeded before it is eligible for scale down
scale_down_utilization_threshold	0.5	Node utilization level, defined as sum of requested resources divided by capacity, below which a node can be considered for scale down
balance_similar_node_groups	false	Detect similar node groups and balance the number of nodes between them
node_autoprovisioning_enabled	false	Should CA autoprovision node groups when needed
max_autoprovisioned_node_group_count	15	The maximum number of autoprovisioned groups in the cluster
skip_nodes_with_system_pods	true	If true cluster autoscaler will never delete nodes with pods from kube-system (except for DaemonSet or mirror pods)
skip_nodes_with_local_storage	true	If true cluster autoscaler will never delete nodes with pods with local storage, e.g. EmptyDir or HostPath', NOW(), NOW(), 1);

2 推荐配置

# 其他保持默认
scan_interval=10s
max_node_provision_time=180s
scale_down_delay_after_add=180s
scale_down_delay_after_delete=180s
scale_down_unneeded_time=300s
scale_down_utilization_threshold=0.4

4.2 配置OverprovisionAutoscaler

OverprovisionAutoscaler的配置有线性配置和阶梯配置两种方式，两种配置方式只能选择一种.

1 线性配置（ladder）

线性配置，通过配置总体CPU核数以及节点数量和空载应用数量的比例实现线性资源预留，空载应用数量总是和CPU总量以及节点数量成正比，精度会根据空载应用CPU资源request变化，request值越小，精度月高，当配置发生冲突时，取符合线性关系的空载应用数量最大值.

节点数量满足配置中min和max的区间

preventSinglePointFailure，当为true时，Running状态的空载应用分片数满足线性关系；当为false时，Failer/Running状态的空载应用分片数满足线性关系

includeUnschedulableNodes，是否考虑不可调度节点

kind: ConfigMap
apiVersion: v1
metadata:
  name: overprovisioning-autoscaler-linear
  namespace: default
data:
  linear: |-
    {
      "coresPerReplica": 2,
      "nodesPerReplica": 1,
      "min": 1,
      "max": 100,
      "includeUnschedulableNodes": false,
      "preventSinglePointFailure": true
    }

2 阶梯配置(linear)

阶梯配置，通过配置总体CPU核数或者节点数量和空载应用数量的矩阵实现阶梯状资源预留，空载应用数量符合CPU总量以及节点数量的分布状态，当配置发生冲突时，取符合区间分布的空载应用数量最大值

kind: ConfigMap
apiVersion: v1
metadata:
  name: overprovisioning-autoscaler-ladder
  namespace: default
data:
  ladder: |-
    {
      "coresToReplicas":
      [
        [ 1,1 ],
        [ 50,3 ],
        [ 200,5 ],
        [ 500,7 ]
      ],
      "nodesToReplicas":
      [
        [ 1,1 ],
        [ 3,4 ],
        [ 10,5 ],
        [ 50,20 ],
        [ 100,120 ],
        [ 150,120 ]
      ]
    }

原文链接：https://www.cnblogs.com/Jcloud/p/17329497.html

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Kubernetes集群调度增强之超容量扩容 - Python技术站

云计算京东云开发者

0 0 打赏

微信扫一扫

支付宝扫一扫

华为云新一代iPaaS全域融合集成平台全新升级

上一篇 2023年4月18日

Karmada v1.5发布：多调度组助力成本优化

下一篇 2023年4月19日

这只猫在云端定居了？边缘计算在天猫精灵云应用上的落地实践

IoT的概念早已飞入寻常百姓家，在你我的日常生活中发挥着“智能”作用。比如，智能家居、智慧照明、GPS 导航、手机计步器等。未来，随着用户和技术的延伸和拓展，物联网的信息交换和通信价值将会被继续放大。那么问题来了，如此庞大的设备和信息量，如何进行管理和整合重组？如何高效准确智能地对用户需求和实际应用场景做出反应？如何让数据流动产生更大价值？如何向着更智慧…

云计算 2023年4月17日
000
【云计算】使用docker搭建nfs实现容器间共享文件

首先介绍下今天的两个主角:nfs和docker nfs 是什么 NFS（Network File System）即网络文件系统，是FreeBSD支持的文件系统中的一种，它允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中，本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件，就像访问本地文件一样。摘自百度百科 docker 是…

云计算 2023年4月12日
000
Python入门基础之变量及字符串

Python是一种解释性语言，它的代码在执行过程中会生成许多数据，其中变量和字符串是最重要的两种数据类型。在本篇攻略中，我们将详细了解Python的变量和字符串基础知识。变量变量的定义在Python中，变量就像一个容器，用于存放数据。变量定义的语法格式如下：变量名 = 值变量名是由字母、数字和下划线组成的，但必须以字母或下划线开头。值可以是任何类型…

云计算 2023年5月18日
000
云计算openstack共享组件（2）——Memcache 缓存系统

在大型海量并发访问网站及openstack等集群中，对于关系型数据库，尤其是大型关系型数据库，如果对其进行每秒上万次的并发访问，并且每次访问都在一个有上亿条记录的数据表中查询某条记录时，其效率会非常低，对数据库而言，这也是无法承受的。缓冲系统的使用可以很好的解决大型并发数据访问所带来的效率低下和数据库压力等问题，缓存系统将经常使用的活跃数据存储在内存中避免…

云计算 2023年4月10日
000
云计算

WCF与Hprose在微软云计算平台Azure上的对决

Windows Azure Platform是一个运行在微软数据中心的云计算平台。它包括一个云计算操作系统和一个为开发者提供的服务集合。开发人员创建的应用既可以直接在该平台中运行，也可以使用该云计算平台提供的服务。相比较而言，Windows Azure platform延续了微软传统软件平台的特点，能够为客户提供熟悉的开发体验，用户已有的许多应用…

2023年4月10日
000
python爬虫租房信息在地图上显示的方法

下面是关于“python爬虫租房信息在地图上显示的方法”的完整攻略，包含两个示例说明。简介在本攻略中，我们将介绍如何使用Python爬虫来获取租房信息，并将这些信息在地图上显示。我们将使用BeautifulSoup和Selenium等库来实现这个过程。步骤在使用Python爬虫获取租房信息并在地图上显示时，我们可以通过以下步骤来实现：使用Pytho…

云计算 2023年5月16日
000
读书笔记《Hadoop开源云计算平台》

HDFS-Hadoop Distributed File System，对大文件效率高，小文件效率低。和普通本地的文件系统区别在于HDFS中的文件是分布在多台计算机上的，并且访问文件需要通过HDFS中的NameNode来访问。比如一个文件1g，被分成了10份分别保存在计算机01-10中，当客户端要获取这个文件时，会发生：客户端request到NameNod…

云计算 2023年4月11日
000
在Go中使用JSON(附demo)

让我来为您讲解如何在Go中使用JSON。前置知识在了解如何在Go中使用JSON之前，我们需要先了解一些前置知识： JSON简介 JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。在Web应用程序中，JSON通常用于从服务器传输数据到客户端。在JSON中，数据以键值对的…

云计算 2023年5月17日
000

Kubernetes集群调度增强之超容量扩容

1 什么是超容量扩容

2 什么情况下需要使用超容量扩容

3 如何开启超容量扩容

3.1 开启ClusterAutoscaler

3.2 部署OverprovisionAutoscaler

1 部署控制器及配置

2 部署空载应用

3.3 验证超容量扩容功能是否正常

1 验证Autoscaler

2 验证OverprovisionAutoscaler

4 设置OverprovisionAutoscaler及ClusterAutoscaler参数

4.1 配置ClusterAutoscaler

1 ca参数说明

2 推荐配置

4.2 配置OverprovisionAutoscaler

1 线性配置（ladder）

2 阶梯配置(linear)

相关文章