机器学习：K-means算法进行分类两种初始化簇中心的方法

2023年4月10日上午2:34 • 机器学习

一、第一种初始化簇中心的方法：随机产生k个簇中心，保证簇中心的每个维度的取值都在这个纬度所有值的最小值与最大值的左闭右开区间内

import numpy as np
class KMeans_1:
    def __init__(self,k_clusters,tol=1e-4,max_iter=300):
        self.k_clusters=k_clusters
        self.tol=tol
        self.max_iter=max_iter
    
    #生成随机的k个聚类中心，每个维度都在最小最大值范围内
    def _init_centers_random(self,X,k_clusters):
        _,n=X.shape
        xmin=np.min(X,axis=0)
        xmax=np.max(X,axis=0)
        
        return xmin+(xmax-xmin)*np.random.rand(k_clusters,n)
    
    
    def _kmeans(self,X):
        '''K-Means核心算法'''
        m,n=X.shape
        
        #label存储对每一个实例的划分标记
        labels=np.zeros(m,dtype=np.int)
        #distance为m*k的矩阵，表示每个样本到每个簇中心的距离
        distances = np.empty((m,self.k_clusters))
        #centers_old存储之前的质心点
        centers_old = np.empty((self.k_clusters,n))
        
        #初始化簇中心
        centers=self._init_centers_random(X,self.k_clusters)
        
        for _ in range(self.max_iters):
            #1、分类标签
            for i in range(self.k_clusters):
                #计算m个实例到质心点的距离
                np.sum((X-centers[i])**2,axis=1,out=distances[:,i])
            
            #将m个实例划分到距离最小的那个类中
            np.argmin(distances,axis=1,out=labels)
            
            #2、计算质心点
            #保存之前的质心点
            np.copyto(centers_old,centers)
            for i in range(self.k_clusters):
                cluster = X[labels==i]
                if cluster.size==0:
                    return None
                #计算新的簇中心
                np.mean(cluster,axis=0,out=centers[i])
            
            #3、判断是否收敛,求每个簇中心与原来的位置的距离和
            delta_centers = np.sqrt(np.sum((centers-centers_old)**2,axis=1))
            
            #每个簇中心点的变化都小于阈值
            if np.all(delta_centers < self.tol):
                break
            
        #计算簇内误差平方和
        sse=np.sum(distances[range(m),labels])
            
        return labels,centers
        
    def predict(self,X):
      
        res = None
        while not res:
            res=self._kmeans(X)
            
        labels,self.centers_= res
        
        return labels

二、第二种K-Means算法，初始化簇中心的时候使用了概率模型，能够选出k个相聚较远的点。在这个算法中，我们通过十次有效的划分，计算出最少的损失函数SSE的值，将这个值对应的分类返回

import numpy as np
class KMeans_2:
    def __init__(self,k_clusters,tol=1e-4,max_iter=300,n_init=10):
        self.k_clusters=k_clusters
        self.tol=tol
        self.max_iter=max_iter
        self.n_init = n_init
    
    def _init_centers_kpp(self,X,n_clusters):
        
        '''k-means++核心初始化算法'''
        m,n=X.shape
        #第一个点是随机产生的，所以只需要计算n_clusters-1个点
        distances = np.empty((m,n_clusters-1))
        centers=np.empty((n_clusters,n))
        
        #随机产生一个[0,m-1]的下标，将这个样本作为第一个聚类中心点
        np.copyto(centers[0],X[np.random.randint(m)])
        
        for j in range(1,n_clusters):
            for i in range(j):
                np.sum((X-centers[j])**2,axis=1,out=distances[:,i])
            
            #计算各点到最近质心点的距离平方
            nds=np.min(distances[:,:j],axis=1)
            #1、以各点到最近质心的距离平方构成的加权概率进行分布，产生下一簇质心点
            r=np.sum(nds)*np.random.random()
            
            #2、判断概率点落入那个区域，对应的样本就是簇中心
            for k in range(m):
                r-=nds[k]
                if r < 0:
                    break
            np.copyto(centers[j],X[k])
            
        return centers
    
    def _kmeans(self,X):
        '''K-Means++核心算法'''
        m,n=X.shape
        
        #label存储对每一个实例的划分标记
        labels=np.zeros(m,dtype=np.int)
        #distance为m*k的矩阵，表示每个样本到每个簇中心的距离
        distances = np.empty((m,self.k_clusters))
        #centers_old存储之前的质心点
        centers_old = np.empty((self.k_clusters,n))
        
        #初始化簇中心
        centers=self._init_centers_kpp(X,self.k_clusters)
        
        for _ in range(self.max_iter):
            #1、分类标签
            for i in range(self.k_clusters):
                #计算m个实例到质心点的距离
                np.sum((X-centers[i])**2,axis=1,out=distances[:,i])
            
            #将m个实例划分到距离最小的那个类中
            np.argmin(distances,axis=1,out=labels)
            
            #2、计算质心点
            #保存之前的质心点
            np.copyto(centers_old,centers)
            for i in range(self.k_clusters):
                cluster = X[labels==i]
                if cluster.size==0:
                    return None
                #计算新的簇中心
                np.mean(cluster,axis=0,out=centers[i])
            
            #3、判断是否收敛,求每个簇中心与原来的位置的距离和
            delta_centers = np.sqrt(np.sum((centers-centers_old)**2,axis=1))
            
            #每个簇中心点的变化都小于阈值
            if np.all(delta_centers < self.tol):
                break
            
        #计算簇内误差平方和
        sse=np.sum(distances[range(m),labels])
            
        return labels,centers,sse
        
    def predict(self,X):
        
        result = np.empty((self.n_init,3),dtype=np.object)
        
        #运行self.n_init次
        for i in range(self.n_init):
            #调用self.k_means直到成功
            res = None
            while res is None:
                res=self._kmeans(X)
            result[i]=res
            
        #选出sse最小的分类结果
        k=np.argmin(result[:,-1])
        labels,self.centers_,sse_ = result[k]
        
        return labels

三、加载数据

数据来源

http://archive.ics.uci.edu/ml/machine-learning-databases/00236/

import numpy as np
X=np.genfromtxt('F:/python_test/data/seeds_dataset.txt',usecols=range(7))
print(X)
labels=np.genfromtxt('F:/python_test/data/seeds_dataset.txt',usecols=7,dtype=np.int)
print(labels)

机器学习：K-means算法进行分类两种初始化簇中心的方法

三类标签分别有七十个

print(labels[:70])
print(labels[70:140])
print(labels[140:210])

机器学习：K-means算法进行分类两种初始化簇中心的方法

kmeans=KMeans_2(3)
label_pred=kmeans.predict(X)
print(label_pred)

机器学习：K-means算法进行分类两种初始化簇中心的方法

大体上分成了三类，但是效果怎么样还有待评估，使用ARI指标进行评估，

from sklearn.metrics import adjusted_rand_score
ari=adjusted_rand_score(labels,label_pred)
print(ari)

得到ARI=0.7166198557361053

再考察外部指标FM

from sklearn.metrics import fowlkes_mallows_score
fm=fowlkes_mallows_score(labels,label_pred)
print(fm)

机器学习：K-means算法进行分类两种初始化簇中心的方法

性能可以说还不错，我们紧接着对每个属性的取值都标准化再使用K-means算法

from sklearn .preprocessing import StandardScaler
ss=StandardScaler()
X_std=ss.fit_transform(X)
kmeans = KMeans_2(3)
label_pred=kmeans.predict(X_std)
ari=adjusted_rand_score(labels,label_pred)
print(ari)
fm=fowlkes_mallows_score(labels,label_pred)
print(fm)

机器学习：K-means算法进行分类两种初始化簇中心的方法

可见ARI指标和FM指标分别提高到了77.3%和84.8%

下面测试一下上述两种算法的能力

第一种：

w=range(200)
ari_arr=[]
fm_arr=[]
import matplotlib
matplotlib.use('TkAgg')
import matplotlib.pyplot as plt
for i in w:
    ss=StandardScaler()
    X_std=ss.fit_transform(X)
    kmeans = KMeans_1(3)
    label_pred=kmeans.predict(X_std)
    ari=adjusted_rand_score(labels,label_pred)
    ari_arr.append(ari)
    fm=fowlkes_mallows_score(labels,label_pred)
    fm_arr.append(fm)
plt.plot(w,ari_arr,label='ari',linestyle='--',color='red')
plt.plot(w,fm_arr,label='fm',linestyle='-.',color='blue')
plt.show()

机器学习：K-means算法进行分类两种初始化簇中心的方法

可以发现平均下来还是很不错的

第二种：（非常稳定，但是好像没有上面第一种方法好）

w=range(200)
ari_arr=[]
fm_arr=[]
import matplotlib
matplotlib.use('TkAgg')
import matplotlib.pyplot as plt
for i in w:
    ss=StandardScaler()
    X_std=ss.fit_transform(X)
    kmeans = KMeans_2(3)
    label_pred=kmeans.predict(X_std)
    ari=adjusted_rand_score(labels,label_pred)
    ari_arr.append(ari)
    fm=fowlkes_mallows_score(labels,label_pred)
    fm_arr.append(fm)
plt.plot(w,ari_arr,label='ari',linestyle='--',color='red')
plt.plot(w,fm_arr,label='fm',linestyle='-.',color='blue')
plt.xlabel('iterations')
plt.ylabel('ratio')
plt.legend()
plt.show()

机器学习：K-means算法进行分类两种初始化簇中心的方法

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习：K-means算法进行分类两种初始化簇中心的方法 - Python技术站

机器学习

0 0 打赏

微信扫一扫

支付宝扫一扫

One-Hot编码(转) 机器学习：数据预处理之独热编码（One-Hot）

上一篇 2023年4月10日

机器学习（五）：混合高斯聚类（求聚类标签）+PCA降维（3维降2维）习题

下一篇 2023年4月10日

《机器学习理论、方法及应用》研读(1)

机器学习的概念学习：可以从不同角度对学习给出解释，但是都包含了知识获取和能力改善这两个主要方面。因此给学习如下一般的解释：学习是一个有特定目的的知识获取和能力增长过程，其内在行为是获得知识、积累经验发现规律等，其外部表现是改进性能、适应环境、实现自我完善等。机器学习：机器学习是一门研究怎样用计算机来模拟或实现人类学习活动的学科，是计算机科学、数学、心理学…

机器学习 2023年4月13日
000
就离谱！使用机器学习预测2022世界杯：小组赛挺准，但冠亚季军都错了 ⛵

本文使用机器学习建模对 FIFA 2022世界杯结果进行了预测，赛后将其与真实结果进行比较，可以看出：小组赛到1/4决赛的预测准确率很高，半决赛和决赛的预测准确率为0，冠亚季军无一预测准确。 ? 作者：韩信子@ShowMeAI? 数据分析实战系列：https://www.showmeai.tech/tutorials/40? 机器学习实战系列：https:/…

机器学习 2023年4月11日
000
【机器学习基础】——另一个视角解释SVM

SVM的另一种解释前面已经较为详细地对SVM进行了推导，前面有提到SVM可以利用梯度下降来进行求解，但并未进行详细的解释，本节主要从另一个视角对SVM进行解释，首先先回顾之前有关SVM的有关内容，然后从机器学习的三步走的角度去对SVM进行一个解释。那么对于传统的机器学习，每个方法最大区别就是损失函数的选取，因此SVM可以看成是另一种损失函数的方法，这种损…

机器学习 2023年4月11日
000
Spark0.9.0机器学习包MLlib-Optimization代码阅读

基于Spark的一个生态产品–MLlib，实现了经典的机器学算法，源码分8个文件夹，classification文件夹下面包含NB、LR、SVM的实现，clustering文件夹下面包含K均值的实现，linalg文件夹下面包含SVD的实现(稀疏矩阵的表示)，recommendation文件夹下面包含als，矩阵分解实现，regression文…

机器学习 2023年4月12日
000
【机器学习】李宏毅——从逻辑回归推导出神经网络

【机器学习】李宏毅——从逻辑回归推导出神经网络假设现在有两种类别的样本，其类别分别为\(C_1\)和\(C_2\)，而拥有的样本数分别为\(N_1\)和\(N_2\)，那么假设每个样本都是从其类别对应的高斯分布中取出来的，那么则可以进行如下推导：那么就可以得到《统计学习方法》中第六章的逻辑回归对于两类概率的定义（解决了我的疑惑）那么逻辑回归就是如何找到…

机器学习 2023年4月11日
000
员工离职困扰？来看AI如何解决，基于人力资源分析的 ML 模型构建全方案 ⛵

本文通过数据科学和AI的方法，分析挖掘人力资源流失问题，构建基于机器学习的解决方案，并通过对AI模型的反向解释，深入理解导致人员流失的主要因素。 ? 作者：韩信子@ShowMeAI? 数据分析实战系列：https://www.showmeai.tech/tutorials/40? 机器学习实战系列：https://www.showmeai.tech/tuto…

机器学习 2023年4月11日
000
机器学习库《Spark 官方文档》机器学习库（MLlib）指南

spark-2.0.2 机器学习库（MLlib）指南 MLlib是Spark的机器学习（ML）库。旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。 MLllib目前分为两个代码包： spark.mllib 包含基于RDD的原…

机器学习 2023年4月13日
000
机器学习笔记—Logistic回归

本文申明：本系列笔记全部为原创内容，如有转载请申明原地址出处。谢谢序言：what is logistic regression? Logistics 一词表示adj.逻辑的;[军]后勤学的n.[逻]数理逻辑;符号逻辑;[军]后勤学， “回归”是由英国著名生物学家兼统计学家高尔顿在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系，高尔顿搜集了1078…

机器学习 2023年4月12日
000

机器学习：K-means算法进行分类 两种初始化簇中心的方法

相关文章

机器学习：K-means算法进行分类两种初始化簇中心的方法