分析总结Python数据化运营KMeans聚类

分析总结Python数据化运营KMeans聚类攻略

背景

在进行数据化运营的过程中,我们经常需要对用户行为、产品属性等数据进行分析。KMeans聚类是常用的无监督机器学习算法,可以帮助我们进行数据聚类分析。

步骤

  1. 准备数据集

将需要分析的数据集读取进来,进行预处理,数据清洗,确保数据的准确性和完整性。

  1. 定义距离度量

定义距离度量方法,用来衡量数据点之间的距离。

  1. 选择合适的K值

KMeans聚类需要预先设定分组数量,也就是K值。可以通过手肘法、轮廓系数等方法来选择合适的K值。

  1. 训练模型

将数据集输入KMeans聚类模型中,进行训练。

  1. 可视化

通过可视化工具将聚类结果进行展示,便于我们更好地理解分析结果。

示例一

以鸢尾花数据集为例,进行KMeans聚类分析。

  1. 准备数据集
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
  1. 定义距离度量
from scipy.spatial.distance import euclidean

def dist(a, b):
    return euclidean(a, b)
  1. 选择合适的K值
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

K = range(1, 10)
SSE = []
# Sum of squared errors
for k in K:
    estimator = KMeans(n_clusters=k)
    estimator.fit(X)
    SSE.append(estimator.inertia_)

plt.plot(K, SSE, 'o-')
plt.xlabel('K')
plt.ylabel('SSE')
plt.show()

分析总结Python数据化运营KMeans聚类

  1. 训练模型
estimator = KMeans(n_clusters=3)
estimator.fit(X)
labels = estimator.labels_
  1. 可视化
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(1, figsize=(8,8))
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)
ax.scatter(X[:, 3], X[:, 0], X[:, 2],c=labels.astype(np.float), edgecolor="k")
ax.set_xlabel("花瓣宽度")
ax.set_ylabel("花萼长度")
ax.set_zlabel("花瓣长度")
plt.show()

分析总结Python数据化运营KMeans聚类

示例二

以国际足球比赛数据集为例,进行KMeans聚类分析。

  1. 准备数据集
import pandas as pd

df = pd.read_csv('results.csv')
X = df[['home_score', 'away_score']].values
  1. 定义距离度量
def dist(a, b):
    return abs(a[0] - b[0]) + abs(a[1] - b[1])
  1. 选择合适的K值
K = range(1, 10)
SSE = []
for k in K:
    estimator = KMeans(n_clusters=k)
    estimator.fit(X)
    SSE.append(estimator.inertia_)

plt.plot(K, SSE, 'o-')
plt.xlabel('K')
plt.ylabel('SSE')
plt.show()

分析总结Python数据化运营KMeans聚类

  1. 训练模型
estimator = KMeans(n_clusters=3)
estimator.fit(X)
labels = estimator.labels_
  1. 可视化
import seaborn as sns

df['cluster'] = labels
sns.scatterplot(x="home_score", y="away_score",hue='cluster',palette=["y", "b", "r"], data=df)
plt.show()

分析总结Python数据化运营KMeans聚类

总结

上述两个示例展示了KMeans聚类的使用方法,选取了不同的数据集进行训练及可视化。最后利用可视化工具将聚类结果展示出来,帮助我们更好地理解分析结果。KMeans聚类并不是万能的,不同的数据集需要选择不同的算法。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:分析总结Python数据化运营KMeans聚类 - Python技术站

(0)
上一篇 2023年5月18日
下一篇 2023年5月18日

相关文章

  • .NET6自定义WebAPI过滤器

    下面是“.NET6自定义WebAPI过滤器”的完整攻略。 什么是WebAPI过滤器? WebAPI过滤器是ASP.NET Core中的一项功能,用于在Http中增加一些额外的功能,例如在处理请求或响应时进行日志记录、身份验证、缓存处理等。WebAPI过滤器可以全局应用,也可以被应用于单个Controller或Action。 如何创建自定义的WebAPI过滤器…

    云计算 2023年5月17日
    00
  • 云计算,大数据,人工智能三者有何关系?

    原创:http://cloud.idcquan.com/yjs/115806.shtml 云计算最初的目标是对资源的管理,管理的主要是计算资源,网络资源,存储资源三个方面。想象你有一大堆的服务器,交换机,存储设备,放在你的机房里面,你最想做的事情就是把这些东西统一的管理起来,最好能达到当别人向你请求分配资源的时候(例如1核1G内存,10G硬盘,1M带宽的机器…

    云计算 2023年4月12日
    00
  • 云计算基础架构开发者“不得不”关注的福音!

    近日,中国首届云计算基础架构开发者大会(China Cloud Computing Infrastructure Developer Conference-简称CID)在湖南长沙马栏山视频文创园隆重举办。此次大会由Intel、阿里云、字节跳动、腾讯和华为共同发起,旨在为云计算基础架构领域的开发者创造互相交流、共同提高的机会,加深业界对本领域最新研发进展趋势的…

    云计算 2023年4月12日
    00
  • 支持高性能计算场景,博云容器云打造智能算力引擎

    随着 Kubernetes 作为 AI、大数据和高性能批量计算的下一代基础设施的趋势逐渐清晰,越来越多的企业对 Kubernetes 在深度学习、科学计算、高性能渲染等方面提出了更高的要求。   项目挑战 原生 Kubernetes 作为通用的容器调度方案,仍与高性能计算场景下业务调度诉求存在一定差距,主要体现在:   待完善作业视角调度能力 Kuberne…

    云计算 2023年4月12日
    00
  • [Hadoop in China 2011] 朱会灿:探析腾讯Typhoon云计算平台

    http://storage.it168.com/a2011/1203/1283/000001283196.shtml   朱会灿现任腾讯搜搜搜索线首席架构师、基础架构部总经理,于2010年加入腾讯,主导腾讯云计算平台的开发工作。在加入腾讯之前的朱会灿曾在谷歌公 司任职长达10年之久,其间,主导开过过Google的图片搜索系统、大规模爬虫和索引系统、中日韩文…

    云计算 2023年4月10日
    00
  • 云计算第二阶段shell脚本

    pstree                         #查看进程树 cat /etc/shells                #查看系统安装的所有shell解释器 yum -y install ksh                      #安装新的解释器   1、声明解释器                 #!/bin/bash 2、注释脚…

    云计算 2023年4月10日
    00
  • 基于python实现微信好友数据分析(简单)

    基于Python实现微信好友数据分析 简介 本攻略将介绍如何基于Python实现微信好友数据分析,包括获取微信好友数据、数据清洗、数据分析等步骤。 步骤 1. 获取微信好友数据 首先需要安装ItChat,可以通过pip安装,在终端输入以下指令: pip install itchat 如果需要安装指定版本,可以使用以下指令: pip install itcha…

    云计算 2023年5月18日
    00
  • 使用python3调用wxpy模块监控linux日志并定时发送消息给群组或好友

    下面是使用Python3调用wxpy模块监控Linux日志并定时发送消息给群组或好友的完整攻略: 简述 wxpy是一个微信机器人API,使用它可以实现微信自动化操作,包括自动回复、自动发送消息等。本攻略将介绍如何使用wxpy模块在Linux系统下监控日志并定时发送消息给群组或好友。 安装wxpy模块 首先需要在Linux系统中安装wxpy模块,可以使用pip…

    云计算 2023年5月18日
    00
合作推广
合作推广
分享本页
返回顶部