使用Python处理KNN分类算法的实现代码

KNN(K-Nearest Neighbors)是一种常用的分类算法,它的基本思想是根据样本之间的距离来判断它们的类别。在本文中,我们将介绍如何使用Python实现KNN分类算法,并提供两个示例说明。

KNN分类算法的实现

KNN分类算法的实现过程包括以下几个步骤:

  1. 加载数据集
  2. 划分训练集和测试集
  3. 计算样本之间的距离
  4. 选择K个最近邻样本
  5. 根据K个最近邻样本的类别进行投票
  6. 输出预测结果

下面是一个简单的示例,用于演示如何使用Python实现KNN分类算法。

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 计算样本之间的距离
def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2) ** 2))

# 选择K个最近邻样本
def get_neighbors(X_train, y_train, x_test, k):
    distances = []
    for i in range(len(X_train)):
        dist = euclidean_distance(X_train[i], x_test)
        distances.append((X_train[i], y_train[i], dist))
    distances.sort(key=lambda x: x[2])
    neighbors = []
    for i in range(k):
        neighbors.append((distances[i][0], distances[i][1]))
    return neighbors

# 根据K个最近邻样本的类别进行投票
def vote(neighbors):
    class_votes = {}
    for neighbor in neighbors:
        label = neighbor[1]
        if label in class_votes:
            class_votes[label] += 1
        else:
            class_votes[label] = 1
    sorted_votes = sorted(class_votes.items(), key=lambda x: x[1], reverse=True)
    return sorted_votes[0][0]

# 输出预测结果
def predict(X_train, y_train, X_test, k):
    predictions = []
    for i in range(len(X_test)):
        neighbors = get_neighbors(X_train, y_train, X_test[i], k)
        result = vote(neighbors)
        predictions.append(result)
    return predictions

# 训练模型并预测测试集
y_pred = predict(X_train, y_train, X_test, k=3)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

在这个示例中,我们首先使用load_iris函数加载鸢尾花数据集。然后,我们将数据集划分为训练集和测试集,其中测试集占总数据集的30%。接下来,我们定义了三个函数:euclidean_distance用于计算样本之间的欧几里得距离,get_neighbors用于选择K个最近邻样本,vote用于根据K个最近邻样本的类别进行投票。然后,我们定义了一个predict函数,用于训练模型并预测测试集。最后,我们计算模型的准确率,并输出结果。

示例1:使用KNN分类算法进行鸢尾花分类

下面是一个示例,用于演示如何使用KNN分类算法进行鸢尾花分类。在这个示例中,我们使用KNN分类算法来训练模型,并使用测试集来评估模型的准确率。

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 计算样本之间的距离
def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2) ** 2))

# 选择K个最近邻样本
def get_neighbors(X_train, y_train, x_test, k):
    distances = []
    for i in range(len(X_train)):
        dist = euclidean_distance(X_train[i], x_test)
        distances.append((X_train[i], y_train[i], dist))
    distances.sort(key=lambda x: x[2])
    neighbors = []
    for i in range(k):
        neighbors.append((distances[i][0], distances[i][1]))
    return neighbors

# 根据K个最近邻样本的类别进行投票
def vote(neighbors):
    class_votes = {}
    for neighbor in neighbors:
        label = neighbor[1]
        if label in class_votes:
            class_votes[label] += 1
        else:
            class_votes[label] = 1
    sorted_votes = sorted(class_votes.items(), key=lambda x: x[1], reverse=True)
    return sorted_votes[0][0]

# 输出预测结果
def predict(X_train, y_train, X_test, k):
    predictions = []
    for i in range(len(X_test)):
        neighbors = get_neighbors(X_train, y_train, X_test[i], k)
        result = vote(neighbors)
        predictions.append(result)
    return predictions

# 训练模型并预测测试集
y_pred = predict(X_train, y_train, X_test, k=3)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

在这个示例中,我们首先使用load_iris函数加载鸢尾花数据集。然后,我们将数据集划分为训练集和测试集,其中测试集占总数据集的30%。接下来,我们定义了三个函数:euclidean_distance用于计算样本之间的欧几里得距离,get_neighbors用于选择K个最近邻样本,vote用于根据K个最近邻样本的类别进行投票。然后,我们定义了一个predict函数,用于训练模型并预测测试集。最后,我们计算模型的准确率,并输出结果。

示例2:使用KNN分类算法进行手写数字识别

下面是一个示例,用于演示如何使用KNN分类算法进行手写数字识别。在这个示例中,我们使用KNN分类算法来训练模型,并使用测试集来评估模型的准确率。

import numpy as np
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
digits = load_digits()
X = digits.data
y = digits.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 计算样本之间的距离
def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2) ** 2))

# 选择K个最近邻样本
def get_neighbors(X_train, y_train, x_test, k):
    distances = []
    for i in range(len(X_train)):
        dist = euclidean_distance(X_train[i], x_test)
        distances.append((X_train[i], y_train[i], dist))
    distances.sort(key=lambda x: x[2])
    neighbors = []
    for i in range(k):
        neighbors.append((distances[i][0], distances[i][1]))
    return neighbors

# 根据K个最近邻样本的类别进行投票
def vote(neighbors):
    class_votes = {}
    for neighbor in neighbors:
        label = neighbor[1]
        if label in class_votes:
            class_votes[label] += 1
        else:
            class_votes[label] = 1
    sorted_votes = sorted(class_votes.items(), key=lambda x: x[1], reverse=True)
    return sorted_votes[0][0]

# 输出预测结果
def predict(X_train, y_train, X_test, k):
    predictions = []
    for i in range(len(X_test)):
        neighbors = get_neighbors(X_train, y_train, X_test[i], k)
        result = vote(neighbors)
        predictions.append(result)
    return predictions

# 训练模型并预测测试集
y_pred = predict(X_train, y_train, X_test, k=3)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

在这个示例中,我们首先使用load_digits函数加载手写数字数据集。然后,我们将数据集划分为训练集和测试集,其中测试集占总数据集的30%。接下来,我们定义了三个函数:euclidean_distance用于计算样本之间的欧几里得距离,get_neighbors用于选择K个最近邻样本,vote用于根据K个最近邻样本的类别进行投票。然后,我们定义了一个predict函数,用于训练模型并预测测试集。最后,我们计算模型的准确率,并输出结果。

总结

本文介绍了如何使用Python实现KNN分类算法,并提供了两个示例说明。在实际应用中,我们可以根据具体的问题选择不同的K值和距离度量方法,并结合其他算法进行综合处理,实现复杂的数据结构和算法。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:使用Python处理KNN分类算法的实现代码 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Python + Selenium + PhantomJS 渲染为 PDF

    【问题标题】:Python + Selenium + PhantomJS render to PDFPython + Selenium + PhantomJS 渲染为 PDF 【发布时间】:2023-04-03 00:15:01 【问题描述】: 当 PhantomJS 与 Selenium 和 Python 结合使用时,是否可以使用 PhantomJS’s …

    Python开发 2023年4月8日
    00
  • 详解Bagging算法的原理及Python实现

    标题:详解Bagging算法的原理及Python实现 一、背景介绍 Bagging算法是一种集成学习算法,可以有效地提高机器学习的准确性。本文将介绍Bagging算法的原理以及如何使用Python实现这个算法。 二、Bagging算法原理 Bagging算法的全称是Bootstrap Aggregating(自举聚合),其主要思想是通过生成多个相互独立的分类…

    python 2023年5月14日
    00
  • python 实现ping测试延迟的两种方法

    Python 实现 Ping 测试延迟的两种方法 在计算机网络中,Ping 是最基础的网络测试工具之一,常用于测量网络的传输质量。本文将介绍如何使用 Python 实现 Ping 测试延迟的两种方法。 方法一:使用系统自带 Ping 命令 在 Windows 和 Linux 系统中,都有提供 Ping 命令来测试网络延迟。我们可以使用 Python 的 su…

    python 2023年6月2日
    00
  • 利用python获取想要搜索的数据

    获取想要搜索的数据是Python中常见的任务之一。Python提供了多种库和工具来实现数据获取,例如requests、BeautifulSoup、Selenium等。本文将详细讲解如何使用Python获取想要搜索的数据的完整攻略,包括使用requests和BeautifulSoup两个示例。 使用requests和BeautifulSoup获取想要搜索的数据…

    python 2023年5月15日
    00
  • Python实现的随机森林算法与简单总结

    Python实现的随机森林算法与简单总结 随机森林是一种常见的集成学习算法,它可以用于分类和回归问题。在本文中,我们将讲解随机森林的原理、Python实现以及两个示例说明。 随机森林原理 随机森林是一种集成学习算法,它通过组合多个决策树来提高预测准确率。随机森林的核心思想是通过随机选择特征和样本来构建多个决策树,然后将这些决策树的预测结果进行投票或平均,得到…

    python 2023年5月13日
    00
  • python 多线程重启方法

    Python是一种单线程语言,但是它提供了多线程编程的实现机制。当Python程序需要同时处理多个任务时,可以使用多线程编程技术,多个共享内存资源的线程可以同时执行,提高了程序的执行效率。但是多线程编程也会引发一些问题,比如多线程竞争、线程死锁等。本攻略将会详细讲解Python多线程的重启方法,以及重启方法的两个示例说明。 什么是线程重启? 多线程编程中,当…

    python 2023年5月18日
    00
  • python爬虫爬取某站上海租房图片

    请问您指的是如何使用 Python 编写爬虫程序爬取某个网站上的“上海租房”相关图片吗? 如果是这样,下面是详细的攻略。 1. 确定爬取目标 首先需要找到目标网站,了解该站点的页面结构和图片资源存储方式。一些常见的租房网站有链家、58同城、房天下等。以链家为例子,在链家的租房页面可以找到对应城市的租房房源信息,每个房源信息都会有一些图片。图片通常会保存在该房…

    python 2023年5月14日
    00
  • 关于python中导入文件到list的问题

    以下是“Python中导入文件到list的问题”的完整攻略。 1. 导入文件到list的概述 在Python中,我们通常使用文件来存储和读取数据。有时候,我们需要将文件中的内容导入到一个列表中,以便于对数据进行处理。本攻略将介绍Python中将文件导入到列表的方法。 2. 导入文件到list的方法 Python中将文件导入到列表的方法有多种,下面将介绍其中的…

    python 2023年5月13日
    00
合作推广
合作推广
分享本页
返回顶部