python实现kNN算法

Python实现kNN算法的完整攻略

kNN算法是一种常用的机器学习算法,用于分类和回归问题。本文将详细讲解Python实现kNN算法的整个攻略,包括算法原理、实现过程和示例。

算法原理

kNN算法的基本思想是通过计算待分类样本与训练集中所有样本距离,选取距离近的k个样本,根据这k个样本的类别进行投票,将待分类样本归票数多的类别。在回归中,kNN算法的基本思想是通过计算待预测样本与训练集中所有样本的距离,选取距离最近的k个样本,根据这k个样本的值进行平均或加权平均,得到待预测样本的测值。

具体来说算法分为以下几个步骤:

  1. 计算待分类样本与训练集中所有样本的距离。
  2. 选取距离最近的k个样本。
  3. 根据这k个样本的类别进行投票,将待分类样本归为数最多的类别。
  4. 在回归问题中,根据这k个样本的值进行平均或加权平均,得到待预测样本的预测值。

实现过程

以下是使用Python实现kNN算法的示例代码:

import numpy as np
from collections import Counter

def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2)**2))

class KNN:
    def __init__(self, k=3):
        self.k = k

    def fit(self X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        y_pred = [self._predict(x) for x in X]
        return np.array(y_pred)

    def _predict(self, x):
        distances = [euclidean_distance(x, x_train) for x_train in self.X_train]
        k_indices = np.argsort(distances)[:self.k]
        k_nearest_labels = [self.y_train[i] for i in k_indices]
        most_common = Counter(k_nearest_labels).most_common(1)
        return most_common[0][0]

上述代码中,首先定义了一个euclidean_distance函数,用于计算欧几里得距离。然后定义了一个KNN类,包含fit和predict两个方法。在fit中,将训练集和y保存为类属性。在predict方法中,遍历待分类样本X,调用_predict方法进行预测。在_predict方法中,计算待分类样本与训练集中所有样本的距离,选取距离最近的k个样本,根据这k个样本的类别投票,将待分类样本归为票数最多的类别。

示例1

以下是使用kNN算法进行分类的示例代码:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 数据预处理
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 划分训练集和测试集
_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
knn = KNN(k=3)
knn.fit(X_train, y_train)

# 预测测试集
y_pred = knn.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

上述代码中,首先使用load_iris函数加载鸢尾花数据集。然后使用StandardScaler对数据进行预处理,将数据进行标准化。接着使用train_test_split函数将数据集划分为训练集和测试集。然后使用KNN类训练模型,并使用predict方法预测测试集。最后使用accuracy_score计算准确率。

示例2

以下是使用kNN算法进行回归的示例代码:

import numpy as np
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

# 加载数据集
boston = load_boston()
X = boston.data
y = boston.target

# 数据预处理
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
knn = KNN(k=3)
knn.fit(X_train, y_train)

# 预测测试集
y_pred = knn.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print('MSE:', mse)

上述代码中,首先使用load_boston函数加载波士顿房价数据集。然后使用StandardScaler对数据进行预处理,将数据进行标准化。接着使用train_test_split函数将数据集划分为训练集和测试集。然后使用KNN类训练模型,并使用predict方法预测测试集。最后使用mean_squared_error函数计算均方误差。

总结

本文详细讲解了Python实现kNN算法的整个攻略,包括算法原理、实现过程和示例。kNN算是一种常用的机器学习算法,可以用于分类和回归问题。在Python中,可以使用numpy和collections模块实现kNN算法,实现程上述所示。通过示例看到kNN算法在实际应用中的灵活性和实用性。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python实现kNN算法 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • 使用python实现定时报天气的示例代码

    Python实现定时报天气攻略 天气是我们日常生活中非常重要的信息之一,使用Python可以方便地获取天气信息,并实现定时报天气的功能。本攻略将介绍使用Python实现定时报天气的示例代码,包括数据获取、数据处理、定时任务和示例。 步骤1:获取数据 在Python中,我们可以使用requests库获取天气数据。以下是获取天气数据的示例: import req…

    python 2023年5月15日
    00
  • 如何使用Python在MySQL中修改表结构?

    要使用Python在MySQL中修改表结构,可以使用Python的内置模块sqlite3或第三方库mysql-connector-python。以下是使用mysql-connector-python在MySQL中修改表结构的完整攻略: 连接 要连接到MySQL,需要提供MySQL的主机、用户名、和密码。可以使用以下代码连接MySQL: mysql.conne…

    python 2023年5月12日
    00
  • Python操作dict时避免出现KeyError的几种解决方法

    Python中的字典(dict)是一种常见的数据类型,用于存储键值对。但是在操作字典时,很容易遇到KeyError异常,这是由于访问了不存在的键所导致的。本文将为你介绍几种避免出现KeyError的方法,确保操作字典时更加健壮。 1. 使用in关键字 in操作符可以用于检查字典中是否存在某个键,我们可以在操作字典之前先用if语句判断这个键是否存在。以下是一段…

    python 2023年6月3日
    00
  • python 如何读取列表中字典的value值

    下面是Python如何读取列表中字典的value值的完整攻略。 读取列表中字典的value值 在Python中,列表和字典都是非常常见的数据类型。如果有一个列表包含多个字典,需要读取其中某个字典的value值,该如何实现呢?这里我们提供两种方式。 方法一:通过下标访问 在Python中,我们可以通过下标访问列表或者字典中的值。如果要访问列表中的第 i 个字典…

    python 2023年5月13日
    00
  • Python 字典中的所有方法及用法

    Python字典中的所有方法及用法 Python中的字典(Dict)是一种非常实用的数据类型,类似于JavaScript的对象(Object)。字典是一组键(key)和值(value)的集合,可以通过键来快速查找对应的值。在Python中,字典使用花括号{}表示,key和value之间使用冒号:分隔,多个键值对之间使用逗号,分隔,例如: my_dict = …

    python 2023年5月13日
    00
  • 利用python实现PSO算法优化二元函数

    下面是详细讲解“利用Python实现PSO算法优化二元函数”的完整攻略。 PSO算法 粒子群优化算法(Particle Swarm Optimization,PSO)是一种基于群体智能的化算法,它模拟了鸟群捕食的行为,通过不断调整粒子的位置和速度来寻找最优解。 PSO法的基本思想是将待化问题看作一个多维空间中的搜索问题,将每个解看作空间中的一个粒子通过不断调…

    python 2023年5月14日
    00
  • Python正则表达式:难以理解结果[重复]

    【问题标题】:Python regex: having trouble understanding results [duplicate]Python正则表达式:难以理解结果[重复] 【发布时间】:2023-04-04 06:50:02 【问题描述】: 我有一个需要写入磁盘的数据框,但 pyspark 不允许任何这些字符 ,;{}()\\n\\t= 在作为镶…

    Python开发 2023年4月6日
    00
  • 解决python中无法自动补全代码的问题

    为解决在Python中无法自动补全代码的问题,需要进行以下步骤: 1. 安装jedi库 Jedi是一个用于Python的自动补全库,安装jedi可以提供Python代码自动补全的功能。可以使用pip命令安装jedi: pip install jedi 2. 配置编辑器 配置编辑器以正确使用jedi库,不同的编辑器设置方法可能有所不同。 VS Code: 在V…

    python 2023年5月19日
    00
合作推广
合作推广
分享本页
返回顶部