KNN原理+实战（Pyhton）

时间：2024-05-25 10:27:58浏览次数：29

标签：KNN 实战 self Pyhton 类别 train test accuracy

简介：

1 基本思路：

简介：

KNN（k-Nearest Neighbor），也称K-近邻分类算法。分类的目的是学会一个分类器。该分类器能把数据映射到事先给定类别中的某一个类别。分类属于一种监督学习方式，分类器的学习是在被告知每一个训练样本属于哪个类别后进行的。每个训练样本都有一个特定的标签，与之相对应。在学习过程中，从这些给定的训练数据集中学习一个函数。等新的数据到来时，可以根据这个函数判断结果。

1 基本思路：

基本思路是，如果一个样本在特征空间中的k个最邻近样本中的大多数属于某一个类别，则该样本也属于这个类别，该算法在决定类别上只依据最近的一个或几个样本的类别来决定带分类样本所属的类别，kNN算法中所选择的邻居都是已经正确分类的对象。

2 算法流程：

1. 算距离：给定测试对象，计算它与训练集中的每个对象的距离；

2. 找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻；

3. 做分类：根据这k个近邻归属的主要类别，来对测试对象分类。

流程图：

3 KNN代码Python实现：

3.1 K值的确定：

K值确定：
from sklearn.model_selection  import cross_val_score
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier

#读取数据集
data = np.loadtxt('data.tzt', delimiter=',')
X = data[:,1:-1]
x= (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
y = data[:, -1]
k_range = range(1, 31)
k_error = []
#循环，取k=1到k=31，查看误差效果
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    #cv参数决定数据集划分比例，这里是按照5:1划分训练集和测试集
    scores = cross_val_score(knn, x, y, cv=6, scoring='accuracy')
    k_error.append(1 - scores.mean())

#画图，x轴为k值，y值为误差值
plt.plot(k_range, k_error)
plt.xlabel('Value of K for KNN')
plt.ylabel('Error')
plt.show()

由图可知当k=4时erros最小故针对该数据里采用KNN(k=4)进行分类预测。

3.2 KNN主程序：

主程序：
import numpy as np
from scipy.spatial.distance import cdist, mahalanobis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


class KNN:
    def __init__(self, k=4):
        self.k = k

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y
        # 计算训练集的协方差矩阵和其逆矩阵
        self.cov_mat = np.cov(X.T)
        self.cov_mat_inv = np.linalg.inv(self.cov_mat)

    def predict(self, X):
        y_pred = [self._predict(x) for x in X]
        return np.array(y_pred)

    def _predict(self, x):
        # 计算与训练集的距离矩阵
        distances = cdist(x.reshape(1,-1),self.X_train, metric='mahalanobis', VI=self.cov_mat_inv)[0]
        # 找到距离最近的k个样本的索引
        k_indices = np.argsort(distances)[:self.k]
        # 找出k个样本所属的类别
        k_nearest_labels = [self.y_train[i] for i in k_indices]
        # 返回出现频率最高的类别作为待分类样本的类别
        most_common_label = max(set(k_nearest_labels), key=k_nearest_labels.count)
        return most_common_label


# 生成数据集
data = np.loadtxt('data.tzt', delimiter=',')
X = data[:,1:-1]
X= (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
y = data[:, -1]
# 划分数据集为训练集和测试集
test_size = 0.2
train_size = 1 - test_size
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, train_size=train_size)

# 训练模型
knn = KNN(k=4)
knn.fit(X_train, y_train)

# 预测测试集并计算正确率
y_pred = knn.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred)
print(f'Test accuracy: {test_accuracy:.2f}')

# 预测训练集并计算正确率
y_pred = knn.predict(X_train)
train_accuracy = accuracy_score(y_train, y_pred)
print(f'Train accuracy: {train_accuracy:.2f}')


# 新样本的特征向量
x_new = np.array([0.51651,0.6354,0.00,0.2356,0.9653,0.00,0.5236,0.5701,0.00])

# 对新样本进行分类
y_new = knn.predict(x_new.reshape(1, -1))
print(f'New sample belongs to class {y_new[0]}')

标签：KNN,实战,self,Pyhton,类别,train,test,accuracy
From： https://blog.csdn.net/m0_71838992/article/details/139193471

AI大模型探索之路-实战篇5： Open Interpreter开放代码解释器调研实践
系列篇章......
Keras深度学习实战——车辆转弯角度预测
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）Keras深度学习实战——车辆转弯角度预测1.介绍本教程将介绍如何使用Kera......
【飞桨AI实战】基于PP-OCR和ErnieBot的智能视频问答
前言本次分享将带领大家从0到1完成一个基于OCR和LLM的视频字幕提取和智能视频问答项目，通过OCR实现视频字幕提取，采用ErnieBot完成对视频字幕内容的理解，并回答相关问题，最后采用Gradio搭建应用。本项目旨在帮助初学者快速搭建入门级AI应用，并分......
【实战JVM】-01-JVM通识-字节码详解-类的声明周期-加载器
【实战JVM】-01-JVM通识-字节码详解-类的声明周期-加载器1初识JVM1.1什么是JVM1.2JVM的功能1.2.1即时编译1.3常见JVM2字节码文件详解2.1Java虚拟机的组成2.2字节码文件的组成2.2.1正确打开字节码文件2.2.2字节码组成2.2.3基础信息2.2.3.1魔数2.2.3.1主副......
鸿蒙HarmonyOS实战-Stage模型（信息传递载体Want）
......
红队攻防渗透技术实战流程：云安全之云原生安全：K8s安全etcd Dashboard Configfile漏洞
红队云攻防实战1.云原生安全-K8s安全-Kubelet漏洞利用1.1K8s安全-Master节点漏洞利用-2379端口etcd未授权访问1.1.1K8s安全-Master节点漏洞利用-etcd未授权的几种利用方式1.1.2K8s安全-Master节点漏洞利用-etcd未授权-V2版本利用1.1.3K8s安全-Master节点漏......
红队攻防渗透技术实战流程：云安全之云原生安全：K8s实战
红队云攻防实战1.云原生安全-K8s安全-Kubelet漏洞利用1.1K8s安全-横向移动-污点Taint-概念1.2K8s安全-横向移动-污点Taint实战1.2.2K8s安全-横向移动-探针APIServer未授权1.2.2K8s安全-横向移动-利用污点Taint横向移动master节点1.2.3K8s安全-Master节......
4小时学完！15年技术大牛用247个实战案例剖析的Python教程
今天给小伙伴们分享一份15年技术大牛用247个实战案例剖析的Python教程，这份教程全程彩图讲解，告别枯燥！60秒学会⼀个⼩例⼦，带你系统学习Python，从⼊门到⼤师。涵盖了Python基础、Python字符串和正则、Python⽂件和⽇期、Python三⼤利器、Python绘图、Python之坑、Python第三⽅包、......
揭秘Java LinkedList：深度剖析、实战应用与设计灵感
1.概述Java的LinkedList是java.util包下的一个类，它实现了List接口，并且提供了基于双向链表的数据结构。这意味着LinkedList中的元素可以按照它们的插入顺序进行有序的集合。由于其双向链表的特性，LinkedList在插入、删除元素时具有优秀的性能表现，而在访问元素时则相对较慢（尤......
LLM 大模型学习必知必会系列(十一)：大模型自动评估理论和实战以及大模型评估框架详解
LLM大模型学习必知必会系列(十一)：大模型自动评估理论和实战以及大模型评估框架详解0.前言大语言模型（LLM）评测是LLM开发和应用中的关键环节。目前评测方法可以分为人工评测和自动评测，其中，自动评测技术相比人工评测来讲，具有效率高、一致性好、可复现、鲁棒性好等特点，逐渐成......

KNN原理+实战（Pyhton）

简介：

1 基本思路：

2 算法流程：

3 KNN代码Python实现：

3.1 K值的确定：

3.2 KNN主程序：

相关文章

赞助商

阅读排行