一、概述

kNN(k nearest neighbor,k近邻)是一种基础分类算法，基于“物以类聚”的思想，将一个样本的类别归于它的邻近样本。

二、算法描述

1.基本原理

给定训练数据集 $T=\left\{ \left( x_1,y_1 \right),\left( x_2,y_2 \right),...,\left( x_N,y_N \right) \right\}$，其中$x_i=\left( x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(n)} \right)$为特征向量，$y_i$为样本类别。对于一个待测样本$x$，计算$x$与训练集样本的距离，找到离它最近的$k$个邻居，考察这$k$个邻居，它们更倾向于哪个类别，就把$x$归到那个类别。算法由三个基本要素构成：$k$值选择、距离度量、分类决策规则。

k值选择：
若$k$ 值过小，模型偏向复杂，易于过拟合；若 $k$ 值过大，模型偏向简单，易于欠拟合。通常由交叉验证法选择最优的$k$值，一般不超过20。

距离度量：
距离度量的方式有很多，通常使用欧氏距离，也就是差向量的$L2$范数。对两个样本向量$A=\left( x_{11},x_{12},...,x_{1n} \right)$和$B=\left( x_{21},x_{22},...,x_{2n} \right)$，它们之间的欧氏距离为$$d=\sqrt{\sum_{k=1}^{n}{\left( x_{1k}-x_{2k} \right)^{2}}}$$

分类决策规则：
一般是多数表决，即由$k$个邻居中较多的决定。也可以根据距离的远近，赋以样本不同的权重。

2.算法描述

输入：训练数据集$T$ ；待测样本 $x$.
输出：$x$所属类别.
(1)计算$x$与训练样本间的距离.
(2)确定与$x$最近的$k$个邻居.
按距离对样本进行排序，选取前 $k$ 个距离最小的样本，构成邻居集合$N_{k}\left( x \right)$.样本数量为$$\left| N_k\left( x \right) \right|=M$$
(3)确定 $x$ 的类别 $y$ .
多数表决，由邻居集合中类别的多数决定

\[y=\arg max_{c_j}{\sum_{x_i\in N_k\left( x \right)}{I\left( y_i=c_j \right)}} \]

其中 $I$ 为指示函数

\[I= \left\{ \begin{array}{lr} 1 \quad if\left( y_i=c_j \right)&\\ 0 \quad if\left( y_i\ne c_j \right) \end{array} \right. \]

$i=1,2,...,M$;$j=1,2,...,K$.

三、 python实现

'''
功能：由sklearn实现kNN分类。
'''
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

## 1.构造训练集和待测样本
#训练集数据
train_x=[
    [1.1, 2, 3, 4],
    [1, 2.2, 3, 4],
    [1, 2, 3.3, 4],
    [1, 2, 3, 4.4],
    [1.1, 2.2, 3, 4],
    [1, 2, 3.3, 4.4]
]
#训练集数据标签
train_y=[
    1,
    2,
    2,
    3,
    3,
    1
]
train_y = list(map(float,train_y)) #浮点化

#待测样本
test_x = [
    [1.2, 2, 3, 4],
    [1, 2.3, 3, 4]
]
#转为array形式
train_x = np.array(train_x)
train_y = np.array(train_y)
test_x = np.array(test_x)


## 2.定义分类器
knnClf = KNeighborsClassifier(
    n_neighbors=2,  #选取的k值，即邻居样本数
    weights='uniform',  #分类决策权重，默认uniform，为均等权重
    algorithm='auto',
    leaf_size=30,
    p=2,metric='minkowski', #距离度量，闵可夫斯基空间下的欧氏距离(p=2)
    metric_params=None,
    n_jobs=None
)

## 3.训练
Fit_knnClf = knnClf.fit(train_x,train_y)

## 4.预测
pre_y = Fit_knnClf.predict(test_x)

print('预测类别：')
print(pre_y)

在这里插入图片描述
End.

参考
1.李航.《统计学习方法》.清华大学出版社
2. https://blog.csdn.net/Albert201605/article/details/81040556?spm=1001.2014.3001.5502

标签：kNN,...,right,分类,距离,train,样本,left
From： https://www.cnblogs.com/flyup/p/17033262.html

数据可视化大屏百度地图GPS轨迹位置感知状态开发实战案例解析（百度地图jsAPI，包含缩放控
系列文章目录1.数据可视化大屏应急管理综合指挥调度系统完整案例详解（PHP-API、Echarts、百度地图）2.数据可视化大屏百度地图API开发：停车场分布标注和检索静态版3.......
采用faiss-gpu实现比Sklearn中K紧邻分类器(K-NN)100倍以上加速
最近使用sklearn跑一些机器学习的实验对比，发现许多算法随着数据集增大，训练时间呈几何增加，加之交叉验证、参数选择等，非常耗时。对此，已经有许多优化方案被提出。这里给出一......
Pytorch图像分类训练框架
Pytorch图像分类训练框架使用pytorch进行图像分类训练是一个大部分代码可复用的过程，我将在kaggle比赛PaddyDoctor中写的训练代码抽取出来，方便以后图像分类任务使用。代......
SpringBoot笔记--配置文件分类+yaml相关知识+读取配置文件内容
配置文件要是需要使用自己的配置替换默认配置时，需要使用后缀名为application.properties或者application.yml（application.yaml）进行配置当然，几个文件都在resources文件夹......
28、商品服务--三级分类--新增效果的完成
使用Elementui的对话框（里面带form表格）给category赋值给后端发送请求......
27、商品服务--三级分类--删除效果细化
1、希望删除后有一个消息提示使用Elementui的控件2、希望删除子菜单后，父菜单仍然是展开的状态通过Elementui的树形控件的属性来进行控制......
【SDK案例系列 04】基于 MindX SDK + Pytorch ShuffleNetV2的目标分类
源码下载：https://gitee.com/ai_samples/atlas_mindxsdk_samples/blob/master/contrib/cv/classification/image_shufflenetv2快速运行攻略（MindXSDK环境已经部署完毕情况......
【SDK案例系列 05】基于 MindX SDK + Pytorch MobileNetV2的目标分类
源码下载：https://gitee.com/ai_samples/atlas_mindxsdk_samples/blob/master/contrib/cv/classification/image_mobilenetv2快速运行攻略（MindXSDK环境已经部署完毕情况......
26、商品服务--三级分类--逻辑删除
使用postman进行测试使用mybatisplus提供的逻辑删除功能https://baomidou.com/pages/6b03c5/#%E6%AD%A5%E9%AA%A4-2-%E5%AE%9E%E4%BD%93%E7%B1%BB%E5%AD%97%E6%AE%B5%E4%......
25、商品服务--三级分类--树形三级分类添加append和delete按钮
效果如下：我们设置了只有当分类的层级为1或者2时才能显示append按钮，只有当没有子孩子节点时才能显示delete按钮:expand-on-click-node="false"表示只有当点击最......

kNN分类

一、概述

二、算法描述

1.基本原理

2.算法描述

三、 python实现

相关文章

赞助商

阅读排行

kNN分类

一、 概述

二、算法描述

1.基本原理

2.算法描述

三、 python实现

相关文章

赞助商

阅读排行

一、概述