首页 > 编程语言 >C++的近邻算法详解及应用

C++的近邻算法详解及应用

时间:2024-06-09 13:57:57浏览次数:9  
标签:std int 近邻 样本 C++ 算法 详解 samples

        近邻算法,也被称为最近邻算法或k-近邻算法(k-NN),是一种基本的分类和回归方法。它基于实例进行学习,无需进行模型训练,而是直接通过计算待分类样本与已知类别样本之间的距离来确定其所属类别。在C++中,我们可以通过编写特定的函数或利用现有的库来实现近邻算法。

        一、近邻算法基本原理

        近邻算法的基本思想是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

        二、C++实现近邻算法

        下面是一个简单的C++实现,用于二维空间中的k-近邻分类。假设我们有一个样本集,每个样本都有两个特征和一个标签。代码如下。

#include <iostream>
#include <vector>
#include <cmath>
#include <algorithm>
#include <limits>

// 定义样本点和标签的结构体
struct Sample {
    double x;
    double y;
    int label;
};

// 计算两点之间的欧氏距离
double euclideanDistance(const Sample& a, const Sample& b) {
    return std::sqrt(std::pow(a.x - b.x, 2) + std::pow(a.y - b.y, 2));
}

// 找出k个最近邻的样本及其标签
std::vector<int> findKNearestNeighbors(const std::vector<Sample>& samples, const Sample& query, int k) {
    std::vector<std::pair<double, int>> distances; // 存储距离和标签的pair
    for (size_t i = 0; i < samples.size(); ++i) {
        double distance = euclideanDistance(samples[i], query);
        distances.push_back({distance, samples[i].label});
    }
    // 根据距离排序,取前k个
    std::sort(distances.begin(), distances.end());
    std::vector<int> kNearestLabels;
    for (int i = 0; i < k; ++i) {
        kNearestLabels.push_back(distances[i].second);
    }
    return kNearestLabels;
}

// 根据k个最近邻的标签进行分类
int classifyByKNN(const std::vector<Sample>& samples, const Sample& query, int k) {
    std::vector<int> kNearestLabels = findKNearestNeighbors(samples, query, k);
    // 统计最常见的标签
    std::vector<int> labelCounts(3, 0); // 假设有3个类别,根据实际情况调整大小
    for (int label : kNearestLabels) {
        labelCounts[label]++;
    }
    // 返回出现次数最多的标签作为分类结果
    return std::max_element(labelCounts.begin(), labelCounts.end()) - labelCounts.begin();
}

int main() {
    // 示例:二维空间的样本集
    std::vector<Sample> samples = {
        {1, 2, 0},
        {2, 3, 0},
        {5, 4, 1},
        {4, 7, 1},
        {1, 5, 2},
        {4, 6, 2}
    };

    // 待分类的查询点
    Sample query = {3, 4, -1};

    // 设置k值
    int k = 3;

    // 进行分类并输出结果
    int predictedLabel = classifyByKNN(samples, query, k);
    std::cout << "查询点的预测标签 (" << query.x << ", " << query.y << ") 是: " << predictedLabel << std::endl;

    return 0;
}

        三、应用与注意事项

                近邻算法在很多领域都有应用,如文本分类、图像识别、推荐系统等。然而,它也存在一些局限性。例如,当样本集很大时,计算量会非常大,导致分类速度慢;此外,近邻算法对数据的预处理和标准化要求较高,因为不同特征的尺度差异可能会影响距离计算的准确性。

在实际应用中,为了提高效率和准确性,通常会采用一些优化方法,如KD树、球树等数据结构来加速最近邻搜索,或者采用特征加权、特征选择等方法来处理特征尺度不一致的问题。

        另外,选择合适的k值也是非常重要的。k值较小可能导致过拟合,即模型对训练数据过度敏感;而k值较大则可能导致欠拟合,即模型忽略了数据的局部特性。通常,k值的选择需要根据具体问题通过实验来确定。

        最后,需要注意的是,近邻算法是一种基于实例的学习,它并没有显式的训练过程来得到模型参数,而是直接通过比较实例来进行分类或回归。因此,它对于新出现的、与训练样本差异较大的数据可能效果不佳。在实际应用中,需要结合具体问题的特点来选择合适的算法和参数。

标签:std,int,近邻,样本,C++,算法,详解,samples
From: https://blog.csdn.net/winterling/article/details/139561367

相关文章

  • C++三大特性之多态
    1.多态1.1多态的概念在面向对象方法中一般是这样表述多态性的:向不同的对象发送同一个消息,不同的对象在接收时会产生不同的行为(即方法)也就是说,每个对象可以用自己的方式去响应共同的消息。所谓消息,就是调用函数,不同的行为就是指不同的实现,即执行不同的函数。通俗来说,就是......
  • sass详解
    什么是SASSSASS(SyntacticallyAwesomeStyleSheets)是一种扩展了CSS功能的预处理器,可以用更简洁和程序化的方式来编写样式。SASS在开发中通过特有的语法和功能,使得CSS代码更加可维护和高效。 SASS的特点1.变量:允许定义可重用的值,方便管理颜色、字体等。2.嵌套规则:使CSS......
  • C++20 新特性: 三向比较运算符
    目录标题功能和用法示例代码如何重载三向比较运算符示例:重载三向比较运算符注意事项结语C++20引入了一种新的比较运算符,称为“三向比较运算符”或“太空船运算符”,其符号为<=>。这个运算符提供了一种简化方式来同时比较两个值的相等性、小于和大于状态。这一特......
  • C++入门7 类|构造函数|析构函数
    一,类型设计和实例化对象封装是面向对象程序设计最基本的特性, 把数据 (属性) 和函数 (操作) 合成一个整体,这在计算机世界中是用类与对象实现的。C++中类的设计1 class 类型名称2 {3 public:4 成员列表1;5 protected:6 成员列表2;7 private:8 成员列表3;......
  • Android 系统架构 详解(原理和四个层次以及启动流程)
    Android系统架构详解(原理和四个层次以及启动流程)Android系统架构是指Android操作系统的整体结构和组织方式,包括不同层次的软件组件和其相互之间的关系,Android系统架构是一个分层的体系结构,它包括多个层次,每个层次都有特定的功能和责任。一、背景Android系统架构......
  • 超详解——python数字和运算——小白篇
    目录1.位运算2.常用内置函数/模块math模块:random模块:decimal模块:3.内置函数:总结:1.位运算位运算是对整数在内存中的二进制表示进行操作。Python支持以下常见的位运算符:按位与(&):两个二进制数对应位都为1时,结果的该位才为1。按位或(|):两个二进制数对应位有一个为1,结果......
  • 【机器学习】与【数据挖掘】技术下【C++】驱动的【嵌入式】智能系统优化
    目录一、嵌入式系统简介二、C++在嵌入式系统中的优势三、机器学习在嵌入式系统中的挑战四、C++实现机器学习模型的基本步骤五、实例分析:使用C++在嵌入式系统中实现手写数字识别1.数据准备2.模型训练与压缩3.模型部署六、优化与分析1.模型优化模型量化模型剪枝......
  • 【运维必备知识】Linux系统平均负载与top、uptime命令详解
    【运维必备知识】Linux系统平均负载与top、uptime命令详解大家好,我是秋意零工作中,服务出现问题如何排查Linux系统侧。首先第一想到应该排查是否是负载过高导致的。今天,这篇就来看看,top、uptime命令中平均负载(loadaverage)相关内容,初学者应该关注都比较少(也包括我。。)top......
  • MyBatis-Plus 面试热点问题详解(上)
    引言MyBatis-Plus是基于MyBatis的增强工具,旨在简化MyBatis开发,提高开发效率,降低代码冗余。作为一名Java开发者,特别是在面试过程中,掌握MyBatis-Plus的相关知识是非常必要的。本文将详细介绍MyBatis-Plus在面试中的一些热点问题,帮助大家更好地准备面试。MyBatis-......
  • (C语言)常见字符函数和字符串函数(详解)
    我们都知道,在C语言里有string.h这个头文件,但是C语言里没有string这个类型。字符串通常放在常量字符串中或者字符数组中,字符串常量适用于那些对她不做修改的字符串函数。string.h这个头文件里声明的函数原型也全是针对char数组的种种操作。直到C++中才出现了string这个类这......