【机器学习】必会核函数之：多项式核函数

标签：函数多项式模型 train 必会 test 数据

多项式核函数

1、引言
2、多项式核函数
3、总结

1、引言

多项式核函数 (Polynomial Kernel) 是一种用于机器学习，尤其是支持向量机 (SVM) 中的核函数。

它通过计算输入数据的多项式变换，映射到一个更高维度的特征空间，从而使得非线性问题能够在高维空间中变得线性可分。

2、多项式核函数

2.1 定义

多项式核函数的一般形式是：

[ K ( x , y ) = ( γ x T y + r ) d ] [ K(x, y) = (\gamma x^T y + r)^d ] [K(x,y)=(γxTy+r)d]

其中：

( x ) ( x ) (x) 和 ( y ) ( y ) (y) 是输入向量。
( γ ) ( \gamma ) (γ) 是一个尺度参数，通常默认为 1。
( r ) ( r ) (r) 是自由项，可以是任何常数，通常默认为 1。
( d ) ( d ) (d) 是多项式的阶数，表示多项式核的维度。

2.2 核心原理

多项式核函数通过将输入向量映射到一个高维空间，使得在低维空间中难以分离的样本在高维空间中变得线性可分。

该函数的作用相当于计算输入向量之间的多项式组合，从而捕捉到更加复杂的特征和关系。

具体来说，多项式核函数的作用是计算输入数据点之间在高维空间中的点积，从而引入非线性特征。

这种核方法可以避免显式地进行高维映射计算，从而提高计算效率，特别是在处理大规模数据时。

2.3 实现步骤

多项式核函数实现步骤：

数据准备：获取并准备数据集，包括数据标准化和划分训练集与测试集。
选择模型：选择支持向量机 (SVM) 模型，并设置多项式核函数。
模型训练：使用训练集拟合模型。
模型评估：使用测试集评估模型性能。
模型预测：使用训练好的模型进行预测。

在这里插入图片描述

2.4 应用场景

多项式核函数广泛应用于各种机器学习任务中，尤其是以下场景：

分类问题：例如非线性可分的二分类问题，通过多项式核函数映射到高维空间，利用支持向量机进行分类。
回归问题：例如非线性回归，通过多项式核函数找到输入特征与输出变量之间的非线性关系。
特征提取：通过多项式核函数捕捉输入数据的高阶特征，增强模型对复杂模式的识别能力。

2.5 代码示例

# -*- coding:utf-8 -*-
# @Time   : 2024-07-24
# @Author : Carl_DJ

'''
实现：
 scikit-learn 库实现一个的多项式核函数 SVM 分类示例
'''


import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 加载数据集（以鸢尾花数据集为例）
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 数据标准化
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 划分训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 选择多项式核函数的支持向量机模型
# 设定degree=3，即多项式核的阶数为3
polynomial_svm = SVC(kernel='poly', degree=3, coef0=1, gamma='auto')

# 模型训练
polynomial_svm.fit(X_train, y_train)

# 模型预测
y_pred = polynomial_svm.predict(X_test)

# 模型评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy * 100:.2f}%')

# 输出预测结果和真实结果
print("\nPredicted labels: ", y_pred)
print("True labels:      ", y_test)

解析

1. 数据准备：
- 使用 datasets.load_iris() 加载鸢尾花数据集，这是一个常见的多分类数据集。
- 利用 StandardScaler 对数据进行标准化处理，使数据均值为0，标准差为1。
- 用 train_test_split 函数将数据集划分为训练集 (70%) 和测试集 (30%)。
2. 选择 SVM 模型：
- 使用 SVC 类，并设置 kernel=‘poly’，即选择多项式核函数。
- 指定 degree=3 表示使用3次多项式核， coef0=1 为核函数中的自由项， gamma=‘auto’ 表示其值为特征数的倒数。
3.模型训练：
- 调用 fit 方法在训练集上训练 SVM 模型。
4. 模型预测：
- 使用 predict 方法对测试集进行预测，并获得预测标签。
5. 模型评估：
- 使用 accuracy_score 评估模型的准确率，并输出预测的标签与真实标签进行对比。

在这里插入图片描述

3、总结

多项式核函数是一种强大的工具，可以通过映射数据到高维空间解决非线性问题。

其应用广泛，尤其在分类和回归分析中表现突出。

我是小鱼：

CSDN 博客专家；
阿里云专家博主；
51CTO博客专家；
企业认证金牌面试官；
多个名企认证&特邀讲师等；
名企签约职场面试培训、职场规划师；
多个国内主流技术社区的认证专家博主；
多款主流产品(阿里云等)评测一等奖获得者；

关注小鱼，学习【机器学习】&【深度学习】领域的知识。

标签：函数,多项式,模型,train,必会,test,数据
From： https://blog.csdn.net/wuyoudeyuer/article/details/140764994