首页 > 其他分享 >感知机模型

感知机模型

时间:2024-09-06 11:53:16浏览次数:12  
标签:right 模型 感知机 np theta true left

一、概述

  感知机模型(Perceptron Model)也叫做神经元模型,设计灵感即来自于生物神经元的运行机制,依次完成信息接收、处理、输出的过程。当前大放异彩的各种人工神经网络模型即由一个个人工神经元构成,因此,本文介绍的感知机模型(神经元模型)就是各种神经网络模型的基本单元。

二、模型原理

模型原理

  模型的核心概况起来即是线性回归+符号函数映射。对未知数据,先做线性拟合,输出值再经符号函数映射,完成类别判定。因此,感知机模型也是直接用于二分类任务的模型。模型示意图可表示为

模型原理直接地表示也就是

\[y=\left\{ \begin{aligned} &-1, \ w\cdot x+b<0\\ &1, \ w\cdot x+b\geq 0 \end{aligned} \right. \]

对任意待测样本,将其特征向量直接代入计算即可。

模型的训练

  模型的参数就是指线性回归中的权重和偏置,确定了它们也就确定了整个模型。对参数的确定往往通过训练数据集实施,也就是由训练集和标签之间的对应构造一个关于待求参数的损失函数,通过不断迭代优化,在过程中确定出最佳的参数值。损失函数的构造通常采用这样一种方式,就是计算所有误分类样本到决策函数的距离和。表达式为

\[d=\frac{1}{\left| \left| w \right| \right|}\sum_{x_i\in M}{\left| w\cdot x_i+b \right|} \]

其中,\(\left| \left| w \right| \right|=\sqrt{w_{1}^{2}+w_{2}^{2}+...+w_{n}^{2}}\),M为误分类样本集。
  为进一步简化,可以将绝对值计算以‘-y’等价替换。y是样本的标签,取值要么为1,要么为-1,若y为1,表明样本为正,错误判定时计算得到的回归值为负,此时‘-y负值’为正;若y为-1,表明样本为负,错误判定时计算得到的回归值为正,此时‘-y正值’仍为正,与绝对值运算等价,此时损失函数表达式为

\[d=-\frac{1}{\left| \left| w \right| \right|}\sum_{x_i\in M}{y_i(w\cdot x_i+b)} \]

  式中的\(\frac{1}{\left| \left| w \right| \right|}\)实质地表征了决策函数的方向性,而模型关注的是对两类样本的类别结果判定,并不实际关注决策函数的具体方向以及样本到函数距离的具体差异,因而该部分可以省去,损失函数也就简化为

\[d=-\sum_{x_i\in M}{y_i(w\cdot x_i+b)} \]

三、Python实现

手工实现:

import numpy as np
from sklearn import datasets

def model(X, theta):
    return X @ theta

def predict(x, theta):
    flags = model(x, theta)
    y = np.ones_like(flags)
    y[np.where(flags < 0)[0]] = -1
    return y

def computerCost(X, y, theta):
    y_pred = predict(X, theta)
    error_index = np.where(y_pred != y)[0]
    return np.squeeze(-y_pred[error_index].T @ y[error_index])

def gradientDescent(X, y, alpha, num_iters=1000):
    n = X.shape[1]
    theta = np.zeros((n, 1))
    J_history = []
    for i in range(num_iters):
        y_pred = predict(X, theta)
        error_index = np.where(y_pred != y)[0]
        theta = theta + alpha * X[error_index, :].T @ y[error_index]
        cur_cost = computerCost(X, y, theta)
        J_history.append(cur_cost)
        print('.', end='')
        if cur_cost == 0:
            print(f'Finished in advance in iteration {i + 1}!')
            break

    return theta, J_history

iris = datasets.load_iris()
X = iris.data
m = X.shape[0]
X = np.hstack((np.ones((m, 1)), X))
y = iris.target
y[np.where(y != 0)[0]] = -1
y[np.where(y == 0)[0]] = 1
y = y.reshape((len(y), 1))
theta, J_history = gradientDescent(X, y, 0.01, 1000)
y_pred = predict(X, theta)
acc = np.sum(y_pred == y) / len(y)

print('acc:\n', acc)


基于PyTorch实现:

import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib
matplotlib.use('TkAgg')
import matplotlib.pyplot as plt
import numpy as np

# 生成一些随机的线性可分数据
np.random.seed(42)
num_samples = 100
features = 2
x = 10 * np.random.rand(num_samples, features)  # 生成随机输入特征
w_true = np.array([2, -3.4])  # 真实的权重
b_true = 4.2  # 真实的偏置
y_true = np.dot(x, w_true) + b_true + 0.1 * np.random.randn(num_samples)  # 添加噪声
y_true = np.where(y_true > 0, 1, -1)  # 将输出标签转换为二分类问题

# 将数据转换为 PyTorch 的 Tensor
x = torch.tensor(x, dtype=torch.float32)
y_true = torch.tensor(y_true, dtype=torch.float32)

# 定义感知机模型
class Perceptron(nn.Module):
    def __init__(self, input_size):
        super(Perceptron, self).__init__()
        self.linear = nn.Linear(input_size, 1)

    def forward(self, x):
        return torch.sign(self.linear(x))

# 初始化感知机模型
perceptron = Perceptron(input_size=features)

# 定义损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.SGD(perceptron.parameters(), lr=0.01)

# 训练感知机模型
num_epochs = 100
for epoch in range(num_epochs):
    # 前向传播
    y_pred = perceptron(x)

    # 计算损失
    loss = criterion(y_pred.view(-1), y_true)

    # 反向传播和优化
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    # 打印损失
    if (epoch + 1) % 10 == 0:
        print(f'Epoch [{epoch + 1}/{num_epochs}], Loss: {loss.item():.4f}')

# 在训练数据上进行预测
with torch.no_grad():
    predictions = perceptron(x).numpy()

# 可视化结果
plt.scatter(x[:, 0], x[:, 1], c=predictions.flatten(), cmap='coolwarm', marker='o')
plt.title('Perceptron Model')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()


End.


pdf下载

标签:right,模型,感知机,np,theta,true,left
From: https://www.cnblogs.com/flyup/p/18399966

相关文章

  • 打破信息差|纯文科生如何入局AI大模型行业?
    一、做AI大模型有多赚钱?......
  • LLM——10个大型语言模型(LLM)常见面试题以及答案解析
    今天我们来总结以下大型语言模型面试中常问的问题1、哪种技术有助于减轻基于提示的学习中的偏见?A.微调Fine-tuningB.数据增强DataaugmentationC.提示校准PromptcalibrationD.梯度裁剪Gradientclipping答案:C提示校准包括调整提示,尽量减少产生的输出中的偏差......
  • 转战大模型开发,能否逆袭职业生涯?看完你就明白了
    大模型算是当之无愧最火的一个方向了,算是新时代的风口。有小伙伴觉得,既然是新领域、新方向,那么,人才需求肯定比较大,相应的人才缺乏,竞争也会更少,那转行去做大模型是不是一个更好的选择呢?是不是更好就业呢?是不是就暂时能抵抗35岁中年危机呢?在这里分享一下我的看法,希望给想要......
  • 深入理解通信模型
    深入理解通信模型OSI七层模型主要目的OSI七层模型的主要目的是为解决不同网络互连时所遇到的兼容性问题,通过七个层次化的结构模型使不同的系统、不同的网络之间实现可靠的通信主要功能物理层:单位比特,定义物理连接和电信号传输,如电缆、连接器等数据链路层:单位帧,分MAC子......
  • llama_vllm对话问答基础语言模型集合
    LLAMA论文https://arxiv.org/pdf/2302.13971.pdf模型结构LLAMA网络基于Transformer架构。提出了各种改进,并用于不同的模型,例如PaLM。以下是与原始架构的主要区别:预归一化。为了提高训练稳定性,对每个transformer子层的输入进行归一化,而不是对输出进行归一化。使用RMSN......
  • NOIP集训Day24 DP常见模型3 - 区间
    NOIP集训Day24DP常见模型3-区间A.[CF1572C]Paint设\(f_{i,j}\)表示区间\([i,j]\)涂成一种颜色的最小染色次数。可以发现对于区间\([i,j]\),一定有一个最优方案使得整个区间最后染色成\(a_j\)。这是因为\(j\)在区间\([i,j]\)的边缘,一定存在一个\(k\in[i,j-......
  • 零一万物正式开源Yi-Coder系列模型|PerfXCloud火速支持等你体验!
    Yi-Coder系列模型专为编码任务而生,提供1.5B和9B两种参数。其中,Yi-Coder-9B的表现优于其他10B参数以下的模型,如CodeQwen1.57B和CodeGeex49B,甚至能够与DeepSeek-Coder33B相媲美,并具有以下特点:▪ 小参数,强性能:尽管Yi-Coder的参数量相对较小,但它在各种任务,包括基础编程、代......
  • 澎峰科技受邀参加全球AI芯片峰会,探讨大模型推理引擎PerfXLM面向RISC-V的移植和优化
    2024全球AI芯片峰会,9月6-7日北京开启!9月6-7日,2024全球AI芯片峰会(GACS2024)将在北京辽宁大厦盛大举办。全球AI芯片峰会至今已成功举办六届,现已成为国内规模最大、规格最高、影响力最强的产业峰会之一。本届峰会由芯东西与智猩猩共同主办,以「智算纪元共筑芯路」为主题。峰会采......
  • 大模型书籍推荐:大规模语言模型从理论到实践(含PDF免费)
    《大规模语言模型:从理论到实践》这本书全面介绍了构建大型语言模型的四个关键阶段:预训练、有监督微调、奖励建模和强化学习。一、内容简介书中详细讨论了每个阶段的算法、代码、数据、难点和实践经验。它从基础理论出发,讲解了预训练数据构建方法、大语言模型服从人类指......
  • 【AIGC】Transformer模型:Postion Embedding概述、应用场景和实现方式的详细介绍。
    ......