• 2024-06-22第四章分类问题
    目录第五题线性判别分析(LDA)概述假设公式优点缺点二次判别分析(QDA)概述假设公式优点缺点比较第六题​编辑​编辑第八题逻辑回归1-最近邻比较与结论第九题第十二题第五题LDA(线性判别分析)和QDA(二次判别分析)是两种常用的分类算法,它们在统计学
  • 2024-06-19[模式识别复习笔记] 第1-2章 基本概念
    1.模式识别系统的各个设计环节模式采集:借助物理设备(传感器、摄像头)进行数据的采集和存储。预处理:数据清洗、降噪,增强数据中有用的信息。特征提取:提取数据中对识别有用的特征。分类器学习:根据训练数据特点,选择何时的分类器模型,利用训练集学习得到参数。2.模式
  • 2024-06-02kaggle竞赛实战6——方案优化之交叉验证
    特征选择一共有两种方法:filter和wrapper,前者根据指标(如相关系数),后者通过模型(如随机森林)筛选超参数搜索也有三种方法——网格搜索和TPE搜索、贝叶斯优化器搜索等,后两者可以进行一定程度的先验计算,并在实际搜索中不断调整先验判断。在完成上述过程后,还要用交叉验证来看超参数选
  • 2024-04-15人工智能大模型的训练阶段和使用方式来分类
    是的,人工智能大模型也可以根据它们的训练阶段和使用方式来分类。以下是根据模型的阶段性来区分的一些类别:预训练模型:这些模型在大规模数据集上进行训练,以学习通用的特征表示。预训练可以是无监督的(如使用自编码或生成对抗网络),也可以是有监督的(如在大型标注数据集上进行训练)。
  • 2024-03-30图像分类实战:深度学习在CIFAR-10数据集上的应用
    1.前言        图像分类是计算机视觉领域的一个核心任务,算法能够自动识别图像中的物体或场景,并将其归类到预定义的类别中。近年来,深度学习技术的发展极大地推动了图像分类领域的进步。CIFAR-10数据集作为计算机视觉领域的一个经典小型数据集,为研究者提供了一个理想的
  • 2024-03-28为什么SOTA网络在你的数据集上不行?来看看Imagnet结果的迁移能力研究
     论文通过实验证明,ImageNet上的模型并不总能泛化到其他数据集中,甚至可能是相反的,而模型的深度和宽度也会影响迁移的效果。 如果需要参考,可选择类别数与当前任务相似的数据集上的模型性能。论文通过大量的实验来验证猜想,虽然没有研究出如通过数据集间的某些特性来直接判断模型
  • 2024-03-27Chronos: 将时间序列作为一种语言进行学习
    这是一篇非常有意思的论文,它将时间序列分块并作为语言模型中的一个token来进行学习,并且得到了很好的效果。Chronos是一个对时间序列数据的概率模型进行预训练的框架,它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表,并在通过
  • 2024-03-11Paper Reading: BoostTree and BoostForest for Ensemble Learning
    目录研究动机文章贡献预备知识本文方法BoostTree的总体思路回归的BoostTree二分类的BoostTree多分类的BoostTreeBoostforest实现细节实验结果数据集和实验设置BoostForest对比实验基学习器数量的泛化性基学习器复杂度的泛化性大型数据集实验替换基学习器替换节点的回归器Boos
  • 2024-03-04机器学习策略篇:详解训练/开发/测试集划分(Train/dev/test distributions)
    训练/开发/测试集划分设立训练集,开发集和测试集的方式大大影响了或者团队在建立机器学习应用方面取得进展的速度。同样的团队,即使是大公司里的团队,在设立这些数据集的方式,真的会让团队的进展变慢而不是加快,看看应该如何设立这些数据集,让团队效率最大化。在此,想集中讨论如何设立
  • 2024-02-26机器学习策略篇:详解正交化(Orthogonalization)
    正交化这是一张老式电视图片,有很多旋钮可以用来调整图像的各种性质,所以对于这些旧式电视,可能有一个旋钮用来调图像垂直方向的高度,另外有一个旋钮用来调图像宽度,也许还有一个旋钮用来调梯形角度,还有一个旋钮用来调整图像左右偏移,还有一个旋钮用来调图像旋转角度之类的。电视设计
  • 2023-12-25GPT-1论文《Improving Language Understanding by Generative Pre-Training》解读
    背景GPT-1采用了两阶段训练的方式:1. 第一阶段pre-training,在海量文本上训练,无需label,根据前k-1个词预测第k个单词是什么,第一阶段的训练让模型拥有了很多的先验知识,模型具有非常强的泛化性2.第二阶段在特定任务上fine-tuning,让模型能适应不同的任务,提高模型在特定任务上的准
  • 2023-12-16我对过拟合的理解
    1、什么是过拟合就是训练出来的模型在训练集上表现很好,但是在测试集上表现较差的一种现象,如下图:2、发生过拟合的主要原因(1)数据有噪声(2)训练数据不足,有限的训练数据(3)训练模型过度导致模型非常复杂3、如何防止(1)获取和使用更多的数据(数据集增强)(2)采用合适的模(3)降低特征的数(4)Dropout是在
  • 2023-12-09人工智能基础 - 过拟合、欠拟合
    前面文章中,我们讲到,希望最终的模型在训练集上有很好的拟合(训练误差小),同时对测试集也要有较好的拟合(泛化误差小)那么针对模型的拟合,这里引入两个概念:过拟合,欠拟合。过拟合:是指我们在训练集上的误差较小,但在测试集上的误差较大;欠拟合:在训练集上的效果就很差。对于二分类数据,我们可以用
  • 2023-11-16过拟合
    过拟合(Overfitting)是指机器学习模型在训练数据上表现得太好,以至于无法很好地泛化到未见过的数据。过拟合的模型在训练数据上表现良好,但在新的、未见过的数据上表现较差。这是因为模型在训练数据上学到了数据的噪声和细节,而不是真正的数据模式。过拟合的主要原因包括:模型复杂度
  • 2023-10-18MAML算法概述
    MAML算法概述什么是MAML1.论文地址:Model-AgnosticMeta-LearningforFastAdaptationofDeepNetworks2.要解决的问题小样本问题模型收敛过慢3.算法描述​ MAML期望通过训练一组初始化参数,使得模型透过训练出的初始化参数,未来在少量样本基础上实现快速收敛。该初
  • 2023-10-15【高级机器学习算法】6.机器学习应用建议
    模型评估模型评估是机器学习中非常重要的一部分,它可以帮助我们评估模型的好坏,从而选择最优的模型。评估方式在机器学习中,我们通常会将数据集划分为训练集和测试集,训练集用于训练模型,测试集用于评估模型的好坏。评估指标训练误差:模型在训练集上的误差,用于衡量模型在训练集上
  • 2023-09-08论文解读 | 基于中心的三维对象检测与跟踪
    原创|文BFT机器人CenterPoint与传统基于框的3D物体检测器和跟踪器不同之处在于,它将3D物体表示、检测和跟踪为点,而不是使用边界框。这种方法具有几个优点,包括减少物体检测器的搜索空间,简化下游任务(如跟踪),并使设计比以前的方法快得多的有效的两阶段细化模块成为可能。此外,CenterPo
  • 2023-09-02Xception的一个小小创新,能够解决图像分割
    竞赛简介多年来,技术已经彻底改变了我们的世界,改变了我们每天的生活,一切都可以通过轻松地点击实现连接和访问。oneAPI就是这样一个技术堆栈,它在构建许多创新解决方案方面具有巨大的潜力。通过这次比赛精心策划的问题,您既可以更多地了解和体验人工智能技术在特定领域的运用,包括在机
  • 2023-07-30ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型
    ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型零样本信息抽取(InformationExtraction,IE)旨在从无标注文本中建立IE系统,因为很少涉及人为干预,该问题非常具有挑战性。但零样本IE不再需要标注数据时耗费的时间和人力,因
  • 2023-07-17在自定义数据集上微调Alpaca和LLaMA
    本文将介绍使用LoRa在本地机器上微调Alpaca和LLaMA,我们将介绍在特定数据集上对AlpacaLoRa进行微调的整个过程,本文将涵盖数据处理、模型训练和使用流行的自然语言处理库(如Transformers和hugsFace)进行评估。此外还将介绍如何使用grado应用程序部署和测试模型。 https://avoi
  • 2023-06-20交叉验证误差
    交叉验证误差是指在交叉验证过程中,模型在验证数据集上的预测误差。交叉验证是一种常用的模型评估方法,它将数据集分成若干份,每次使用其中一份作为验证数据集,其余部分作为训练数据集来训练模型。然后使用训练好的模型在验证数据集上进行预测,并计算预测误差。这个过程会重复多次,
  • 2023-05-12什么是人工智能领域的过拟合和欠拟合
    在人工智能领域中,过拟合和欠拟合是两个常见的问题,它们都会对模型的性能和效果产生负面影响。本文将介绍过拟合和欠拟合的概念、原因以及解决方法。一、过拟合过拟合指的是模型在训练集上表现得非常好,但在测试集或实际应用中表现不佳的情况。过拟合的主要原因是模型过于复杂,以至
  • 2023-03-25因果推断dowhy之-ihdp数据集上的案例学习
    0x01.案例背景IHDP(InfantHealthandDevelopmentProgram)就是一个半合成的典型数据集,用于研究“专家是否家访”对“婴儿日后认知测验得分”之间的关系。原数据集是基
  • 2023-03-232.3 和2.4 logistic回归损失函数、梯度下降
    下图中由给定的每个样本的值和样本对应的标签值得到最终的概率值Loss函数是在单个训练样本中定义的,它衡量了在单个训练样本上的表现,而成本函数cost,它衡量的是在全体训练
  • 2023-01-15李沐老师《动手学深度学习》(PyTorch版)学习笔记:第69-70课 微调
    【李沐老师观点】微调是深度学习,特别是计算机视觉来说,最重要的一种技术。整个深度学习为什么正常WORD?是因为微调的存在。所谓“微调”也称为“TransferLearning”,即迁移学