• 2024-11-08timm 库学习总结
    timm库是聚合了各种SOTA图像分类模型的python库,里面有上千种模型,大部分模型还提供了在ImageNet数据集上预训练的权重。典型的如Resnet系列、Inception系列、ConvNeXt系列,以及基于ViT的模型。timm库支持的模型名称可通过内置的查询函数timm.list_models查看,各种模型性能评估排
  • 2024-11-03《AI 算法的突破与挑战:探寻人工智能的核心驱动力》
    在当今科技飞速发展的时代,AI算法无疑是人工智能领域的核心驱动力,它的不断演进和突破正在重塑我们的世界。从简单的代码到如今令人惊叹的“智能大脑”,AI算法经历了漫长的发展历程,取得了诸多令人瞩目的成就,但同时也面临着一系列的挑战。一、AI算法的辉煌成就精度超越
  • 2024-10-22tensorboard可视化,FashionMNIST数据集上搭建网络、训练、预测
    注意numpy版本不要使用2.x,否则提醒 AttributeError:`np.string_`wasremovedintheNumPy2.0release.Use`np.bytes_`instead.安装1.x版本,查看版本condasearchnumpy安装1.24.3condainstallnumpy=1.24.3 写入tensorboard,可视化图像、模型网络#图像可视化
  • 2024-09-17使用随机森林模型在digits数据集上执行分类任务
    程序功能使用随机森林模型对digits数据集进行手写数字分类任务。具体步骤如下:加载数据:从digits数据集中获取手写数字图片的特征和对应的标签。划分数据:将数据集分为训练集和测试集,测试集占30%。训练模型:使用随机森林算法训练分类模型。进行预测:使用训练好的模型对测试
  • 2024-09-03Datawhale X 李宏毅苹果书 AI夏令营 Task3-机器学习实践方法论
    在上一章介绍完机器学习模型后,我们接着讨论模型中可能存在的一些问题。首先我们需要明确一件事,就是Kaggle上的测试结果不好,可能有多个原因。第一,如果模型在运行训练模型时,所产生的损失就很大,那么有可能是模型偏差(modelbias)或优化(optimization)问题。第二,如果模型在运行训
  • 2024-09-03【论文】OmniVec2:一种基于Transformer的新型大规模网络多模态多任务学习
    前言《OmniVec2:ANovelTransformerbasedNetworkforLargeScaleMultimodalandMultitaskLearning》研究背景研究问题:这篇文章提出了一种新的多模态多任务网络及其相关的训练算法,旨在处理来自约12种不同模态的数据,包括图像、视频、音频、文本、深度、点云、时间序列、表格、图
  • 2024-08-07PLEK升级了:PLEKv2工具在RNA序列分析中的卓越表现
    摘要:使用PLEKv2识别鉴定lncRNA,只需要输入RNA的序列(fa文件)即可。 在生物信息学领域,长非编码RNA(lncRNA)和信使RNA(mRNA)的准确区分对于理解基因调控机制至关重要。随着深度学习技术的兴起,我们迎来了PLEKv2——PLEK工具的全新升级版,它在RNA序列分类精度方面取得了显著提高。这里探
  • 2024-08-03【机器学习】过拟合和欠拟合、高偏差(High Bias)和高方差(High Variance)的区别、过拟合和欠拟合的示例以及图表表示
    引言在机器学习中,过拟合(Overfitting)是指模型在训练数据上学习得太好,以至于它捕捉到了数据中的噪声和随机波动,而不是潜在的真实关系,这导致模型在新的、未见过的数据上表现不佳;欠拟合(Underfitting)是指模型在训练数据上未能捕捉到足够的信息或模式,导致模型在训练集和测试集上
  • 2024-07-30Bias(偏差)、Variance(方差)
    偏差:是指一个模型的在不同训练集上的平均性能和最优模型的差异。偏差可以用来衡量一个模型的拟合能力。偏差越大,预测值平均性能越偏离最优模型。偏差衡量模型的预测能力,对象是一个在不同训练集上模型,形容这个模型平均性能对最优模型的预测能力。方差:(variance)描述的是一个模型在
  • 2024-07-11机器学习策略篇:详解数据分布不匹配时,偏差与方差的分析(Bias and Variance with mismatched data distributions)
    详解数据分布不匹配时,偏差与方差的分析估计学习算法的偏差和方差真的可以帮确定接下来应该优先做的方向,但是,当训练集来自和开发集、测试集不同分布时,分析偏差和方差的方式可能不一样,来看为什么。继续用猫分类器为例,说人类在这个任务上能做到几乎完美,所以贝叶斯错误率或者说贝叶
  • 2024-07-06基于深度学习的软件漏洞检测模型在现实数据集上的表现
        软件漏洞对日常软件系统的影响令人担忧。尽管已经提出了基于深度学习模型的漏洞检测方法,但这些模型的可靠性仍然是一个重大问题。先前的评估报告这些模型具有高达99%的召回率/F1分数,但研究发现,这些模型在实际应用场景下的表现并不佳,特别是在评估整个代码库而不仅仅
  • 2024-06-22第四章分类问题
    目录第五题线性判别分析(LDA)概述假设公式优点缺点二次判别分析(QDA)概述假设公式优点缺点比较第六题​编辑​编辑第八题逻辑回归1-最近邻比较与结论第九题第十二题第五题LDA(线性判别分析)和QDA(二次判别分析)是两种常用的分类算法,它们在统计学
  • 2024-06-19[模式识别复习笔记] 第1-2章 基本概念
    1.模式识别系统的各个设计环节模式采集:借助物理设备(传感器、摄像头)进行数据的采集和存储。预处理:数据清洗、降噪,增强数据中有用的信息。特征提取:提取数据中对识别有用的特征。分类器学习:根据训练数据特点,选择何时的分类器模型,利用训练集学习得到参数。2.模式
  • 2024-06-02kaggle竞赛实战6——方案优化之交叉验证
    特征选择一共有两种方法:filter和wrapper,前者根据指标(如相关系数),后者通过模型(如随机森林)筛选超参数搜索也有三种方法——网格搜索和TPE搜索、贝叶斯优化器搜索等,后两者可以进行一定程度的先验计算,并在实际搜索中不断调整先验判断。在完成上述过程后,还要用交叉验证来看超参数选
  • 2024-04-15人工智能大模型的训练阶段和使用方式来分类
    是的,人工智能大模型也可以根据它们的训练阶段和使用方式来分类。以下是根据模型的阶段性来区分的一些类别:预训练模型:这些模型在大规模数据集上进行训练,以学习通用的特征表示。预训练可以是无监督的(如使用自编码或生成对抗网络),也可以是有监督的(如在大型标注数据集上进行训练)。
  • 2024-03-30图像分类实战:深度学习在CIFAR-10数据集上的应用
    1.前言        图像分类是计算机视觉领域的一个核心任务,算法能够自动识别图像中的物体或场景,并将其归类到预定义的类别中。近年来,深度学习技术的发展极大地推动了图像分类领域的进步。CIFAR-10数据集作为计算机视觉领域的一个经典小型数据集,为研究者提供了一个理想的
  • 2024-03-28为什么SOTA网络在你的数据集上不行?来看看Imagnet结果的迁移能力研究
     论文通过实验证明,ImageNet上的模型并不总能泛化到其他数据集中,甚至可能是相反的,而模型的深度和宽度也会影响迁移的效果。 如果需要参考,可选择类别数与当前任务相似的数据集上的模型性能。论文通过大量的实验来验证猜想,虽然没有研究出如通过数据集间的某些特性来直接判断模型
  • 2024-03-27Chronos: 将时间序列作为一种语言进行学习
    这是一篇非常有意思的论文,它将时间序列分块并作为语言模型中的一个token来进行学习,并且得到了很好的效果。Chronos是一个对时间序列数据的概率模型进行预训练的框架,它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表,并在通过
  • 2024-03-11Paper Reading: BoostTree and BoostForest for Ensemble Learning
    目录研究动机文章贡献预备知识本文方法BoostTree的总体思路回归的BoostTree二分类的BoostTree多分类的BoostTreeBoostforest实现细节实验结果数据集和实验设置BoostForest对比实验基学习器数量的泛化性基学习器复杂度的泛化性大型数据集实验替换基学习器替换节点的回归器Boos
  • 2024-03-04机器学习策略篇:详解训练/开发/测试集划分(Train/dev/test distributions)
    训练/开发/测试集划分设立训练集,开发集和测试集的方式大大影响了或者团队在建立机器学习应用方面取得进展的速度。同样的团队,即使是大公司里的团队,在设立这些数据集的方式,真的会让团队的进展变慢而不是加快,看看应该如何设立这些数据集,让团队效率最大化。在此,想集中讨论如何设立
  • 2024-02-26机器学习策略篇:详解正交化(Orthogonalization)
    正交化这是一张老式电视图片,有很多旋钮可以用来调整图像的各种性质,所以对于这些旧式电视,可能有一个旋钮用来调图像垂直方向的高度,另外有一个旋钮用来调图像宽度,也许还有一个旋钮用来调梯形角度,还有一个旋钮用来调整图像左右偏移,还有一个旋钮用来调图像旋转角度之类的。电视设计
  • 2023-12-25GPT-1论文《Improving Language Understanding by Generative Pre-Training》解读
    背景GPT-1采用了两阶段训练的方式:1. 第一阶段pre-training,在海量文本上训练,无需label,根据前k-1个词预测第k个单词是什么,第一阶段的训练让模型拥有了很多的先验知识,模型具有非常强的泛化性2.第二阶段在特定任务上fine-tuning,让模型能适应不同的任务,提高模型在特定任务上的准
  • 2023-12-16我对过拟合的理解
    1、什么是过拟合就是训练出来的模型在训练集上表现很好,但是在测试集上表现较差的一种现象,如下图:2、发生过拟合的主要原因(1)数据有噪声(2)训练数据不足,有限的训练数据(3)训练模型过度导致模型非常复杂3、如何防止(1)获取和使用更多的数据(数据集增强)(2)采用合适的模(3)降低特征的数(4)Dropout是在
  • 2023-12-09人工智能基础 - 过拟合、欠拟合
    前面文章中,我们讲到,希望最终的模型在训练集上有很好的拟合(训练误差小),同时对测试集也要有较好的拟合(泛化误差小)那么针对模型的拟合,这里引入两个概念:过拟合,欠拟合。过拟合:是指我们在训练集上的误差较小,但在测试集上的误差较大;欠拟合:在训练集上的效果就很差。对于二分类数据,我们可以用
  • 2023-11-16过拟合
    过拟合(Overfitting)是指机器学习模型在训练数据上表现得太好,以至于无法很好地泛化到未见过的数据。过拟合的模型在训练数据上表现良好,但在新的、未见过的数据上表现较差。这是因为模型在训练数据上学到了数据的噪声和细节,而不是真正的数据模式。过拟合的主要原因包括:模型复杂度