• 2024-09-25SelMatch:最新数据集蒸馏,仅用5%训练数据也是可以的 | ICML'24v1
    数据集蒸馏旨在从大型数据集中合成每类(IPC)少量图像,以在最小性能损失的情况下近似完整数据集训练。尽管在非常小的IPC范围内有效,但随着IPC增加,许多蒸馏方法变得不太有效甚至性能不如随机样本选择。论文对各种IPC范围下的最先进的基于轨迹匹配的蒸馏方法进行了研究,发现这些方法在增
  • 2024-09-25SelMatch:最新数据集蒸馏,仅用5%训练数据也是可以的 | ICML'24
    数据集蒸馏旨在从大型数据集中合成每类(IPC)少量图像,以在最小性能损失的情况下近似完整数据集训练。尽管在非常小的IPC范围内有效,但随着IPC增加,许多蒸馏方法变得不太有效甚至性能不如随机样本选择。论文对各种IPC范围下的最先进的基于轨迹匹配的蒸馏方法进行了研究,发现这些方法在增
  • 2024-09-09KernelWarehouse:英特尔开源轻量级涨点神器,动态卷积核突破100+ | ICML 20242A
    动态卷积学习n个静态卷积核的线性混合,加权使用它们输入相关的注意力,表现出比普通卷积更优越的性能。然而,它将卷积参数的数量增加了n倍,因此并不是参数高效的。这导致不能探索n>100的设置(比典型设置n<10大一个数量级),推动动态卷积性能边界提升的同时享受参数的高效性。为此,论文提出
  • 2024-08-26ICML 2024 | 全新图卷积!Mila和华为提出CKGConv:连续卷积核的图卷积网络
    前言 在ICML2024上,来自麦吉尔大学,Mila魁北克人工智能研究所以及华为诺亚方舟实验室的研究者发表了一个基于连续卷积核(continuouskernel)的全新图卷积算子(图连续卷积CKGConv),基于此算子的纯图卷积网络(CKGCN)在多个图任务中同样能够达到媲美SOTA图Transformer的性能。作者通过
  • 2024-08-22SLAB:华为开源,通过线性注意力和PRepBN提升Transformer效率 | ICML 2024
    论文提出了包括渐进重参数化批归一化和简化线性注意力在内的新策略,以获取高效的Transformer架构。在训练过程中逐步将LayerNorm替换为重参数化批归一化,以实现无损准确率,同时在推理阶段利用BatchNorm的高效优势。此外,论文设计了一种简化的线性注意力机制,其在计算成本较低的情况下
  • 2024-06-06ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
    多模态蛋白质语言模型是一个新兴的方向。《Multi-scaleProteinLanguageModelforUnifiedMolecularModeling》是一篇发表在ICML2024的文献,作者是KangjieZheng、SiyuLong、TianyuLu、JunweiYang、XinyuDai、MingZhang、ZaiqingNie、Wei-YingMa和HaoZhou。文章的
  • 2024-05-28ICML 2024 | 新型傅立叶微调来了!脱离LoRA架构,训练参数大幅减少
    前言 本文介绍了香港科技大学(广州)的一篇关于大模型高效微调(LLMPEFTFine-tuning)的文章「Parameter-EfficientFine-TuningwithDiscreteFourierTransform」,本文被ICML2024接收,代码已开源。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解
  • 2024-05-172024-05-17 闲话
    昨天去听了一个宣讲,晚上和5wcitation的老师吃了一个饭,收获了一个合影。吃饭的时候和刘夏雷老师交流了一个工作,通俗语言表达如下。连续学习的setting下有一个灾难性遗忘的问题。举一个具体一点的例子:现在我们有一个图片分类的任务,原先有10类,现在要扩充至20类。原先我们建
  • 2024-05-15DBLP 简单使用
    1.访问DBLP网站https://dblp.org/2.在搜索框输入关键词这里我想搜寻ICML2023中关于小样本的论文所以输入ICML点击这个超链接进入ICML页面可以看到历年的ICML信息,点击contents展开查看该年的所有内容在该页面ctrl+f输入few-shot即可迅速的找到所有和小样本有关系的文章
  • 2024-04-16DeiT:训练ImageNet仅用4卡不到3天的平民ViT | ICML 2021
    论文基于改进训练配置以及一种新颖的蒸馏方式,提出了仅用ImageNet就能训练出来的Transformer网络DeiT。在蒸馏学习时,DeiT以卷积网络作为teacher,能够结合当前主流的数据增强和训练策略来进一步提高性能。从实验结果来看,效果很不错来源:晓飞的算法工程笔记公众号论文:Trainingd
  • 2024-03-31EfficientNetV2:谷歌又来了,最小的模型,最高的准确率,最快的训练速度 | ICML 2021
     论文基于training-awareNAS和模型缩放得到EfficientNetV2系列,性能远优于目前的模型。另外,为了进一步提升训练速度,论文提出progressivelearning训练方法,在训练过程中同时增加输入图片尺寸和正则化强度。从实验结果来看,EfficientNetV2的效果非常不错。来源:晓飞的算法工程笔记
  • 2023-09-06ICML 2023 | 神经网络大还是小?Transformer模型规模对训练目标的影响
    前言 本文研究了Transformer类模型结构(configration)设计(即模型深度和宽度)与训练目标之间的关系。结论是:token级的训练目标(如maskedtokenprediction)相对更适合扩展更深层的模型,而sequence级的训练目标(如语句分类)则相对不适合训练深层神经网络,在训练时会遇到over-smoothin
  • 2023-05-25ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册
    前言 本文介绍一下最近被ICML2023接收的文章:ACloserLookatSelf-SupervisedLightweightVisionTransformers.文章聚焦在轻量级ViT的预训练上,相当于为相关方向的研究提供了一个benchmark,相关的代码与模型也都会开源,方便后续大家在这一方向上继续探索。文章的研究也打破
  • 2023-04-102018-ICML-Understanding and Simplifying One-Shot Architecture Search(论文阅读)
    文章目录前言一、总体介绍二、方法(One-ShotArchitectureSearch)1.SearchSpace设计2.训练one-shot模型3.评估候选结构4.最终模型选择与训练三、One-Shot模型实验1.DropoutRate的影响2.实验结果对比四、理解One-shot模型前言本文重在探究为什么One-Shot模型中的权重能被
  • 2022-10-20作者解读ICML接收论文:如何使用不止一个数据集训练神经网络模型?
    作者:欧明锋,浙江大学导读:在实际的深度学习项目中,难免遇到多个相似数据集,这时一次仅用单个数据集训练模型,难免造成局限。是否存在利用多个数据集训练的可能性?本文带来解读。01
  • 2022-10-04既可生成点云又可生成网格的超网络方法 ICML
    本文发表在ICML2020中,题目是Hypernetworkapproachtogeneratingpointclouds。利用超网络(hypernetworks)提出了一种新颖的生成3D点云的方法。与现有仅学习3D对象的表
  • 2022-10-04作者解读ICML接收论文:如何使用不止一个数据集训练神经网络模型?
     Datawhale干货 作者:欧明锋,浙江大学导读:在实际的深度学习项目中,难免遇到多个相似数据集,这时一次仅用单个数据集训练模型,难免造成局限。是否存在利用多个数据集训练的可能