首页 > 其他分享 >【AI大模型】在线蒸馏一次视觉Transformer搜索

【AI大模型】在线蒸馏一次视觉Transformer搜索

时间:2024-09-24 14:55:15浏览次数:12  
标签:采样 Transformer 子网 蒸馏 训练 AI 网络 超网


一、概要

最近,Pure transformers在视觉任务方面显示出巨大的潜力。然而,它们在中小数据集中的准确性并不令人满意。尽管一些现有方法引入了CNN作为教师,通过蒸馏来指导训练过程,但教师和学生网络之间的差距将导致次优绩效。在这项工作中,研究员提出了一种新的具有在线蒸馏的One-shot Vision transformer搜索框架,即OVO。OVO对教师和学生网络的子网进行采样,以获得更好的蒸馏结果。得益于在线蒸馏,超网中的数千个子网训练有素,无需额外的微调或再训练。在实验中,OVO Ti在ImageNet和CIFAR-100上分别达到73.32%和75.2%的top-1精度。

二、ViT超网训练的困境

在AutoFormer中的超网训练期间,在每个训练迭代中均匀地采样子网α=(α(1)。。。α(i)。。。α(l))。采样权重w=(w(1)。。。w(i)。。。w(l))被更新,而其余部分被冻结。然而,超网训练对于ViT来说并不稳定,每个超网需要很长的训练周期(500个周期)才能获得其组装子网的满意性能。其他方法使用三明治采样策略,对多个子网络(包括最大、最小和两个随机选择)进行采样,然后将每个小批次的梯度聚集在一起。当采用三明治采样策略时,超网训练的计算成本更高。

三、超网在线蒸馏训练

当训练教师和学生网络时,研究者在[Single path one-shot neural architecture search with uniform sampling]中提出的每次迭代中更新一个随机采样的子网络。使用GT标签训练来自教师超网络的子网络,同时使用KD训练采样的学生网络。配备在线蒸馏,一次性NAS能够以高效和有效的方式搜索Transform架构。与经典的一次性NAS方法相比,新提出的方法有两个优点。1) 更快的收敛。来自CNN的知识提供了电感偏置,这有助于每个Transform块比之前的独立训练更快地收敛。2) 更好的子网性能。通过在线蒸馏训练的子网可以在中小数据集上获得更好的性能。

四、Search Pipeline

在超网完成训练后,进行进化搜索,以最大化分类精度选择子网络。在进化搜索开始时,随机抽取N个架构作为种子。所有子网络都基于从超网继承的权重在验证数据集上进行评估。选择前k个架构作为父代,通过交叉和变异生成下一代。对于交叉,两个随机选择的父网络交叉,以在每一代中产生一个新网络。当进行突变时,父网络首先以概率Pd对其深度进行突变,然后以概率Pm对每个块进行突变,以产生新的架构。

五、实验

将搜索到的最优模型的性能与ImageNet上最先进的CNN和ViT的性能进行了比较。在ImageNet-1K上训练OVO的超集合,并使用指定的参数大小搜索目标Transform模型。在超网完成训练后,子网直接继承权重,而无需额外的再训练和其他后处理。下表中报告了性能。很明显,OVO比其他最先进的模型具有更高的精度。

【AI大模型】在线蒸馏一次视觉Transformer搜索_ai



标签:采样,Transformer,子网,蒸馏,训练,AI,网络,超网
From: https://blog.51cto.com/u_16163452/12099843

相关文章

  • 史上最全 BAT 大厂AI大模型面试1000题整理!(速度收藏)
    前言刷题,是面试前的必备环节。想要入职大厂可谓是千军万马过独木桥。为了通过层层考验,刷题肯定是必不可少的。鉴于此大厂多年经验技术面试官总结根据BATAI大模型面试1000题系列,结合各个大厂的面试题型整理了一份《AI大模型面试刷题宝典》,为了阅读体验,面试题都按知识点整理好了,可谓......
  • 2024年中国生成式AI行业最佳应用实践|附100页PDF文件下载
    前言8月28日,由弗若斯特沙利文(Frost&Sullivan,简称“沙利文”)主办的第十八届中国增长、科创与领导力峰会暨第三届新投资大会上,沙利文携手头豹研究院共同发布了《2024年中国生成式AI行业最佳应用实践》报告,并揭晓了多项实践方案大奖。其中,商汤科技与海通证券凭借双方联合打造的金融......
  • AI大模型推理性能优化之KV Cache
    前言本篇介绍KVCache。KVCache(键-值缓存)是一种在大模型推理中广泛应用的优化技术,其核心思想是利用缓存key和value来避免重复计算,从而提高推理效率。代价是显存占用会增加。核心思想在自注意力层的计算中,对于给定的输入序列,模型会计算每个token的key和value向量。这些向量的值......
  • 从零到AI专家&产品经理:一站式学习,掌握未来职场核心竞争力
    前言随着人工智能技术的飞速发展,AI已经成为推动社会进步的重要力量。在这个数字化转型的时代,AI产品经理的需求日益增长,成为职场中的香饽饽。一、当前AI产品经理的行情分析行业需求近年来,随着AI技术的普及,各行各业都在积极探索AI的应用场景。无论是互联网巨头还是初创企业,都在加大......
  • AI大模型面经之BERT和GPT的区别
    前言本篇介绍bert和gpt区别。BERT和GPT是自然语言处理(NLP)领域中的两种重要预训练语言模型,它们在多个方面存在显著的区别。以下是对BERT和GPT区别的详细分析一、模型基础与架构BERT:全称:BidirectionalEncoderRepresentationsfromTransformers。架构:基于Transformer的编码器部分进......
  • AI大模型大厂面经——LoRA面试题最全总结
    前言大家的显卡都比较吃紧,LoRA家族越来越壮大,基于LoRA出现了各种各样的改进,最近比较火的一个改进版是dora,听大家反馈口碑也不错。基于PEFT的话用409024G显存也可以进行大模型的微调,所以LoRA家族这块还是很有研究和实际落地的潜力。LoRA整个系列分为两个部分:1、LoRA总述2、LoRA家族......
  • 详解2024 openAi最新gpt o1模型分析
    探索GPT的O1模型:一场人工智能的革命在人工智能领域,尤其是自然语言处理(NLP)领域,模型的不断迭代和升级为我们带来了前所未有的机遇。最近,OpenAI发布了全新的O1模型,这一创新不仅在技术上取得了重大突破,也为各行各业的应用提供了更多可能性。本文将深入探讨O1模型的核......
  • Google Photos 利用 AI 驱动的视频预设重新设计视频编辑器
    在更新了“收藏”标签和搜索功能后,GooglePhotos现在正在推出其手机视频编辑器的重新设计。目标是让用户“比以往更容易地编辑喜欢的视频,制作成精彩片段分享。”GooglePhotos将主要的编辑工具放在“视频”标签的显眼位置。时间轴下方可以看到以下工具:静音增强:“一键增强颜......
  • OpenAI 学院计划:一百万美元助力开发者的新 AI 应用开发
    OpenAIAcademy于2024年9月23日推出,这是一个创新性的项目,旨在全球范围内赋能开发者和使命驱动的组织,特别是在低收入和中等收入国家。其目标是让更多人能够公平地获取先进的AI资源,并通过创新来应对社会的重大挑战。目的与愿景:Academy的使命是提供公平的AI技术获取机......
  • 必应bing推广kai户流程教学,满足企业获客需求
    微软Bing广告提供了三种主要广告类型,可以满足大多数出海企业的展示和客户获取需求。搜索广告(SearchAds)包括标准搜索广告和动态搜索广告。当用户的搜索词与投放的关键词匹配时,相应的搜索广告会被触发,向用户展示精准的广告内容。受众广告(AudienceAds)投放后,广告会展示在微......