• 2024-09-30人大&百度提出个性化插件式LLM
    LLM目前最有前景的应用之一就是超级助手,其中个人超级助手早晚躲不开个性服务,因为即使有相同需求的用户,也可能偏好不同的输出。以通用人工智能著称的LLM又要怎么开启个性化服务呢?给每个用户单独微调一个LLM在toC端肯定是不现实的,即使是用各种PEFT的奇淫巧技,也能把公司底裤都亏
  • 2024-09-24超详细的系列总结!大模型岗面试题(含答案)来了!(大语音模型基础篇二)
    前言大模型应该是目前当之无愧的最有影响力的AI技术,它正在革新各个行业,包括自然语言处理、机器翻译、内容创作和客户服务等,正成为未来商业环境的重要组成部分。截至目前大模型已超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关岗位和面试也开始越来越卷
  • 2024-09-21Transformer模型-7- Decoder
    概述Decoder也是N=6层堆叠的结构,每层被分3层:两个注意力层和前馈网络层,同Encoder一样在主层后都加有Add&Norm,负责残差连接和归一化操作。Encoder与Decoder有三大主要的不同:第一层MaskedMulti-HeadAttention:采用Masked操作第二层Multi-HeadAttention:K,V矩阵是
  • 2024-09-18Attention is all you need 论文阅读笔记
    AttentionisallyouneedTransformeronlybasedonattentionmechanisms,dispensingCNN,RNNIntroductionandBackgroundRNN必须将前一步生成的h
  • 2024-09-12SD入门教程一:Stable Diffusion 基础(技术篇)
    前言在开篇的时候就大致讲了SD和VAE,那么今天我们具象化地再来讲讲StableDiffusion(稳定扩散)。严格说来它是一个由几个组件(模型)构成的系统,而非单独的一个模型。我以最常见的文生图为例,解释下StableDiffusion的整体架构和工作原理。本次教程将使用AI绘画工具StableD
  • 2024-09-08Transformer图解以及相关的概念解析
    前言transformer是目前NLP甚至是整个深度学习领域不能不提到的框架,同时大部分LLM也是使用其进行训练生成模型,所以transformer几乎是目前每一个机器人开发者或者人工智能开发者不能越过的一个框架。接下来本文将从顶层往下去一步步掀开transformer的面纱。transformer概述Transforme
  • 2024-09-06【Stable Diffusion】ComfyUI-插件-IPAdapter多图融合
    哈喽大家好,上期介绍了如何利用IPAdapter实现两张图的融合,那么如何将多图进行融合呢,这期来分享下效果如下,左侧为参考图IPAdapter多图融合工作流可以扫描下方,免费获取IPAdapter多图融合1、工作流将基础工作流中【IPAdapter】节点换成【IPAdapterEmbeds】,这里的图像
  • 2024-09-05Transformer: Attention is all you need
    Transformer于2017年提出,最开始应用于NLP领域,随着Transformer的快速发展,在视觉领域中也越来越多的论文或应用用到了Transformer,这里记录一下自己学习的一些知识点。PDF:《AttentionIsAllYouNeed》Code:attention-is-all-you-need-pytorch一、前置知识1.1注意力机制Tran
  • 2024-09-04RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs(IEEE,2023
    RestoreFormer++:TowardsReal-WorldBlindFaceRestorationfromUndegradedKey-ValuePairs(IEEE,2023,8)PaperGitHub动机:认为之前的模型都只关注了图像的纹理信息,而忽视了人脸的细节信息,本文采用多尺度、交叉注意力的方式引入模型的语义信息.总体可以分为两大部分:
  • 2024-09-04Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer
    TowardsRobustBlindFaceRestorationwithCodebookLookupTransformer(NeurIPS2022)这篇论文试图解决的是盲目面部恢复(blindfacerestoration)问题,这是一个高度不确定的任务,通常需要辅助指导来改善从低质量(LQ)输入到高质量(HQ)输出的映射,或者补充输入中丢失的高质量细节。具体
  • 2024-09-03搞懂Transformer结构,看这篇PyTorch实现就够了
    前言下面分享一篇实验室翻译的来自哈佛大学一篇关于Transformer的详细博文。“AttentionisAllYouNeed”[1]一文中提出的Transformer网络结构最近引起了很多人的关注。Transformer不仅能够明显地提升翻译质量,还为许多NLP任务提供了新的结构。虽然原文写得很清楚,但实际上大家普
  • 2024-09-02一阶低通滤波
    一阶低通滤波原理:一阶滤波,又叫一阶惯性滤波,或一阶低通滤波一阶低通滤波的算法公式为:Y(n)=αX(n)+(1-α)Y(n-1)式中:α=滤波系数,取值范围为0~1之间;X(n)=本次采样值;Y(n-1)=上次滤波输出值;Y(n)=本次滤波输出值。一阶低通滤波法采用本次采样值与
  • 2024-09-01Transformer面试真题详解——覆盖99%的Transformer面试问题(建议收藏)
    文章目录1.请简述一下Transformer的基本结构和原理2.Transformer为什么使用多头注意力机制3.Transformer计算attention为什么选择点乘而不是加法?两个计算复杂度和效果上有什么区别?4.为什么在softmax之后要对attention进行scaled(为什么除以d_k的平方根)5.在计算attent
  • 2024-09-01BEVFormer开源算法逐行解析(一):Encoder部分
    写在前面:对于BEVFormer算法框架的整体理解,大家可以找到大量的资料参考,但是对于算法代码的解读缺乏详实的资料。因此,本系列的目的是结合代码实现细节、在tensor维度的变换中帮助读者对算法能有更直观的认识。本系列我们将对BEVFormer公版代码(开源算法)进行逐行解析,以结合代码理解
  • 2024-08-26专业视频编辑和制作软件Adobe Media Encoder(ME)win/mac下载安装和软件介绍
    一、软件概述1.1软件简介AdobeMediaEncoder(ME)是由Adobe公司开发的一款专业视频编辑和制作软件,全称为MediaEncoder,是CreativeCloud套件中的一个重要组件。AdobeME以其强大的视频编码、转码、调整、剪辑、合成等功能,深受专业视频制作人员、视频制片人和爱好者的喜爱。1.
  • 2024-08-21X-anylabeling如何手动加载(自定义)模型 : 以Segment Anything 为例
    提示:文章目录前言1手动下载模型至软件默认读取路径2加载自定义模型假设你已有模型(.pth),如何进行导出安装导出工具导出你的模型,在标注软件中加载模型打开软件,加载‘自定义’模型。并选择上面提到的配置文件X-anylabeling源码安装过程中遇到的问题GPU环境问题opencv
  • 2024-08-16【面试】介绍一下Encoder和Decoder
    面试模拟场景面试官:你能介绍一下Encoder和Decoder吗?参考回答示例Encoder和Decoder是机器学习和深度学习中的重要组件,尤其在序列到序列(Seq2Seq)模型中被广泛应用。它们分别用于将输入数据编码成内部表示(向量),然后将这个内部表示解码成目标输出。Encoder-Decoder结构在
  • 2024-08-15因果推断 uplift特征编码方式选择
    对于UpliftRandomForestClassifier模型,特别是在处理具有多个类别且分布不均匀的分类变量时,选择合适的特征编码方法非常重要。考虑到这种情况,以下是一些建议的特征编码方法:TargetEncoding(目标编码)这种方法特别适合处理高基数(多类别)的分类变量,并且能够捕捉类别与目标变量
  • 2024-08-13dreambooth代码阅读
    网上dreambooth大部分只是对论文讲解,但代码讲解不是找不到就是收费,没办法,自己硬读,记录一下。水平不高,学机器学习不久,可能有错,欢迎指正,仅做参考。Dreambooth流程简单来说是1,通过在现有的Diffusion模型增加一个你要的token,变成一个新的模型,比如你给特定一只sys狗的照片训练,你新
  • 2024-08-10SMA2:代码实现详解——Image Encoder篇(FpnNeck章)
    SMA2:代码实现详解——ImageEncoder篇(FpnNeck)总配置YAML文件、OmegaConf和hydraSAM2的官方实现是使用yaml文件来配置整体的模型结构与参数的。关键代码如下:defbuild_sam2(config_file,ckpt_path=None,device="cuda",mode="eval",hydra_overr
  • 2024-08-08LLM大模型:LLaVa多模态图片检索原理
    训练安全垂直领域的LLM,会用到很多著名安全论坛(52pojie\kanxue\xianzhi\freebuf等)、博客的数据,这些数据100%都有很多图片(文不如图嘛,图片比文字更直观,更容易表达业务意义),之前微调LLM只能使用文字,图片只能丢弃,非常可惜,需要利用多模态的技术充分提取图片信息! 1、以前做传
  • 2024-08-05FLAC库的编译及应用
    简介FLAC是一种针对声音文件的无损压缩算法。压缩比略低于AAC,但是压缩和解压的速度很理想。使用FLAC压缩的无损音乐,体积将比没有经过压缩的无损音乐小很多(取决于音乐的平均音量。通常体积能减少到原文件的50%左右)。相比较MP3有损压缩格式而言,FLAC能保留100%的音质。对
  • 2024-08-04Video Encoder LowLatency模式
    低延迟模式(LowLatencyMode)在视频编码器中是一种优化设置,旨在减少编码和解码过程中的延迟,使视频能够尽快传输和播放。这种模式特别适用于实时应用,例如视频会议、游戏流媒体和直播等。主要用途视频会议:确保与会者之间的对话具有最小的延迟,使交流更自然和流畅。游戏流媒体:
  • 2024-07-25Transformer —— 李沐老师论文跟读
    论文地址:https://arxiv.org/pdf/1706.03762摘要当时的序列转录模型主要依赖于复杂的循环或者卷积神经网络加encoder+decoder架构组成,而论文提出了一种简单的网络架构transformer,在原有的encoder+decoder基础上增加注意力机制,而不使用循环和卷积。引言在引言中提到RNN的缺点
  • 2024-07-23Encoder
    Encoder#导入包importtorchfromtorchimportnnimporttorch.nn.functionalasfimportmathclassPositionwiseFeedForward(nn.Module):def__init__(self,d_model,hidden,dropout=0.1):"""d_model:输入特征维度hi