首页 > 其他分享 >腾讯混元文生图开源模型推出小显存版本,仅需6G显存即可运行

腾讯混元文生图开源模型推出小显存版本,仅需6G显存即可运行

时间:2024-09-24 12:50:15浏览次数:12  
标签:显存 混元 文生 模型 Captioner 开发者 DiT

腾讯混元文生图开源模型推出小显存版本,仅需6G显存即可运行

7月4日,腾讯混元文生图大模型(混元DiT)宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好,该版本与LoRA、ControlNet等插件,都已适配至Diffusers库;并新增对Kohya图形化界面的支持,让开发者可以低门槛地训练个性化LoRA模型;同时,混元DiT模型升级至1.2版本,在图片质感与构图方面均有所提升。

此外,腾讯宣布混元文生图打标模型”混元Captioner“正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作高质量的文生图数据集。

相比起业界的开源打标模型,混元Captioner模型能更好的理解与表达中文语义,输出的图片描述更为结构化、完整和准确,并能精准识别出常见知名人物与地标。模型还支持开发者自行补充和导入个性化的背景知识。

混元Captioner模型开源之后,全球的文生图研究者、数据标注人员,均可使用混元Captioner高效地提升自身图像描述质量,生成更全面、更准确的图片描述,提升模型效果。混元Captioner生成的数据集不仅能用于训练基于混元DiT的模型,亦可用于其他视觉模型训练。

模型易用性再提升,个人电脑可轻松运行

腾讯混元DiT模型宣布了三大更新:推出小显存版本与Kohya训练界面,并升级至1.2版本,进一步降低使用门槛的同时提升图片质量。

基于DiT架构的文生图模型生成图片质感更佳,但对显存的要求却非常高,让许多开发者望而却步。这也是新版本Stable Diffusion模型无法快速普及的原因之一。

应广大开发者的需求,混元DiT推出小显存版本,最低仅需6G显存即可运行优化推理框架,对使用个人电脑本地部署的开发者非常友好。经过与Hugging Face合作,小显存版本、LoRA与ControlNet插件,都已经适配到Diffusers库中。开发者无需下载原始代码,仅用简单的三行代码仅可调用,大大简化了使用成本。

同时,混元DiT宣布接入Kohya,让开发者可以低门槛地训练专属LoRA模型。

Kohya是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。用户可以通过图形化界面,完成模型的全参精调及LoRA训练,无需涉及到代码层面的细节。训练好的模型符合Kohya生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。

面向文生图、支持中英文,提升数据质量

在提升模型易用性的同时,腾讯混元团队也在开放更多的关键技术,包括此前的训练代码,最新的打标模型混元Captioner。

数据集就像AI训练的教材。训练数据集的质量,影响着模型生成内容的效果。因此,文生图开发者往往需要对原始图片进行清晰、全面的标注,制作高质量的数据集,才能训练出来一个语义理解准确、绘画技艺高超的文生图大模型。

借助打标模型,开发者可以快速生成高质量数据集。具体来说,文生图开发者将原始图片集导入混元Captioner,后者将生成高质量标注;也可以导入图片与原始描述,利用混元Captioner过滤其中的无关信息,并完善和优化图片描述,以提高数据质量。

目前,业界对于图片描述文本的生成,主要使用通用多模态Captioner模型,存在描述过于简单或繁琐(与画面描述的无关信息过多)、缺少背景知识导致无法识别知名人物和地标等问题,并且许多模型并非中文原生,中文描述不够精准。
在这里插入图片描述
混元Captioner对图片描述进行结构化与准确度提升
在这里插入图片描述
混元Captioner的背景知识更为完善

混元Captioner模型针对文生图场景专门进行优化:构建了结构化的图片描述体系;并在模型层面,通过注入人工标注、模型输出、公开数据等多种来源提升Caption描述的完整性;并注入知名文学作品形象、地标、食物、动物、中国元素与知识等大量背景知识,让模型输出的描述更为准确、完整。
在这里插入图片描述
混元Captioner模型构建了结构化的图片描述体系

众多开发者关注,成最受欢迎国产DiT开源模型

作为首个中文原生DiT开源模型,混元DiT自全面开源以来,一直持续建设生态。6月,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%;并进一步开源了推理代码;发布LoRA和ControlNet等插件。于此同时,模型易用性大幅提升,用户可以通过Hugging Face Diffusers快讯调用混元DiT模型及其插件,或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。

目前,在众多开发者的支持下,混元DiT发布不到2个月,Github Star数已经超过2.6k,成为最受欢迎的国产DiT开源模型。
在这里插入图片描述
腾讯混元开源文生图大模型相关链接:

官网:https://dit.hunyuan.tencent.com/

代码:https://github.com/Tencent/HunyuanDiT

模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

标签:显存,混元,文生,模型,Captioner,开发者,DiT
From: https://blog.csdn.net/m0_49464000/article/details/142486757

相关文章

  • 本地部署Flux.1神级文生图大模型!ComfyUI一键整合包,开源,效果惊艳 Midjourney!
    你是否曾经怀揣着将脑海中奇幻世界化作精美画作的梦想?在AI绘画的领域中,工具的选择至关重要。或许你一直在寻觅一个能够替代Midjourney、DALL-E3等工具的替代品,尽管这些工具功能强大,但通常需要通过特定平台进行访问,而且可能涉及付费使用。FLUX.1是由BlackForestLabs精心研发的AI图......
  • 芝士AI论文写作|开题报告、论文生成、降重、降AI、答辩PPT
    芝士AI,免费论文查重软件,为毕业生提供专业的AI论文生成、强力降重、AIGC降低、论文重复率检测、论文降重、学术查重、学术检测、PPT生成、学术论文观点剽窃检测等一站式服务。免费论文查重_芝士AI(PaperZZ)论文检测__PaperZZ论文查重是不是还挺好?格式规范,中英文摘要、引言、参考......
  • 为大模型提供服务需要多少 GPU 显存?
    在几乎所有的LLM面试中,有一个问题总是会被提及:“**为大模型提供服务需要多少GPU显存?**”这不仅仅是一个随机的问题——它是一个关键指标,反映了你对这些强大模型在生产环境中部署和可扩展性的理解程度。当你使用GPT、LLaMA或任何其他LLM时,了解如何估算所需的GPU内存是至......
  • 最新文生图神器「FLUX.1」一键整合包下载
    AI文生图「StableDiffusion」其中的一位开发者独立创业新公司BlackForestLab黑森林实验室,开发了一款新的文生图模型项目「FLUX.1」并且支持中文输入,拥有超强的语言理解和文本控制能力,共3款图片生成模型,其中有2个开源。FLUX.1[pro]:闭源版本,只能通过API调用。FLUX.1......
  • (6-2-02)模型训练:文生图大模型的训练策略(2)对比学习+数据增强+迁移学习
    6.2.4 对比学习对比学习(ContrastiveLearning)通过构造正负样本对,让模型学习到不同模态之间的相似性和差异性。例如,在“图像-文本”匹配任务中,可以使用对比学习方法让模型区分匹配和不匹配的“图像-文本”对。请看下面的例子,演示了使用对比学习方法训练模型来学习“图像-文......
  • 构建自己的文生图工具:Python + Stable Diffusion + CUDA
    构建自己的文生图工具:Python+StableDiffusion+CUDA前言概述环境搭建安装PyTorch安装StableDiffusion编写Python代码结论结语前言  在这个数字化和人工智能飞速发展的时代,图像生成技术正逐渐成为现实。想象一下,只需输入几个关键词,计算机就能创造出一幅栩栩如......
  • 掌握文生视频提示词公式,让你的AI视频作品活起来!
    大家好,我是Shelly,一个专注于输出AI工具和科技前沿内容的AI应用教练,体验过300+款以上的AI应用工具。关注科技及大模型领域对社会的影响10年+。关注我一起驾驭AI工具,拥抱AI时代的到来。亲爱的朋友们,今天,我要和大家分享一个全能的文生视频提示词公式。这个公式就像是一把钥匙,能......
  • 文生 AI 短视频的发展会对社会和文化产生哪些影响?
    文生AI短视频的发展会对社会和文化产生多方面的影响:积极影响:丰富文化内容与形式:极大地丰富了文化创作的素材与表现形式。比如能将历史故事、神话传说等通过生动的短视频呈现,像利用AI技术制作的关于古代神话人物的短视频系列,让观众更直观地了解传统文化。以“AI修复老北......
  • 大人,文生图的时代又变了!SD核心成员自立门户,首个模型FLUX.1硬刚SD 3和Midjourney
    :::hljs-center作者:李宝珠,xixi编辑:李宝珠HyperAI超神级官网(hyper.ai)的教程版块现已上线「FLUXComfyUI(含黑神话悟空LoRA训练版)」,一键部署,速来体验文生图顶流!:::长久以来,从艺术风格多样化的Midjourney,到背靠OpenAI的DALL-E,再到开源的StableDiffusion(简称SD),文......
  • AI绘画:24最新ComfyUI文生图食用指南,学不会你来找我!
    前言ComfyUI作为一款基于StableDiffusion的节点式操作界面,为用户提供了一个更加灵活和高效的文生图(文本生成图像)创作环境。本篇博客将详细介绍如何使用ComfyUI进行文生图操作,无论你是初学者还是有一定基础的用户,都能够通过本指南快速上手。书接上文,香型大家已经完成了Sta......