fp8
  • 2024-08-31本地部署 Flux.1 最强文生图大模型!Comfyui 一键安装
    前言最近,由前StabilityAI员工创立的黑森林实验室推出了开源文生图大模型–FLUX.1横空出世。FLUX.1在文字生成、复杂指令遵循和人手生成上具备优势。以下是其生成图像示例,可以看到即使是生成大段的文字、多个人物,也没有出现字符、人手等细节上的错误。有了SD的经验,可以
  • 2024-08-30基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型
    过去的几个月,我们目睹了使用基于transformer模型作为扩散模型的主干网络来进行高分辨率文生图(text-to-image,T2I)的趋势。和一开始的许多扩散模型普遍使用UNet架构不同,这些模型使用transformer架构作为扩散过程的主模型。由于transformer的性质,这些主干网络表现出了良好
  • 2024-08-18Flux GGUF 和 NF4v2
    要知道,Flux社区目前最流行的就是fp8版本,因为它要求的资源不多还能生成不错的效果。5天前,ControlNet作者才发布了 flux1-nf4,一种比fp8效率高质量好的新模型,就在昨天就更新到 nf4v2 版本了,除了比v1大了0.5G外,质量和速度又提升了,如果想要在ComfyUI中使用,需要 
  • 2024-08-15编写程序打印所有 FP8(E4M3)格式的浮点数
    FP8(e4m3)是一种浮点数表示格式,其中:e4表示有4位用于指数。m3表示有3位用于尾数(即有效数字)。为了生成并打印所有FP8(e4m3)格式的浮点数,我们需要了解这个格式的细节。FP8(e4m3)的格式可以分解为:符号位(1位)指数(4位)尾数(3位)我们可以用以下步骤来生成所有可能
  • 2024-07-23万字综述:全面梳理 FP8 训练和推理技术 -- 附录
    万字综述:全面梳理FP8训练和推理技术--附录原创 AI闲谈 AI闲谈 2024年07月21日20:02 北京一、背景在上一篇文章(万字综述:全面梳理FP8训练和推理技术)中我们通过几篇论文具体介绍了FP8的发展历程以及在AI模型训练和推理中的应用。然而由于篇幅的原因,部分内容并没
  • 2024-06-06英特尔发布了性能最强的新一代Gaudi3 Al算力加速芯片
    英特尔发布的性能最强的新一代Gaudi3AI加速芯片具有显著的性能提升和多项优势。以下是关于该芯片的详细信息和特点:性能提升:与NVIDIAH100GPU相比,Gaudi3在推理速度上提高了50%,效率提高了40%。在算力训练性能方面,与NVIDIAH100相比,Gaudi3提高了170%。FP8AI计算性能是
  • 2024-06-06AMD的旗舰AI加速器推出MI325X对标Nvidia H200
    ​AMD计划于今年晚些时候推出旗舰AI加速器MI325X,提供更高的带宽。这次发布意味着AMD正在跟随Nvidia的模式,转向了“Instinct”加速器系列的年度发布节奏。据目前了解的信息,InstinctMI325X与Nvidia的H200非常相似,是AMD在去年12月AdvancingAI活动中详细介绍的GPU的HBM3e增强版。
  • 2024-05-24使用FP8加速PyTorch训练的两种方法总结
    在PyTorch中,FP8(8-bit浮点数)是一个较新的数据类型,用于实现高效的神经网络训练和推理。它主要被设计来降低模型运行时的内存占用,并加快计算速度,同时尽量保持训练和推理的准确性。虽然PyTorch官方在标准发布中尚未全面支持FP8,但是在2.2版本中PyTorch已经包含了对FP8的“有限支持”并