gguf

2024-11-14如何打造你的AI大模型：开源大模型指南
本地大语言模型为什么要用开源模型大语言模型有两种类型：闭源的模型，如GPT-3.5、GPT-4、Cluade、文心一言等开源的模型，如LLaMA、ChatGLM,Qianwen等开源模型的优势已知目前最强的gpt4等大模型是商用闭源的，这些模型参数更大，更加智能，为什么我们会关注开源模型呢？可
2024-11-07制作并量化GGUF模型上传到HuggingFace和ModelScope
llama.cpp是Ollama、LMStudio和其他很多热门项目的底层实现，也是GPUStack所支持的推理引擎之一，它提供了GGUF模型文件格式。GGUF(GeneralGaussianU-NetFormat)是一种用于存储模型以进行推理的文件格式，旨在针对推理进行优化，可以快速加载和运行模型。llama.cpp还支持量
2024-11-07制作并量化GGUF模型上传到HuggingFace和ModelScope
llama.cpp是Ollama、LMStudio和其他很多热门项目的底层实现，也是GPUStack所支持的推理引擎之一，它提供了GGUF模型文件格式。GGUF(GeneralGaussianU-NetFormat)是一种用于存储模型以进行推理的文件格式，旨在针对推理进行优化，可以快速加载和运行模型。llama.cpp还支持量
2024-09-24【ComfyUI工作流】神级AI文生图Flux.1本地一键部署整合包，6G显存NSFW版本
FLUX.1是由BlackForestLabs精心研发的AI图像生成模型，其强大的文本到图像的转换能力，让梦想变得触手可及。然而，FLUX.1模型对硬件的要求极为苛刻，尤其是显存需求高达42GB，这使得大多数普通用户难以直接运行该模型。为了解决这一难题，开发者们推出了FLUX.1GGUF版本。GGUF（GPT-Generated
2024-09-23本地部署Flux.1神级文生图大模型！ComfyUI一键整合包，开源，效果惊艳 Midjourney!
你是否曾经怀揣着将脑海中奇幻世界化作精美画作的梦想？在AI绘画的领域中，工具的选择至关重要。或许你一直在寻觅一个能够替代Midjourney、DALL-E3等工具的替代品，尽管这些工具功能强大，但通常需要通过特定平台进行访问，而且可能涉及付费使用。FLUX.1是由BlackForestLabs精心研发的AI图
2024-09-14GGUF大模型文件格式
GGUF大模型文件格式https://www.datalearner.com/blog/1051705718835586 大语言模型的开发通常使用PyTorch等框架，其预训练结果通常也会保存为相应的二进制格式，如pt后缀的文件通常就是PyTorch框架保存的二进制预训练结果。但是，大模型的存储一个很重要的问题是它的模型文件巨
2024-08-20gguf格式量化方法
gguf格式下，各种量化方法后的支持情况，及运行速度LibraryCPU(AVX2)CPU(ARMNEON)MetalcuBLASrocBLASSYCLCLBlastVulkanKomputeK-quants✅✅✅✅✅✅✅慢✅慢✅I-quants✅慢✅慢✅慢✅✅Partial¹✅✅✅Multi-GPUN/AN/AN/A✅❓✅
2024-08-18Flux GGUF 和 NF4v2
要知道，Flux社区目前最流行的就是fp8版本，因为它要求的资源不多还能生成不错的效果。5天前，ControlNet作者才发布了 flux1-nf4，一种比fp8效率高质量好的新模型，就在昨天就更新到 nf4v2 版本了，除了比v1大了0.5G外，质量和速度又提升了，如果想要在ComfyUI中使用，需要
2024-08-18维基百科向量搜索；简单易用的GraphRAG实现；友好的人工智能助手；AI的音乐多模态
✨1:SemanticSearchonWikipedia维基百科向量搜索为了证明UpstashVector的可扩展性，Upstash在一个数据库中以11种语言（144m向量）索引了整个维基百科◆超过700GB的数据◆快速语义搜索◆与维基百科聊天为您提供了一款可扩展
2024-08-11LLaMA-Factory微调llama3之模型的合并，并采用llama.cpp量化成ollama支持的gguf格式模型，生成api使用
上期我们已经成功的训练了模型，让llama3中文聊天版知道了自己的名字这次我们从合并模型开始，然后使用llama.cpp量化成gguf格式，并且调用api(1)前期准备上期链接：基于LLaMA-Factory微调llama3成为一个角色扮演大模型，保姆级教学零基础，导出GGUF格式前篇-CSDN博客首先根据上期
2024-07-30Ollama+GGUF离线加载本地模型
一般在使用Ollama下载模型时，都是从Ollama官方仓库下载（使用ollamarun命令），但一些环境下，受限于网速等原因使用这种方式可能会非常慢甚至无法下载，所以我们可以选择使用Huggingface上的GGUF文件，在Ollama仓库里的模型都可以在Huggingface上找到，因此我们可以使用Ollama+GGUF文件离线
2024-07-29一个小时内快速部署大模型
这个教程有以下几部分构成：硬件配置概念介绍实操测试结果1.硬件配置本文使用的方法配置要求低，没有gpu也可以正常使用(就是有点慢)，不管是windows还是linux，都可以无障碍使用大模型，有脚就行，废话少说，let'srock!2.概念介绍几个部署要用到的概念，工具和项目huggingface:
2024-07-22使用Ollama部署非官方仓库模型（Windows）
一、从GitHub拉去llama.cpp项目gitclonehttps://github.com/ggerganov/llama.cpp下载完成后在当前目录的路径输入cmd,进入命令行二、安装python执行的相关依赖执行pipinstall-rrequirements.txt三、下载模型文件依赖安装成功后开始转换模型这里以魔塔上的C
2024-07-17llama.cpp 转化 gguf 文件
概览llama.cpp自带转化工具，把safetensor格式的模型文件转化为gguf格式，方便用cpu进行推理。需要注意的是，必须连带下载和safetensor格式相关的一些配置文件，故转化文件对准的是一个目录。但同时还要注意，有时模型作者为同一个模型保存了多种框架应用的模型文件，这些文件是
2024-07-13使用llama.cpp量化模型
文章目录概要整体实验流程技术细节小结概要大模型量化是指在保持模型性能尽可能不变的情况下，通过减少模型参数的位数来降低模型的计算和存储成本。本次实验环境为魔搭社区提供的免费GPU环境（24G），使用Llama.cpp进行4bit量化可以大幅减少大语言模型的内存占用，并提高推理
2024-06-18【ai】如何在ollama中随意使用hugging face上的gguf开源模型
【背景】ollama的pull命令可以直接pullollama列表中现有的模型，但是ollama可以直接pull的模型大都是英语偏好（llama2有直接可以pull的chinese版本），而huggingface上则有大量多语种训练的模型，如果能直接使用huggingface上的gguf开源模型，那就自由多了，本篇介绍方法。【命令】
2024-05-31[机器学习]-如何在 MacBook 上安装 LLama.cpp + LLM Model 运行环境
如何在MacBook上安装LLama.cpp+LLMModel运行环境1.问题与需求近段时间想学习一下大语言模型的本地化部署与应用。首先遇到的就是部署硬件环境的问题。我自己的笔记本是一台MacBookProM3，没有Nvidia的GPU支持，但机器性能不错。所以打算根据网上资料尝试在自己
2024-05-16GGUF构建ollama模型, 模型怎么量化成GGUF格式
GGUF构建ollama模型https://zhuanlan.zhihu.com/p/689555159https://www.cnblogs.com/ghj1976/p/18063781/ollama-yun-xing-gguf-mo-xing 模型怎么量化成GGUF格式https://zhuanlan.zhihu.com/p/689555159 Tool：文字生成图片、代码差异比较器、HTML查错器、Llama3在线Link
2024-05-12玩转AI，笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端
2024年4月18日，Meta开源了Llama3大模型，把AI的门槛降低到了最低，这是人工智能领域的一个重要飞跃。我们个人也可以部署大模型了，这简直就是给个人开发者发了个大红包！Llama3模型有不同的参数版本，本文主要分享我在个人笔记本电脑是部署8B参数过程和编写客户端，让我们大家
2024-03-15deepseek-coder模型量化
简介DeepSeek-Coder在多种编程语言和各种基准测试中取得了开源代码模型中最先进的性能。为尝试在开发板进行部署，首先利用llama.cpp对其进行量化。llama.cpp安装gitclone之后进入文件夹make即可，再将依赖补全pipinstall-rrequirements.txt量化可以将模型文件放到lla
2024-03-10Ollama 运行 GGUF 模型
Ollama默认直接支持很多模型，只需要简单的使用ollamarun命令，示例如下：ollamarungemma:2b就可安装、启动、使用对应模型。可直接支持的模型看：https://ollama.com/library在https://huggingface.co/models上有数万的模型，Ollama默认支持的不可能全部覆盖，那如何支持其它模型
2024-03-09GGUF 模型
在HuggingFace上，我们时不时就会看到GGUF后缀的模型文件，它是如何来的？有啥特点？https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGUFGGUF由来GeorgiGerganov（https://github.com/ggerganov）是著名开源项目llama.cpp（(https://github.com/ggerganov/llama.cpp)）的创始人，它最大的
2023-11-26ggml教程|mnist手写体识别量化推理
title:ggml教程|mnist手写体识别量化推理banner_img:https://cdn.studyinglover.com/pic/2023/11/fa14d6dfd95fb9d38276a50a5519e2d2.webpdate:2023-11-1218:49:00ggml教程|mnist手写体识别量化推理MNIST手写体识别是经典的机器学习问题，可以被称作机器学习的helloworld