GGUF

2024-12-11Unsloth更快训练大模型并导出GGUF - Windows
环境搭建系统环境需要Nvidia显卡，至少8G显存，且专用显存与共享显存之和大于20G建议将非安装版的环境文件都放到非系统盘，方便重装或移植以Windows11为例，非安装环境文件都放在E盘下设置自定义Path文件夹创建E:\mypath文件夹，将其添加进用户环境变量Path中，之后会用CMake下载
2024-12-01将本地的.gguf文件导入ollama
文章目录1.创建Modelfile文件2.使用ollama进行导入2.1启动ollama服务2.2导入模型2.3运行模型1.创建Modelfile文件并写入FROM./model.gguf将./model.gguf换成自己的模型文件地址，最好是吧Modelfile文件跟model.gguf放在一起2.使用ollama进行导入2.1启动olla
2024-11-25介绍 GGUF-my-LoRA
随着llama.cpp对LoRA支持的重构，现在可以将任意PEFTLoRA适配器转换为GGUF，并与GGUF基础模型一起加载运行。为简化流程，我们新增了一个名为GGUF-my-LoRA的平台。什么是LoRA？LoRA（Low-RankAdaptation，低秩适配）是一种用于高效微调大型语言模型的机器学习技术。可以将LoR
2024-12-05springboot学生评奖评优管理系统的设计与实现(代码+数据库+LW)
摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了学生评奖评优管理系统的开发全过程。通过分析学生评奖评优管理系统管理的不足，创建了一个计算机管理学生评奖评优管理系统的方案。文章介绍了学生评奖评优管理系统的系统分析
2024-11-28支持超线程的numa架构
支持超线程的numa架构物理硬件视角，将多个CPU封装在一起，这个封装被称为插槽Socket；Core是socket上独立的硬件单元；通过intel的超线程HT技术进一步提升CPU的处理能力，OS看到的逻辑上的核Processor的数量。每个硬件线程都可以按逻辑cpu寻址，因此这个处理器看上去有八块cpu。
2024-11-28schoolcms代码审计
sql注入注入点：burp的数据包：POST/index.php?m=Admin&c=Article&a=DeleteHTTP/1.1Host:schoolcmsUpgrade-Insecure-Requests:1User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/125.0.6422.112Safari/537.36
2024-09-24【ComfyUI工作流】神级AI文生图Flux.1本地一键部署整合包，6G显存NSFW版本
FLUX.1是由BlackForestLabs精心研发的AI图像生成模型，其强大的文本到图像的转换能力，让梦想变得触手可及。然而，FLUX.1模型对硬件的要求极为苛刻，尤其是显存需求高达42GB，这使得大多数普通用户难以直接运行该模型。为了解决这一难题，开发者们推出了FLUX.1GGUF版本。GGUF（GPT-Generated
2024-09-14GGUF大模型文件格式
GGUF大模型文件格式https://www.datalearner.com/blog/1051705718835586 大语言模型的开发通常使用PyTorch等框架，其预训练结果通常也会保存为相应的二进制格式，如pt后缀的文件通常就是PyTorch框架保存的二进制预训练结果。但是，大模型的存储一个很重要的问题是它的模型文件巨
2024-08-20gguf格式量化方法
gguf格式下，各种量化方法后的支持情况，及运行速度LibraryCPU(AVX2)CPU(ARMNEON)MetalcuBLASrocBLASSYCLCLBlastVulkanKomputeK-quants✅✅✅✅✅✅✅慢✅慢✅I-quants✅慢✅慢✅慢✅✅Partial¹✅✅✅Multi-GPUN/AN/AN/A✅❓✅
2024-08-18Flux GGUF 和 NF4v2
要知道，Flux社区目前最流行的就是fp8版本，因为它要求的资源不多还能生成不错的效果。5天前，ControlNet作者才发布了 flux1-nf4，一种比fp8效率高质量好的新模型，就在昨天就更新到 nf4v2 版本了，除了比v1大了0.5G外，质量和速度又提升了，如果想要在ComfyUI中使用，需要
2024-08-18维基百科向量搜索；简单易用的GraphRAG实现；友好的人工智能助手；AI的音乐多模态
✨1:SemanticSearchonWikipedia维基百科向量搜索为了证明UpstashVector的可扩展性，Upstash在一个数据库中以11种语言（144m向量）索引了整个维基百科◆超过700GB的数据◆快速语义搜索◆与维基百科聊天为您提供了一款可扩展
2024-08-11LLaMA-Factory微调llama3之模型的合并，并采用llama.cpp量化成ollama支持的gguf格式模型，生成api使用
上期我们已经成功的训练了模型，让llama3中文聊天版知道了自己的名字这次我们从合并模型开始，然后使用llama.cpp量化成gguf格式，并且调用api(1)前期准备上期链接：基于LLaMA-Factory微调llama3成为一个角色扮演大模型，保姆级教学零基础，导出GGUF格式前篇-CSDN博客首先根据上期
2024-07-30Ollama+GGUF离线加载本地模型
一般在使用Ollama下载模型时，都是从Ollama官方仓库下载（使用ollamarun命令），但一些环境下，受限于网速等原因使用这种方式可能会非常慢甚至无法下载，所以我们可以选择使用Huggingface上的GGUF文件，在Ollama仓库里的模型都可以在Huggingface上找到，因此我们可以使用Ollama+GGUF文件离线
2024-07-29一个小时内快速部署大模型
这个教程有以下几部分构成：硬件配置概念介绍实操测试结果1.硬件配置本文使用的方法配置要求低，没有gpu也可以正常使用(就是有点慢)，不管是windows还是linux，都可以无障碍使用大模型，有脚就行，废话少说，let'srock!2.概念介绍几个部署要用到的概念，工具和项目huggingface:
2024-07-22使用Ollama部署非官方仓库模型（Windows）
一、从GitHub拉去llama.cpp项目gitclonehttps://github.com/ggerganov/llama.cpp下载完成后在当前目录的路径输入cmd,进入命令行二、安装python执行的相关依赖执行pipinstall-rrequirements.txt三、下载模型文件依赖安装成功后开始转换模型这里以魔塔上的C
2024-07-17llama.cpp 转化 gguf 文件
概览llama.cpp自带转化工具，把safetensor格式的模型文件转化为gguf格式，方便用cpu进行推理。需要注意的是，必须连带下载和safetensor格式相关的一些配置文件，故转化文件对准的是一个目录。但同时还要注意，有时模型作者为同一个模型保存了多种框架应用的模型文件，这些文件是
2024-07-13使用llama.cpp量化模型
文章目录概要整体实验流程技术细节小结概要大模型量化是指在保持模型性能尽可能不变的情况下，通过减少模型参数的位数来降低模型的计算和存储成本。本次实验环境为魔搭社区提供的免费GPU环境（24G），使用Llama.cpp进行4bit量化可以大幅减少大语言模型的内存占用，并提高推理
2024-06-18【ai】如何在ollama中随意使用hugging face上的gguf开源模型
【背景】ollama的pull命令可以直接pullollama列表中现有的模型，但是ollama可以直接pull的模型大都是英语偏好（llama2有直接可以pull的chinese版本），而huggingface上则有大量多语种训练的模型，如果能直接使用huggingface上的gguf开源模型，那就自由多了，本篇介绍方法。【命令】
2024-05-31[机器学习]-如何在 MacBook 上安装 LLama.cpp + LLM Model 运行环境
如何在MacBook上安装LLama.cpp+LLMModel运行环境1.问题与需求近段时间想学习一下大语言模型的本地化部署与应用。首先遇到的就是部署硬件环境的问题。我自己的笔记本是一台MacBookProM3，没有Nvidia的GPU支持，但机器性能不错。所以打算根据网上资料尝试在自己
2024-05-16GGUF构建ollama模型, 模型怎么量化成GGUF格式
GGUF构建ollama模型https://zhuanlan.zhihu.com/p/689555159https://www.cnblogs.com/ghj1976/p/18063781/ollama-yun-xing-gguf-mo-xing 模型怎么量化成GGUF格式https://zhuanlan.zhihu.com/p/689555159 Tool：文字生成图片、代码差异比较器、HTML查错器、Llama3在线Link
2024-05-12玩转AI，笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端
2024年4月18日，Meta开源了Llama3大模型，把AI的门槛降低到了最低，这是人工智能领域的一个重要飞跃。我们个人也可以部署大模型了，这简直就是给个人开发者发了个大红包！Llama3模型有不同的参数版本，本文主要分享我在个人笔记本电脑是部署8B参数过程和编写客户端，让我们大家
2024-03-15deepseek-coder模型量化
简介DeepSeek-Coder在多种编程语言和各种基准测试中取得了开源代码模型中最先进的性能。为尝试在开发板进行部署，首先利用llama.cpp对其进行量化。llama.cpp安装gitclone之后进入文件夹make即可，再将依赖补全pipinstall-rrequirements.txt量化可以将模型文件放到lla
2024-03-10Ollama 运行 GGUF 模型
Ollama默认直接支持很多模型，只需要简单的使用ollamarun命令，示例如下：ollamarungemma:2b就可安装、启动、使用对应模型。可直接支持的模型看：https://ollama.com/library在https://huggingface.co/models上有数万的模型，Ollama默认支持的不可能全部覆盖，那如何支持其它模型
2024-03-09GGUF 模型
在HuggingFace上，我们时不时就会看到GGUF后缀的模型文件，它是如何来的？有啥特点？https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGUFGGUF由来GeorgiGerganov（https://github.com/ggerganov）是著名开源项目llama.cpp（(https://github.com/ggerganov/llama.cpp)）的创始人，它最大的