- 2025-01-03HuatuoGPT-o1-7B:利用大型语言模型解锁高级医学推理
导言HuatuoGPT-o1是一种开创性的医学大语言模型(LLM),正在医疗保健领域掀起一场革命。该模型由FreedomIntelligence设计,专为高级医疗推理量身定制,为医疗保健相关查询提供了一种复杂的方法。机型概览HuatuoGPT-o1-7B模型是基于Qwen2.5-7B架构构建的,Qwen2.5-7B是一款功能强
- 2025-01-02LLM2Vec: 解锁大语言模型的隐藏能力
LLM2Vec:重新定义大语言模型在自然语言处理中的应用一种名为**LLM2Vec**的新方法正在改变我们对大语言模型(LLMs)在自然语言处理(NLP)中的使用方式。研究人员提出了一种创新方法,将通常仅用于生成文本的大型语言模型转化为更强大的文本理解和组织工具。这项技术有可能颠覆我们
- 2025-01-01Nice!使用开源工具组建一个AI编码小助手
“ Ollama 是一个致力于推动本地人工智能模型开发和应用的工具和平台,允许用户在本地运行、管理和调用各种AI模型。它的核心理念是提供一种无需依赖云计算环境的方式,让开发者和企业能够高效地使用AI模型,同时确保数据隐私和安全。” 本次使用O
- 2024-12-18TensorRT-LLM 调整和部署 LoRA
TensorRT-LLM调整和部署LoRANVIDIA开发者计划想要了解有关NIM的更多信息?加入NVIDIA开发者计划,即可免费访问任何基础设施云、数据中心或个人工作站上最多16个GPU上的自托管NVIDIANIM和微服务。加入免费的NVIDIA开发者计划后,您可以随时通过NVIDIAAPI目
- 2024-12-17NX-AI xLSTM-7b 的崛起:大型语言模型的革命性变革
奥地利研究公司NX-AI最近发布了突破性的xLSTM-7b模型,展示了xLSTM架构的巨大潜力。即使不进行微调,这个预训练模型也能迅速跃升为7B模型联盟中的佼佼者。在下一个单词预测任务和大规模多任务语言理解(MMLU)等标准基准测试中,它的卓越性能显而易见。速度与效率的力量xLS
- 2024-11-30聊聊普通工程师如何入坑大模型 | 附超详细教程!
前几天,跟强哥一起吃饭。他说,大模型的技术,真是太好玩了!他买了一台超高配置的游戏本,本来是想买回来打游戏放松放松的。结果后来发现,玩大模型的技术,比打游戏好玩太多了!我连连表示赞同,不错不错,关键是游戏本没白买啊,跑大模型正好也用得上
- 2024-11-30书生大模型第四期 | 基础岛 task5 XTuner 微调个人小助手认知任务(包含swanlab可视化与模型上传modelscope)
目录环境配置与数据准备**步骤0.使用conda先构建一个Python-3.10的虚拟环境****步骤1.**安装XTuner验证安装修改提供的数据**步骤0.**创建一个新的文件夹用于存储微调数据**步骤1.**编辑&执行脚本**步骤3.**查看数据训练启动**步骤0.**复制模型**步骤
- 2024-11-29中国大模型大全
首页 笔记首页 Android ES6教程 排序算法 Hadoop Zookeeper Verilog 编程技术 程序员人生中国大模型大全分类 编程技术中国大模型大全,全面收集有明确来源的大模型情况,包括机构、来源信息和分类等。序号公司大模型
- 2024-11-28主流开源大模型基于Server适配PyTorch NPU推理指导- 推理场景介绍
方案概览本方案介绍了在ModelArts的LiteDevServer上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件,为用户提供推理部署方案,帮助用户使能大模型业务。
- 2024-11-24【拥抱AI】对比embedding模型gte-Qwen2-7B-instruct和bge-m3:latest(三)
为了更全面地评估gte-Qwen2-7B-instruct和bge-m3:latest的性能,我们可以从以下几个方面进行详细比较:1.模型架构和规模gte-Qwen2-7B-instruct架构:基于Transformer的大型语言模型。参数量:7B参数,具有较强的表达能力和泛化能力。训练数据:经过大量指令-响应对的训练,特别适
- 2024-11-24CF 1638 题解
CF1638题解AReverse贪心的想,找到第一个\(a_i\not=i\)的位置,然后操作\([i,pos_{a_i}]\)这个区间即可.BOddSwapSort由于只能交换奇数和偶数,奇数偶数内部的相对位置不能改变,因此合法的充要条件是奇数之间已经有序,偶数亦然.CInversionGraph由于有效树边只
- 2024-11-23Drools决策表实践运用
决策表使用方式在Drools中,决策表通常是以Excel(.xls或.xlsx)或者CSV格式存储的,这些格式的决策表并不能直接被Drools执行。它们需要被转换成Drools规则语言(DRL)的文本格式,之后才能被编译和执行。Drools提供了工具来帮助完成这一转换,主要使用org.drools.decisiontable.SpreadsheetCompi
- 2024-10-26基于AIACC加速器快速实现LLaMA-7B指令微调
本文基于Alpaca提供了一套LLaMA-7B模型在阿里云ECS上进行指令微调的训练方案,最终可以获得性能更贴近具体使用场景的语言模型。背景信息LLaMA(LargeLanguageModelMetaAI )是MetaAI在2023年2月发布的开放使用预训练语言模型(LargeLanguageModel,LLM),其参数量包含7B到65B的
- 2024-10-12Qwen2.5-Coder——专门从事代码生成、完成和数学推理任务的 LLM
1.概述论文地址:https://arxiv.org/pdf/2409.12186源码地址:https://github.com/qwenlm/qwen2.5-coderQwen2.5-Coder是其前身CodeQwen1.5的重大演进,专门设计用于执行代码生成和代码修改等编程相关任务。该系列包括两个型号,参数分别为15亿(15亿)和70亿(70亿)。2.算法
- 2024-09-25baichuan_lmdeploy大规模对话问答语言模型
Baichuan论文无模型结构Baichuan系列模型是由百川智能开发的开源大规模预训练模型,包含7B和13B等规模。其中,Baichuan-7B在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。模型具体参数:模型名称隐含层维度层数头数词表大小总参数量训练数据(toke
- 2024-09-18网络安全智能助手
背景本项目利用阿里云平台的英特尔G8i以及通义千问-7B大模型,更加高效,更加便捷,拥有更高的效率。通义千问-7B(Qwen-7B)是基于Trabsformer的大语言模型,在其基础上使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。阿里云第八代实例G8i采用Intel®Xeon®EmeraldRapids以及Intel
- 2024-09-14开源模型应用落地-qwen2-7b-instruct-LoRA微调-unsloth(让微调起飞)-单机单卡-V100(十七)
一、前言 本篇文章将在v100单卡服务器上,使用unsloth去高效微调QWen2系列模型,通过阅读本文,您将能够更好地掌握这些关键技术,理解其中的关键技术要点,并应用于自己的项目中。 使用unsloth能够使模型的微调速度提高2-5倍。在处理大规模数据或对时间要求较高的场景下
- 2024-09-12课程题目生成工具V1.0
服务器本工具使用阿里云八代实例(g8i)+xFasterTransformer+Qwen-7B-Chat模型搭建而成通义千问-7B(Qwen-7B-Chat)本工具基于通义千问-7B进行开发,通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模模型。Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上