13B

2024-11-13huggingface-cli下载数据（含国内镜像源方法）
huggingface-cli是HuggingFace官方提供的命令行工具，自带完善的下载功能。安装依赖pipinstall-Uhuggingface_hub设置环境变量linux建议将上面这一行写入~/.bashrc。若没有写入，则每次下载时都需要先输入该命令exportHF_ENDPOINT=https://hf-mirror.com下载模型样例
2024-11-08Me-LLaMA——用于医疗领域的新型开源大规模语言模型
摘要大规模语言模型的出现是提高病人护理质量和临床操作效率的一个重大突破。大规模语言模型拥有数百亿个参数，通过海量文本数据训练而成，能够生成类似人类的反应并执行复杂的任务。这在改进临床文档、提高诊断准确性和管理病人护理方面显示出巨大的潜力。然而，像ChatGPT和
2024-10-17Chinese-LLaMA-Alpaca-2: 新一代开源中文大语言模型
Chinese-LLaMA-Alpaca-2:新一代开源中文大语言模型近日,由哈尔滨工业大学讯飞联合实验室推出的Chinese-LLaMA-Alpaca-2项目引起了广泛关注。该项目是中文LLaMA&Alpaca大模型的第二期,基于Meta发布的可商用大模型Llama-2进行开发,推出了一系列全新的中文大语言模型。本文将对这个
2024-09-10Baichuan-13B 大模型的网络带货博客
Baichuan-13B是由百川智能继Baichuan-7B之后开发的包含130亿参数的开源可商用的大规模语言模型，在权威的中文和英文benchmark上均取得同尺寸最好的效果。本次发布包含有预训练(Baichuan-13B-Base)和对齐(Baichuan-13B-Chat)两个版本。Baichuan-13B有如下几个特点：更大尺寸
2024-09-03英伟达™（NVIDIA®）发布 NVEagle：超级震撼的视觉语言模型，7B、13B 和 13B 聊天微调版
多模态大型语言模型（MLLM）是人工智能领域的一次重大飞跃，它将视觉信息和语言信息结合起来，能够更好地理解和解释复杂的现实世界场景。这些模型旨在观察、理解和推理视觉输入，使其在光学字符识别（OCR）和文档分析任务中发挥无价之宝的作用。这些MLLM的核心在于它们的视觉编码器，可
2024-06-03【文末附gpt升级秘笈】关于论文“7B？13B？175B？解读大模型的参数的论文
论文大纲引言简要介绍大模型（深度学习模型）的概念及其在各个领域的应用。阐述参数（Parameters）在大模型中的重要性，以及它们如何影响模型的性能。引出主题：探讨7B、13B、175B等参数规模的大模型。第一部分：大模型的参数规模定义“B”代表的意义（Billion/十亿）。解释7B、13B、175B等
2024-05-301.1k Star！天工Skywork-13B：性能全面超越LLaMA2、0门槛商用、消费级显卡进行部署和推理！
原文链接：（更好排版、视频播放、社群交流、最新AI开源项目、AI工具分享都在这个公众号！）1.1kStar！天工Skywork-13B：性能全面超越LLaMA2、0门槛商用、消费级显卡进行部署和推理！
2024-04-28LLM优化：开源星火13B显卡及内存占用优化
1.背景本qiang~这两天接了一个任务，部署几个开源的模型，并且将本地经过全量微调的模型与开源模型做一个效果对比。部署的开源模型包括：星火13B，Baichuan2-13B,ChatGLM6B等其他两个模型基于transformers架构封装，因此推理服务启动还是十分丝滑，但星火13B是基于Megatron-DeepSpeed框
2024-04-18NL2SQL实践系列(1)：深入解析Prompt工程在text2sql中的应用技巧
NL2SQL实践系列(1)：深入解析Prompt工程在text2sql中的应用技巧NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进
2024-02-23医疗大模型：数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策，为未来医疗服务提供全新可能性
医疗大模型：数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策，为未来医疗服务提供全新可能性1.指令数据集构建目前大多数开源的ChatLLM项目使用的是其他模型（如：ChatGPT）生成的指令数据，其不可避免的存在数据幻想的问题，数据幻想问题将严重影响LLM在实际场景中的应用
2024-02-23医疗大模型：数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策，为未来医疗服务提供全新可能性
医疗大模型：数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策，为未来医疗服务提供全新可能性1.指令数据集构建目前大多数开源的ChatLLM项目使用的是其他模型（如：ChatGPT）生成的指令数据，其不可避免的存在数据幻想的问题，数据幻想问题将严重影响LLM在实际场景中的应用
2024-02-21探秘SuperCLUE-Safety：为中文大模型打造的多轮对抗安全新框架
探秘SuperCLUE-Safety：为中文大模型打造的多轮对抗安全新框架进入2023年以来，ChatGPT的成功带动了国内大模型的快速发展，从通用大模型、垂直领域大模型到Agent智能体等多领域的发展。但是生成式大模型生成内容具有一定的不可控性，输出的内容并不总是可靠、安全和负责任的。比如当用户
2024-02-02基于Deepspeed实现LLaMA-13B或70B模型的微调
写在前面事实证明，在部分情况下，依然有开启deepspeed的必要性这是上一篇文章，讲述使用双卡/8卡3090微调llama2-70B/13B模型-AlphaInf-博客园(cnblogs.com)但这一篇文章，存在下面的几个问题：如果训练的数据的seq_len过长，那么很有可能出现OOM，无法训练长的数据如果需要调的参数
2024-01-22笔记本也能飞：运行chat大模型
背景在过去的一年，ChatGPT的崛起彻底改变了我们与AI的交互方式。它不再是被动的信息提供者，而是成为了一个可以与我们自由交流、分享知识的伙伴。无论是生活中的琐事，还是工作中的难题，ChatGPT都能给出有价值的建议和信息。同时，ChatGPT也在各个领域引发了深远的变革。在教育领域，Chat
2023-12-23基于TigerBot-13b训练其函数调用能力
写在前面原生的tigerbot似乎并不支持函数调用，于是我来支持一下数据集我在huggingface上找了个英文的数据集https://huggingface.co/datasets/sadmoseby/sample-function-call这里面包含了1k组的函数调用，这个数据集的特点如下:1.包含有单个/多个/没有函数调用的情形2.
2023-12-10使用双卡/8卡3090微调llama2-70B/13B模型
写在前面本篇博文将会教大家如何在消费级的设备（或者各种超级便宜的洋垃圾上）实现13B/70B等无法在单张消费级显卡上加载（但可以在一台机器上的多张卡上加载）的模型的微调。由于绝大部分做实验，仅要求实现推理，或者在微调时没有资源上到全量/13B+级别的真·大模型的微调，没有涉及到将一
2023-12-08超越边界：Mistral 7B挑战AI新标准，全面超越Llama 2 13B
引言在人工智能领域，模型的性能一直是衡量其价值和应用潜力的关键指标。近日，一个新的里程碑被设立：MistralAI发布了其最新模型Mistral7B，它在众多基准测试中全面超越了Llama213B模型，标志着AI技术的一个重大进步。Mistral7BvsLlama213BMistral7B的发布，不仅是一次技术上的突破
2023-11-14大模型训练，推动自然语言处理发展的强大引擎
近年来，自然语言处理（NLP）领域取得了显著的进步，其中最引人注目的成就之一是基于Transformer架构的预训练语言模型。这些模型，如GPT-3，在各种NLP任务中都取得了突破性的成果，包括问答系统。然而，尽管这些模型具有强大的性能，但它们通常需要大量的计算资源和数据来进行训练，这限制了它们的可扩
2023-11-02baichuan2-13b-chat加速
当前加速框架层出不穷，到底哪个能一统天下未可知，那在当前阶段我们加速大模型该选取哪个框架呢。目前存在的大模型加速框架：VLLM，TGI,FasterTransformer,DeepSpeed-MII,FlexFlowServer,LMDeploy等等等等。但是这些框架大部分支持的模型都很少，或只支持英文模型，支持中文模型的更少，目前
2023-09-21LangChain开发环境准备-AI大模型私有部署的技术指南
LangChain开发环境准备-AI大模型私有部署的技术指南今天开始小智将开启系列AI应用开发课程，主要基于LangChain框架基于实战项目手把手教大家如何将AI这一新时代的基础设施应用到自己开发应用中来。欢迎大家持续关注当下在AI应用开发领域，LangChain框架可以说是唯一选择。然而，上
2023-09-04Ziya-LLaMA-13B 模型在GPU 上部署
Ziya-LLaMA-13B模型在GPU上部署Ziya-LLaMA-13B是IDEA-CCNL基于LLaMa的130亿参数的大规模预训练模型，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力。目前姜子牙通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。1.部署准