sft

2024-11-16【大语言模型】ACL2024论文-12 大型语言模型的能力如何受到监督式微调数据组成影响
【大语言模型】ACL2024论文-12大型语言模型的能力如何受到监督式微调数据组成影响论文：https://arxiv.org/pdf/2310.05492目录文章目录【大语言模型】ACL2024论文-12大型语言模型的能力如何受到监督式微调数据组成影响论文：https://arxiv.org/pdf/2310.05492![在这
2024-11-14SFT洗数据，有多少细节？
作者：ybq链接：https://zhuanlan.zhihu.com/p/6497090767最近在清洗sft的数据，不得不说这工作是真磨人啊，细节多到让人抓狂。可能，这就是为什么从业者们都懂得llm的方法论，却依然没几个团队能造出好数据训出好模型吧。借此机会，举个例子给大家聊聊sft数据能有多少繁琐的细
2024-11-10samout sft 推理一本正经的胡说八道已经练成
importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdimporttorchfromglobimportglobfromtqdmimporttqdmfrommodelimportSamOutimportpolarsasplfromcollectionsimportCounterdeftrain():voc=pd.read_pickle("tot
2024-10-26刚面完字节！问了大模型微调SFT，估计凉了
最近这一两周不少互联网公司都已经开始秋招提前批面试了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。总结如下：《大模型面
2024-10-12【面试经验】滴滴大模型面经
本人只做点业务数据sft,做的更加偏向于粗糙业务，直接被拷打麻了，望佬看到可以给我指点一下现在有一个非常完备的sft指令集，你只能选择1w条，你如何选择数据来使模型的能力更加提升+完备？我们知道sft的时候尽量不要注入知识给模型，因为只希望sft可以提升模型的指令遵循的能力，注入
2024-10-09大模型训练显存需求分析指南：从SFT到RLHF的实践之路
引言随着大模型技术的快速发展，越来越多的研究者和开发者开始尝试自己训练或微调大模型。然而，大模型训练最大的门槛之一就是算力资源，特别是GPU显存的需求。本文将从实践角度出发，详细分析大模型训练中的显存需求，帮助读者更好地规划自己的训练资源。显存需求概览在大模型训
2024-10-04LLM模型融合（一）
写文章点击打开江左郎的主页模型融合(ModelMerging)：合理性、常见技术及其特性模型融合(ModelMerging)：合理性、常见技术及其特性段誉段誉武汉大学网络空间安全硕士关注他109人赞同了该文章目录引言开源LLM世界百花齐放，除了通用Base模型、SFT模型之外，另有一类
2024-09-26要不要入行大模型算法啊？
最近又有不少私信问我关于要不要入行大模型之类的问题，年初的时候我写过一篇相同主题的笔记，时隔8个月，今时不同往日，想法确实有些变化，再说一说这个问题。先讨论算法相关的方向，分成三部分吧pretrain、post-training和更偏应用的工作pretrain的机会应该是越来越少了，还能在
2024-09-03【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文
研究背景1.研究问题：这篇文章要解决的问题是如何在现代自动语音识别（ASR）模型中，利用大规模语言模型（LLM）来提高识别准确性，特别是在多领域、多语言、多口音和多种应用场景下。2.研究难点：该问题的研究难点包括：现有端到端模型在数据匹配场景下表现良好，但在处理复杂语境和多语言场景时逐渐接
2024-09-02LongWriter环境安装&推理测试
引子一口气生成2万字，大模型输出也卷起来了！清华&智谱AI最新研究，成功让GLM-4、Llama-3.1输出长度都暴增。相同问题下，输出结果直接从1800字增加到7800字，翻4倍。大模型的生成内容一般都不会太长，这对于内容创作、问题回答等都存在影响，可能导致模型回答问题不全面、创造性能降低等。L
2024-08-27Llama3技术文档
Introduction基础模型开发包含两个阶段：预训练阶段（apre-trainingstage）。以简单的任务如预测下一个字的方式大规模训练。后训练阶段（apost-trainingstage）。调优为来指令跟随（followinstructions），对齐人类偏好（alignwithhumanpreferences），提高特定能力（如编程和推理）我们相信在
2024-08-16InstructGPT: Training language models to follow instructions with human feedback 原理详解
文章目录1.InstructGPT目标2.数据集2.1SFT数据集2.2RM数据集2.3PPO数据集3.训练细节3.1SFT训练3.2RM训练3.3RLHF训练4.结论1.InstructGPT目标InstructGPT探讨了如何通过人类反馈来训练语言模型以更好地遵循用户的意图。通过对模型进行监督学习和强化
2024-08-16LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词
LLM可以处理长达100,000个token的输入,但在生成超过2,000词的适度长度输出时仍然面临困难,因为模型的有效生成长度本质上受到其在监督微调(SFT)过程中所见样本的限制。为解决这个问题,本文的作者引入了AgentWrite,这是一个基于代理的流程,它将超长生成任务分解为子任务,使现成的L
2024-07-03Bunny的PT+SFT训练
GitHub-BAAI-DCAI/Bunny:Afamilyoflightweightmultimodalmodels.Afamilyoflightweightmultimodalmodels..ContributetoBAAI-DCAI/BunnydevelopmentbycreatinganaccountonGitHub.https://github.com/BAAI-DCAI/Bunny1.环境安装condacreate-nbunnyp
2024-06-18SFT大模型：探索人工智能的无限可能
随着人工智能技术的飞速发展，大型预训练模型（以下简称“大模型”）已经在自然语言处理、计算机视觉、语音识别等领域取得了显著成果。这些模型通过在海量数据上进行预训练，能够捕捉到丰富的特征信息，为各种下游任务提供强大的支持。而在这其中，SFT（Self-Training）大模型以其独特的优
2024-06-09深入浅出，解析ChatGPT背后的工作原理
自ChatGPT发布以来，已经吸引了无数人一探究竟。但ChatGPT实际上是如何工作的？尽管它内部实现的细节尚未公布，我们却可以从最近的研究中一窥它的基本原理。ChatGPT是OpenAI发布的最新语言模型，比其前身GPT-3有显著提升。与许多大型语言模型类似，ChatGPT能以不同样式、不
2024-06-01LLM Fine-Tuning技术笺疏
LLM训练阶段训练大模型的三个阶段Pre-trainingstage，也就是预训练阶段，其主要目的是「提高对下一个Token的预测能力」。预训练也就是从零开始创建训练大模型的意思，是基于海量文本、几万亿Token进行的，需要上万张GPU。如果你不理解什么是Token，你就把它理解成每个token就是一个英
2024-05-20可替代FTP的信创传输软件需要具备哪些功能？
信创传输软件是指在信息技术应用创新（信创）环境下，用于数据传输的软件系统。这类软件通常具备以下特点：1、自主可控：拥有完整的知识产权，不依赖于外国技术，能够保障数据传输过程中的安全性和可控性。2、全面适配信创环境：能够在国产化的服务器和终端环境下无缝运行，支持国产操作系统和C
2024-04-09OpenAI的秘密武器、ChatGPT背后功臣RLHF，被开源了
OpenAI的秘密武器、ChatGPT背后功臣RLHF，被开源了。来自HuggingFace、加拿大蒙特利尔Mila研究所、网易伏羲AILab的研究人员从零开始复现了OpenAI的RLHFpipeline，罗列了25个关键实施细节。最终成功展示了随着模型大小的增加，响应质量显著提升的scaling行为，其中2.8B、6.9B的P
2024-03-14Swift微调命令
源自：https://github.com/modelscope/swift/blob/main/docs/source/LLM/LLM微调文档.md命令行参数目录sft参数dpo参数merge-lorainfer参数export参数app-ui参数deploy参数sft参数--model_type:表示你选择的模型类型,默认是None.model_type指定了对应模型
2024-03-14大模型基础应用框架（ReACT\SFT\RAG）技术创新及零售业务落地应用
一、前言2023年，大语言模型以前所未有的速度和能力改变我们对智能系统的认知，成为技术圈最被热议的话题。但“百模大战”终将走向“落地为王”，如何将大语言模型的强大能力融入实际业务、产生业务价值成为致胜关键。在零售场，大模型应用面临的核心挑战包括以下三点：（1）模型缺乏零售领
2024-02-22解密prompt系列24. RLHF新方案之训练策略：SLiC-HF & DPO & RRHF & RSO
去年我们梳理过OpenAI，Anthropic和DeepMind出品的经典RLHF论文。今年我们会针对经典RLHF算法存在的不稳定，成本高，效率低等问题讨论一些新的方案。不熟悉RLHF的同学建议先看这里哦解密Prompt7.偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析RLHF算法当前存在的一些问题有RL的
2024-01-26chatGPT原理详解
自从chatGPT问世以来，它一路爆火，目前注册用户已达1亿。它的出圈让各大公司纷纷布局AIGC，有不少人预言，称ChatGPT带来的变革，将会颠覆谷歌的现有搜索产品和商业模式。就在发文前一个小时，谷歌宣布推出Bard对抗ChatGPT，打响保卫战，bard将在数周后面向大众使用。能引起
2023-11-18什么是人工智能领域的 SFT - Supervised Finetuning
在人工智能（AI）领域，SupervisedFinetuning是一个重要的概念。它涉及到在预训练模型的基础上，利用有标签的数据进行微调，以适应特定的任务或领域。这个过程可以被视为在更广泛的知识基础上进行特定任务的训练，从而在新任务上获得更好的性能。SupervisedFinetuning这个名词可以被分解
2023-07-20信创环境下，使用国产服务器如何进行文件安全可靠传输？
信创，即信息技术应用创新，2018年以来，受“华为、中兴事件”影响，国家将信创产业纳入国家战略，并提出了“2+8+n”发展体系。从产业链角度，信创产业生态体系较为庞大，主要包括基础硬件、基础软件、应用软件、信息安全4部分构成，其中芯片、服务器、操作系统、数据库等是最重要的产业链环节。