sft
  • 2024-09-26要不要入行大模型算法啊?
    最近又有不少私信问我关于要不要入行大模型之类的问题,年初的时候我写过一篇相同主题的笔记,时隔8个月,今时不同往日,想法确实有些变化,再说一说这个问题。先讨论算法相关的方向,分成三部分吧pretrain、post-training和更偏应用的工作pretrain的机会应该是越来越少了,还能在
  • 2024-09-03【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文
    研究背景1.研究问题:这篇文章要解决的问题是如何在现代自动语音识别(ASR)模型中,利用大规模语言模型(LLM)来提高识别准确性,特别是在多领域、多语言、多口音和多种应用场景下。2.研究难点:该问题的研究难点包括:现有端到端模型在数据匹配场景下表现良好,但在处理复杂语境和多语言场景时逐渐接
  • 2024-09-02LongWriter环境安装&推理测试
    ​引子一口气生成2万字,大模型输出也卷起来了!清华&智谱AI最新研究,成功让GLM-4、Llama-3.1输出长度都暴增。相同问题下,输出结果直接从1800字增加到7800字,翻4倍。大模型的生成内容一般都不会太长,这对于内容创作、问题回答等都存在影响,可能导致模型回答问题不全面、创造性能降低等。L
  • 2024-08-27Llama3技术文档
    Introduction基础模型开发包含两个阶段:预训练阶段(apre-trainingstage)。以简单的任务如预测下一个字的方式大规模训练。后训练阶段(apost-trainingstage)。调优为来指令跟随(followinstructions),对齐人类偏好(alignwithhumanpreferences),提高特定能力(如编程和推理)我们相信在
  • 2024-08-16InstructGPT: Training language models to follow instructions with human feedback 原理详解
    文章目录1.InstructGPT目标2.数据集2.1SFT数据集2.2RM数据集2.3PPO数据集3.训练细节3.1SFT训练3.2RM训练3.3RLHF训练4.结论1.InstructGPT目标InstructGPT探讨了如何通过人类反馈来训练语言模型以更好地遵循用户的意图。通过对模型进行监督学习和强化
  • 2024-08-16LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词
    LLM可以处理长达100,000个token的输入,但在生成超过2,000词的适度长度输出时仍然面临困难,因为模型的有效生成长度本质上受到其在监督微调(SFT)过程中所见样本的限制。为解决这个问题,本文的作者引入了AgentWrite,这是一个基于代理的流程,它将超长生成任务分解为子任务,使现成的L
  • 2024-07-03Bunny的PT+SFT训练
    GitHub-BAAI-DCAI/Bunny:Afamilyoflightweightmultimodalmodels.Afamilyoflightweightmultimodalmodels..ContributetoBAAI-DCAI/BunnydevelopmentbycreatinganaccountonGitHub.https://github.com/BAAI-DCAI/Bunny1.环境安装condacreate-nbunnyp
  • 2024-06-18SFT大模型:探索人工智能的无限可能
    随着人工智能技术的飞速发展,大型预训练模型(以下简称“大模型”)已经在自然语言处理、计算机视觉、语音识别等领域取得了显著成果。这些模型通过在海量数据上进行预训练,能够捕捉到丰富的特征信息,为各种下游任务提供强大的支持。而在这其中,SFT(Self-Training)大模型以其独特的优
  • 2024-06-09深入浅出,解析ChatGPT背后的工作原理
    自ChatGPT发布以来,已经吸引了无数人一探究竟。但ChatGPT实际上是如何工作的?尽管它内部实现的细节尚未公布,我们却可以从最近的研究中一窥它的基本原理。ChatGPT是OpenAI发布的最新语言模型,比其前身GPT-3有显著提升。与许多大型语言模型类似,ChatGPT能以不同样式、不
  • 2024-06-01LLM Fine-Tuning技术笺疏
    LLM训练阶段训练大模型的三个阶段Pre-trainingstage,也就是预训练阶段,其主要目的是「提高对下一个Token的预测能力」。预训练也就是从零开始创建训练大模型的意思,是基于海量文本、几万亿Token进行的,需要上万张GPU。如果你不理解什么是Token,你就把它理解成每个token就是一个英
  • 2024-05-20可替代FTP的信创传输软件 需要具备哪些功能?
    信创传输软件是指在信息技术应用创新(信创)环境下,用于数据传输的软件系统。这类软件通常具备以下特点:1、自主可控:拥有完整的知识产权,不依赖于外国技术,能够保障数据传输过程中的安全性和可控性。2、全面适配信创环境:能够在国产化的服务器和终端环境下无缝运行,支持国产操作系统和C
  • 2024-04-09OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了
    OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了。来自HuggingFace、加拿大蒙特利尔Mila研究所、网易伏羲AILab的研究人员从零开始复现了OpenAI的RLHFpipeline,罗列了25个关键实施细节。最终成功展示了随着模型大小的增加,响应质量显著提升的scaling行为,其中2.8B、6.9B的P
  • 2024-03-14Swift微调命令
    源自:https://github.com/modelscope/swift/blob/main/docs/source/LLM/LLM微调文档.md命令行参数目录sft参数dpo参数merge-lorainfer参数export参数app-ui参数deploy参数sft参数--model_type:表示你选择的模型类型,默认是None.model_type指定了对应模型
  • 2024-03-14大模型基础应用框架(ReACT\SFT\RAG)技术创新及零售业务落地应用
    一、前言2023年,大语言模型以前所未有的速度和能力改变我们对智能系统的认知,成为技术圈最被热议的话题。但“百模大战”终将走向“落地为王”,如何将大语言模型的强大能力融入实际业务、产生业务价值成为致胜关键。在零售场,大模型应用面临的核心挑战包括以下三点:(1)模型缺乏零售领
  • 2024-02-22解密prompt系列24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO
    去年我们梳理过OpenAI,Anthropic和DeepMind出品的经典RLHF论文。今年我们会针对经典RLHF算法存在的不稳定,成本高,效率低等问题讨论一些新的方案。不熟悉RLHF的同学建议先看这里哦解密Prompt7.偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析RLHF算法当前存在的一些问题有RL的
  • 2024-01-26chatGPT原理详解
             自从chatGPT问世以来,它一路爆火,目前注册用户已达1亿。它的出圈让各大公司纷纷布局AIGC,有不少人预言,称ChatGPT带来的变革,将会颠覆谷歌的现有搜索产品和商业模式。就在发文前一个小时,谷歌宣布推出Bard对抗ChatGPT,打响保卫战,bard将在数周后面向大众使用。能引起
  • 2023-11-18什么是人工智能领域的 SFT - Supervised Finetuning
    在人工智能(AI)领域,SupervisedFinetuning是一个重要的概念。它涉及到在预训练模型的基础上,利用有标签的数据进行微调,以适应特定的任务或领域。这个过程可以被视为在更广泛的知识基础上进行特定任务的训练,从而在新任务上获得更好的性能。SupervisedFinetuning这个名词可以被分解
  • 2023-07-20信创环境下,使用国产服务器如何进行文件安全可靠传输?
    信创,即信息技术应用创新,2018年以来,受“华为、中兴事件”影响,国家将信创产业纳入国家战略,并提出了“2+8+n”发展体系。从产业链角度,信创产业生态体系较为庞大,主要包括基础硬件、基础软件、应用软件、信息安全4部分构成,其中芯片、服务器、操作系统、数据库等是最重要的产业链环节。
  • 2023-05-25PPO算法的一个简单实现:对话机器人
    综上,PPO算法是一种具体的Actor-Critic算法实现,比如在对话机器人中,输入的prompt是state,输出的response是action,想要得到的策略就是怎么从prompt生成action能够得到最大的reward,也就是拟合人类的偏好。具体实现时,可以按如下两大步骤实现首先定义4个模型:Actor(action_logits)、SFT(s
  • 2023-05-10Single_Phase_SFT_VS_SOGI_PLL:基于MATLAB/Simulink的SFT与SOGI单相锁相环仿真模型。
    Single_Phase_SFT_VS_SOGI_PLL:基于MATLAB/Simulink的SFT与SOGI单相锁相环仿真模型。SFT利用滑动傅里叶变换作为鉴相器,正交信号通过受控的传输延迟产生,延迟由频率进行调整,对于频率变化具有自适应性,在保持恒定采样频率的同时具有更好的谐波抑制和直流偏移抑制;SFT与二阶广义积分器(SOG
  • 2023-05-01穷穷穷孩子如何体验ColossalAI SFT(Kaggle篇)
    KaggleNotebook每周会提供30小时的GPU免费使用额度。这为一些想先小小熟悉一下语言模型、但是手里没有资源可用、暂时还不想租用服务器的小伙伴来说,可能带来了一丝安慰。这篇教程以能够运行ColossalAI的“RLHFTrainingStage1-Supervisedinstructstuning”部分为主线,附带罗