首页 > 其他分享 >LLaMA模型微调版本 Vicuna 和 Stable Vicuna 解读

LLaMA模型微调版本 Vicuna 和 Stable Vicuna 解读

时间:2023-06-27 11:33:32浏览次数:53  
标签:Vicuna LLaMA 模型 对话 https Stable

Vicuna和StableVicuna都是LLaMA的微调版本,均遵循CC BY-NC-SA-4.0协议,性能方面Stable版本更好些。

CC BY-NC-SA-4.0是一种知识共享许可协议,其全称为"署名-非商业性使用-相同方式共享 4.0 国际"。

即 用的时候要署名原作者,不能商用,下游使用也必须是相同的共享原则。

Vicuna

Vicuna(小羊驼、骆马)是LLaMA的指令微调版本模型,来自UC伯克利,代表模型为Vicuna-13B。

训练过程

用ShareGPT网站的用户分享的ChatGPT对话记录,70k条对话数据对 LLaMA进行监督质量微调训练,性能超越了LLaMa和Stanford Alpaca,达到了与ChatGPT相似的水平。

  1. 从ShareGPT上扒了70k对话语料,将HTML数据转化为markdown并对不合适、低质量的样本进行了过滤,同时对比较长的数据进行了切分,来适应模型的上下文长度;
  2. 用Alpaca的代码进行多轮对话训练,使用8-A100,基于Pytorch FSDP训练框架训一天;
    1. 多轮对话训练:任务还是next token prediction,同时loss只计算文本中chatbot输出的部分;
    2. 显存优化:将最大上下文长度从alpac的512调整为2048,然后用 [gradient checkpointing](https://lmsys.org/blog/2023-03-30-vicuna/#:~:text=gradient checkpointing) 和 flash attention 进行了显存节省。
    3. 省钱:作者使用SkyPilot的算力计算的,就使用了SkyPilot managed spot来降低成本,利用更便宜的spot实例来自动恢复抢占和自动区域切换。13B模型能从$1K节省到$300。
  3. 在评估模型方面,之前的评估方式对现在的对话模型不再适用了,作者用MT-Betch一个多轮对话数据集ChatBot Arena(聊天机器人竞技场)的众包平台进行评估。众包平台上是真实的用户来进行打分,另外因为GPT-4是基于强化学习与人类反馈(RLHF)训练出来的模型,具有较好的与人对齐的能力,所以作者用GPT-4也代替人对其他模型进行评判,从而节省成本。具体可作者论文 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

现有不足

  1. 推理能力、数学能力不足;
  2. 自我感知能力不够、幻觉问题仍然存在;
  3. 模型本身可能存在潜在的偏见(比如某些言论不正确,毕竟数据集决定了模型的立场)

Stable Vicuna

Stable Vicuna: https://github.com/Stability-AI/StableLM

基于 Vicuna-13B v0 的RLHF微调版本,由StabilityAI发布。没有训练细节纰漏,但应该比 Vicuna 要更优一些。

标签:Vicuna,LLaMA,模型,对话,https,Stable
From: https://www.cnblogs.com/chengnan113/p/17508241.html

相关文章

  • 本地部署开源大模型的完整教程:LangChain + Streamlit+ Llama
    在过去的几个月里,大型语言模型(llm)获得了极大的关注,这些模型创造了令人兴奋的前景,特别是对于从事聊天机器人、个人助理和内容创作的开发人员。大型语言模型(llm)是指能够生成与人类语言非常相似的文本并以自然方式理解提示的机器学习模型。这些模型使用广泛的数据集进行训练,这......
  • MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT
    MosaicML正在推出其第二个开源大型语言模型(LLM),称为MPT-30B,这是继五月份首次推出的较小的MPT-7B模型之后。为了讨论新模型及其对开发人员的意义,我采访了MosaicML联合创始人兼首席执行官NaveenRao。他之前的创业公司是Nervana,这是一家深度学习公司,于2016年被英特尔收购,所以他最近......
  • MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT
    MosaicML正在推出其第二个开源大型语言模型(LLM),称为MPT-30B,这是继五月份首次推出的较小的MPT-7B模型之后。为了讨论新模型及其对开发人员的意义,我采访了MosaicML联合创始人兼首席执行官NaveenRao。他之前的创业公司是Nervana,这是一家深度学习公司,于2016年被英特尔收购,所以他最近......
  • Stable Diffusion 常用的视角
    角度提示词可以帮助摄影师选择拍摄角度,使得拍摄出的照片更有层次感和视觉冲击力。我们用草地上的一只猫来常见的视角效果:注意:这里我们没法固定seed种子了,因为seed部分时候会固定视角,我们提示词的视角会不起作用。默认不带任何视角PromptacatonthegrassSteps:20,Sampler:E......
  • Stable Diffusion 的 CFG Scale 参数
    在图像生成过程中,CFGScale参数是一个关键因素,它控制着文本提示对生成图像的影响程度。简而言之CFGScale:参数越大,生成的图像与文本提示的相关性越高,但可能会失真。数值越小,相关性则越低,越有可能偏离提示或输入图像,但质量越好。在实际应用中,将其设置在7到11之间往往能获得最......
  • Stable Diffusion 的随机种子 seed
    seed参数允许您指定一个随机种子,将用于初始化图像生成过程。相同的种子值每次都会产生相同的图像集,这对于再现性和一致性很有用。如果将种子值保留为-1,则每次运行文本-图像特性时将生成一个随机种子。最重要的是,具有相同参数、prompt和seed将产生完全相同的图像。多亏了这一......
  • Stable Diffusion 反向提示词 Negative prompts
    反向提示词(Negativeprompts)用于描述图片中不希望出现的内容。常用于阻止生成特定的事物、样式或修复某些图像异常。下面是一些例子从“宁静的精灵森林”中移除“苔藓”宁静的精灵森林peacefulelvenforest,thickforest,largelivingtreesarevisibleinthebackground,b......
  • ClassTable
    publicclassClassTable{privateIntegerclassId;privateStringclassName;privateStringclassBegin;privateStringclassTime;privateStringcoach;publicIntegergetClassId(){returnclassId;}publicvoidsetClassId(I......
  • 云上使用 Stable Diffusion ,模型数据如何共享和存储
    随着人工智能技术的爆发,内容生成式人工智能(AIGC)成为了当下热门领域。除了ChatGPT之外,文本生成图像技术更令人惊艳。StableDiffusion,是一款开源的深度学习模型。与Midjourney提供的直接将文本转化为图像的服务不同的是它允许用户自行搭配并训练自己的图像风格,这一特性吸引了......
  • Linux安装StableDiffusion
    安装conda:https://www.xtuos.com/5532.htmlhttps://cloud.tencent.com/developer/article/2063049配置conda切换国内镜像源:https://blog.51cto.com/u_15073468/5528338condaconfig--addchannelshttp://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/condaconfig--add......