首页 > 其他分享 >开源大型语言模型(llm)总结

开源大型语言模型(llm)总结

时间:2023-06-17 12:11:31浏览次数:46  
标签:Vicuna 40B 训练 模型 LLM 开源 llm Falcon

大型语言模型(LLM)是人工智能领域中的一个重要研究方向,在ChatGPT之后,它经历了快速的发展。这些发展主要涉及以下几个方面:

  1. 模型规模的增长:LLM的规模越来越大,参数数量显著增加。这种扩展使得模型能够处理更复杂、更长的输入序列,并生成更准确、更具连贯性的输出。同时,更大规模的模型还能够涵盖更广泛的知识和语言上下文,提供更全面的回答和解决方案。
  2. 领域专精化:LLM在不同领域的专精化得到了进一步的发展。研究人员通过对特定领域的训练数据进行更多的优化,使得模型在特定领域的问答、文本生成等任务中表现更出色。这使得LLM能够为特定行业或专业领域提供更精准的支持和咨询。
  3. 提升对语义理解和推理能力:研究人员致力于提高LLM对语义理解和推理的能力。通过引入更多的上下文信息、关联知识和逻辑推理机制,LLM能够更好地理解复杂问题,进行推理和分析,并给出更深入、准确的回答。
  4. 模型训练的效率和速度提升:研究人员提出了一系列技术来提高LLM的训练效率和推理速度。例如,采用分布式训练方法,利用多台计算机进行并行训练,加快模型收敛速度。此外,还有一些压缩和加速技术,可以在保持性能的同时减少模型的计算资源消耗。
  5. 理解和应对偏见:LLM的发展也关注了如何更好地理解和应对模型中的偏见。研究人员努力解决模型在生成结果时可能存在的性别、种族、文化等偏见问题,以确保模型的输出更加公正和中立。

本文将总结目前能见到的所有开源的大语言模型。

Falcon-40B-Instruct

Falcon-40B- instruct是TII基于Falcon-40B构建的40B参数因果解码器模型,在Baize上进行微调。

位于阿布扎比的技术创新研究所(TII)宣布了其开源大型语言模型(LLM)——Falcon-40B。Falcon-40B拥有400亿个参数,是阿联酋首个大型人工智能模型,表明了该国在人工智能领域的雄心以及推动创新和研究的承诺。

与大多数llm(通常只向非商业用户提供访问)不同,Falcon-40B对研究和商业用途都开放。TII还将模型的权重包含在开源包中,这将增强模型的功能并允许更有效的微调。

自2023年3月亮相以来,Falcon-40B的表现令人印象深刻。当使用斯坦福大学的HELM工具进行基准测试时,与OpenAI的GPT-3、DeepMind的Chinchilla AI和谷歌的PaLM-62B等其他知名模型相比,它使用的训练计算能力更少。

Vicuna

Vicuna是一个开源聊天机器人,通过从ShareGPT收集的用户共享对话进行训练。使用GPT-4作为评判的初步评估显示,Vicuna-13B的质量达到了OpenAI ChatGPT和Google Bard的90%以上,训练Vicuna-13B的费用约为300美元。代码和权重以及在线演示都是公开的,可供非商业用途。

在对Vicuna与70K用户共享的ChatGPT对话进行微调后,我们发现与Alpaca相比,Vicuna能够生成更详细和结构良好的答案,质量与ChatGPT相当。

Vicuna是通过微调LLaMA基础模型创建的,该模型使用了从ShareGPT收集的大约70K用户共享对话和公共api。

训练也有以下改进。

内存优化:将最大上下文长度从512扩展到2048,通过利用梯度检查点和flash attention解决内存压力。

多轮对话:调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。

通过Spot实例降低成本:使用SkyPilot管理的spot来降低成本,利用更便宜的spot实例来自动恢复抢占和自动区域切换。这个解决方案将训练7B模型的成本从500美元削减到140美元左右,将训练13B模型的成本从1000美元左右削减到300美元左右。

 

https://avoid.overfit.cn/post/a4da1098db9d4bf4b00365b28c201db9

标签:Vicuna,40B,训练,模型,LLM,开源,llm,Falcon
From: https://www.cnblogs.com/deephub/p/17487312.html

相关文章

  • 《安富莱嵌入式周报》第315期:开源USB高速分析仪,8GHz示波器开发, 600行C编写RISC-V内
    周报汇总地址:http://www.armbbs.cn/forum.php?mod=forumdisplay&fid=12&filter=typeid&typeid=104 视频版:https://www.bilibili.com/video/BV1gV4y117UD/1、开源USB2.0高速分析仪https://github.com/ataradov/usb-snifferusb-sniffer-main.zip(2.05MB)分析仪上位机......
  • LLM技术在自然语言处理中的实践与改进
    目录《LLM技术在自然语言处理中的实践与改进》引言自然语言处理(NLP)是人工智能领域的一个重要分支,它研究如何将计算机程序与人类语言进行交互,从而理解、分析、生成和翻译文本。近年来,随着深度学习算法的不断优化,NLP技术在语音识别、文本分类、情感分析、机器翻译等方面取得......
  • 基于神经网络的大模型在图像识别中的应用
    目录1.引言2.技术原理及概念3.实现步骤与流程4.示例与应用5.优化与改进6.结论与展望随着深度学习技术的不断发展,特别是在计算机视觉领域,基于神经网络的大模型在图像识别中的应用越来越广泛。这些模型能够在处理大量图像数据的同时,准确地识别出各种物体和场景,取得了令人瞩目......
  • blender 解决模型旋转后部分视角缺失
     修改视角,这个是因为我们是透视视图,改成正交视图就可以了。 下面第一个是透视视图,第二个是正交视图 ......
  • 冠军!天翼云在国际AI顶会大模型挑战赛中拔得头筹!
    6月7日,国际人工智能顶会CVPR2023举办的第一届大模型挑战赛(CVPR2023WorkshoponFoundationModel:1stfoundationmodelchallenge)落下帷幕,本次比赛吸引了来自全球著名高校和知名企业的1024名参赛者。经过为期2个月的激烈角逐,天翼云AI团队(队名CTRL)在多任务大模型赛道中表现出色,......
  • blender 解决圆形 模型精度问题
    1、在右侧选中mesh 2、进入到编辑模式 3、左下角选择修改器 4、选择 修改器里 表面细分 5、下面两个按钮可以看左侧的实时效果 6、在物体模式下点击应用 ......
  • 模型训练
    1.bert为什么attention除以根号下d原因:因为点积的数量级增长很大,因此将softmax函数推向了梯度极小的区域。案例:在没有除以根号d时,raw_tensor=torch.tensor([[2.1,3.3,0.5,-2.7]])torch.softmax(raw_tensor,dim=1)的结果是:tensor([[0.2207,0.7329,0.0446,0.0018......
  • 人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计
    人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、强化学习、元学习)人工智能领域:面试常见问题1.深度学习基础为什么归一化能够提高求解最优解的速度?为什么要归一化?归一化与标准化有什么联系......
  • 深度学习实践篇[17]:模型压缩技术、模型蒸馏算法:Patient-KD、DistilBERT、DynaBERT、Ti
    深度学习实践篇[17]:模型压缩技术、模型蒸馏算法:Patient-KD、DistilBERT、DynaBERT、TinyBERT1.模型压缩概述1.2模型压缩原有理论上来说,深度神经网络模型越深,非线性程度也就越大,相应的对现实问题的表达能力越强,但相应的代价是,训练成本和模型大小的增加。同时,在部署时,大模型预测......
  • 降本增效的开源微服务平台好用吗?
    在快节奏的现代社会生活中,办公职场需要实现降本增效的目标,就需要跟随社会发展的脚步“引进来,走出去”。低代码技术平台是当前企业级应用低代码平台,其中,开源微服务平台优势多,更灵活,深得广大用户朋友的信赖。今天,我们就一起来看看开源微服务平台的优势特点。1、低代码技术的应用价......