一、大模型生态有哪些
语言类大模型: GPT-3、GPT-3.5、GPT-4系列模型。并且,OpenAl在训练GPT-3的同时训练了参数不同、复杂度各不相同的A、B、C、D四项大模型 (基座模型),用于不同场景的应用;
前排提示,文末有大模型AGI-CSDN独家资料包哦!
其中,A、B、C、D模型的全称分别是ada、babbage、curie(居里)和davinci(达芬奇),四个模型并不是GPT-3的微调模型,而是独立训练的四个模型;
四个模型的参数规模和复杂程度按照A-B-C-D顺序依次递增
虽不如GPT-3.5和GPT-4那么有名,但A、B、C、D四大模型却是目前OpenAI大模型生态中功能最丰富、API种类最多的四个模型。
谷歌PaLM2 Models:四项大模型:Gecko (壁虎) 、Otter(水獭) 、Bison (野牛) 、Unicorn(独角兽),最小的Gecko模型可以在移动端运行,并计划在下一代安卓系统中集成;
二、了解OpenAI大模型生态:
图像多模态大模型: 最新版为DALL·E (达利)V2,是DALL·E模型的第二版训练版,能够根据描述生成图像;
DALL·E模型为基于GPT-3开发的模型,总共包含120亿个参数,不难看出DALL·E对图像的理解能力源于大语言模型;
OpenAI将大语言模型的理解能力“复制”到视觉领域的核心方法: 图像类大模型底层都是基于语言类大模型,基于语义关系,将图像视作一种一种语言,将其转化为Token,并和文本Token一起进行训练;
三、语音识别模型
最新版为Whisper v2-large model,是Whisper模型的升级版,能够执行
多语言语音识别以及语音翻译和语言识别;
Whisper模型是为数不多的OpenAl的开源模型,改模型通过68万小时的多语言和多任务监督数据进行的训练,目前提供了原始论文进行方法介绍;
Whisper模型可以本地部署,也可以像其他OpenAI大模型一样通过调用API进行在线使用,并且根据官网介绍,Whisper在线模型会有额外运行速度上的优化,通过调用API进行使用,效率更高 (当然也需要支付一定的费用) ;
四、文本向量化模型
Embedding文本嵌入模型,用于将文本转化为词向量,即用-个数组 (向量)来表示一个文本,该文本可以是短语、句子或者文章;最新一代Embedding模型是基于ada模型微调的text-embedding-ada-002模型;通过将文本转化为词向量,就可以让计算机进一步的“读懂文本”,通过词向量的计算和分析和相似度计算,可以对其背后的文本进行搜索、聚类、推荐、异常检测和分类等;
语言结构,映射到高维空间的向量中,使得语义上相近的词或者句子在向量空间中的距离也较近;例如Embedding后的句子,“老鼠在找吃的”将和“奶酪”词向量接近,因为二者表意类似。而与之句式格式与之相近的“猫在找食物”,则距离更远;GPT模型的Embedding层往往是在与训练过程中通过自回归训练完成,同时在微调时,也往往会修改Embedding层;
五、审查模型
Moderation模型,旨在检查内容是否符合 OpenAl 的使用政策。这些模型提供了查找以下类别内容的分类功能:仇恨、仇恨/威胁、自残、性、性未成年人、暴力和暴力/图片等。
六、编程大模型
Codex大模型,用GitHub数十亿行代码训练而成,能够“读懂”代码,并且能够根据自然语言描述进行代码创建;
Codex最擅长Python, 同时精通JavaScript、Go、Perl、PHP、Ruby、Swift、 TypeScript、SQL,甚至 Shell 等十几种编程语言;
该模型发布于2021年8月10日,目前代码编写功能已经合并入GPT-3.5,官网显示该模型为已弃用(deprecated)状态,意为后续不再单独维护,但并不表示OpenAl已放弃编程大模型,相反越来越多的编程功能被集成到语言大模型中;
目前该模型集成于Visual Studio Code、GitHub Copilot、Azure OpenAl Service等产品中,用于提供自动编程功能支持;
七、OpenAl可调用模型API一览
在个人中心->API速率限制查看中可以一次性看到目前账户可用的全部API地址: https://platform.openai.com/account/rate-limits
通用模型API:如GPT-3.5-turbo,GPT-4,ada…
停止维护但仍可使用的API:如GPT-3.5-turbo-0301 (3月1号停止维护)GPT-4-0314 (3月14号停止维护)
八、命名规则
面向特定功能的微调模型API: 如ada-code-search-code (基于ada微调的编程大模型),babbage-similarity (基于babbage微调的的文本相似度检索模型)…
多版本编号模型API:如text-davinci-001 (达芬奇文本模型1号)、text-embedding-ada-002 (基于ada的Embedding模型2号)
九、为什么要使用开源大模型
更大的微调空间:相比在线大模型,开源大模型可以使用更多微调框架进行模型微调,微调空间更大,更有可能快速完成定制化大模型训练;
更加灵活的AI应用开发: 相比封闭的在线模型,开源模型可以更加灵活便捷的嵌入到AI应用中,同时也可以更加方便的搭配其他开源框架进行使用,从而实现更高效率的AI应用开发;
更低的资费、更安全的数据保障: 此外,不同于在线大模型需要根据API调用情况付费开源大模型开源本地部署,仅需支付相应算力费用即可;此外,数据可以直接本地训练模型,无需在线提交数据进行在线模型微调,数据安全也将更有保障;
十、全球开源大模型性能评估榜单
Hugging Face @:
Open LLM Leaderboard地址: https://huggingface.co/spaces/HuggingFaceH4/open Im leaderboard
Falcon大模型大杀四方: Falcon模型为阿联酋阿布扎比创新研究所 (TII)开源的大模型号称“史上最强开源大模型”,总共400亿参数,模型在1万亿个高质量Token上完成训练,性能超过拥有650亿参数的LLaMA。遗憾的是Falcon并不支持中文。
LMSYS组织 (UC伯克利背景) : LLM Leaderboard地址: https://chat.Imsys.org/?arena
通过匿名PK进行模型性能比较,同时纳入开源大模型和在线大模型进行PK,其中GPT-4排名第一国内清华大学团队ChatGLM-6B模型位列14。该榜单实时更新较慢,目前Falcon尚未参赛。
十一、中文最强大语言模型-ChatGLM 130B
ChatGLM模型是由清华大学团队开发的大语言模型,该模型借鉴了ChatGPT 的设计思路,在千亿基座模型GLM-130B 中注入了代码预训练,通过有监督微调 (Supervised Fine-Tuning) 等技术实现人类意图对齐。2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B 是亚洲唯一入选的大模型。在与 OpenAl、谷歌大脑、微软、英伟达、脸书的各大模型对比中评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平。
十二、更加精简的低门槛大模型:ChatGLM 6B
清华大学团队同时开源 ChatGLM-6B 模型。ChatGLM-6B是一个具有62亿参数的中英双语语言模型。通过使用与 ChatGLM (chatglm.cn)相同的技术,ChatGLM-6B 初具中文问答和对话功能,并支持在单张 2060s 上进行推理使用。具体来说ChatGLM-6B 有如下特点:
充分的中英双语预训练: ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的token 量,兼具双语能力;
较低的部署门槛: FP16 精度下,ChatGLM-6B 需要至少 13GB 的显存进行推理结合模型量化技术,这一需求可以进一步降低到 10GB (INT8) 和6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上;
硬件要求:
其中,FP16指的是高精度模式,该模式下推理 (即模型运行)需要至少13G显存,微调需要至少14G显存;多轮对话则需要20G 8090级别的显卡。
INT4(保留4位参数)、INT8则是量化模式,所谓量化模式,指的是模型会限制参数的精度,INT4表示保留4位参数精度,INT8则表示保留8位参数精度,此时相应的推理显存占用和微调显存占用都会明显减少。最低精度INT4模式下,可以在单卡2060上运行,也是目前硬件要求最低的开源大模型;
根据实际测试,在高精度模式下,多轮对话最低显存占用为20G,微调显存占用为22G左右。
十三、ChatGLM 6B丰富的开源生态
微调框架: ChatGLM 6B + P Tuning微调,
项目地址: https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md微调框架: ChatGLM 6B + LORA微调,项目地址: https://github.com/mymusise/ChatGLM-Tuning
本地知识库: ChatGLM 6B + LangChain,
项目地址: https://github.com/imClumsyPanda/langchain-ChatGLM
多轮对话前端: ChatGLM 6B多轮对话的Web UI展示,
项目地址: https://github.com/Akegarasu/ChatGLM-webui
十四、基于ChatGLM的多模态大模型VisualGLM 6B
VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。
十五、VisualGLM 6B VS Dall.E模型实现思路区别
Dall·E: 将图像视作一种语言,将其转化为离散化的Token并进行训练,优势在于能够非常详细的描述一张图片,但缺点在于图像的Token利用率较低,需要1000以上的Token才能描述一张256分辨率的图;
VisualGLM: 考虑到人类在认识图片的时候,往往只对少量视觉语意信息感兴趣,因此可以不用将整个图片全部离散化为图片,只将图片特征对其到预训练语言模型即可,这也是BLIP-2的视觉语言与训练方法实现策略。优势在于能够充分语言模型,缺点在于会缺失图像部分底层信息 (细节信息)
医学影像诊断大模型XrayGLM 6B
项目地址:https://github.com/WangRongsheng/XrayGLM
基于VisualGLM模型,在UI-XRay医学诊断报告数据集上进行微调而来报告翻译借助OpenAI GPT模型完成翻译,微调框架为LORA;
十六、中文大模型学习首选一一ChatGLM 6B
低门槛上手使用,最低2060即可运行:中英双语大模型,其中中文提示效果更佳;较为丰富的对话UI、微调、AI开发项目生态;大神云集的项目开发和维护团队;率先提出多模态大模型VisualGLM;非常活跃的开源社区,已经越来越多的微调和实践应用场景,未来发展极具潜力;
在美国技术封锁和中美技术竞争的大背景下,支持中文、支持国产芯片进行计算的国产开源大模型,毫无疑问是更佳值得长期关注并进行技术学习的;
十七、模型微调三类方法:
第一类方法: 借助OpenAI提供的在线微调工具进行微调;
第二类方法:借助开源微调框架进行微调;
微调, Fine-Tuning,一般指全参数的微调 (全量微调) ,指是一类较早诞生的微调方法,全参数微调需要消耗大量的算力,实际使用起来并不方便,因此不久之后又诞生了只围绕部分参数进行微调的高效微调方法;
高效微调,State-of-the-art Parameter-Efficient Fine-Tuning (SOTA PEFT),特指部分参数的微调方法,这种方法算力功耗比更高,也是目前最为常见的微调方法;除此之外,Fine-Tuning也可以代指全部微调方法,同时OpenAI中模型微调API的名称也是需要注意的是,OpenAI提供的在线微调方法也是一种高效微调方法,并不Fine-Tuning,是全量微调;
第三类方法:基于强化学习的进阶微调方法RLHF方法:RLHF: Reinforcement Learning from HumanFeedback,即基于人工反馈机制的强化学习。最早与2022年4月,由OpenAI研究团队系统总结并提出,并在GPT模型的对话类任务微调中大放异彩,被称为ChatGPT“背后的功臣”;
RLHF也是目前为止常用的、最为复杂的基于强化学习的大语言模型微调方法,目前最好的端到端RLHF实现是DeepSpeedChat库,由微软开源并维护;
十八高效微调
高效微调方法一: LORA
Github地址: https://github.com/microsoft/LoRA
论文地址: https://arxiv.org/abs/2106.09685
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS (2021)基于低阶自适应的大语言模型微调方法
原理简述:基于大模型的内在低秩特性,增加旁路矩阵来模拟全参数微调;。LoRA最早由微软研究院发布的一项微调技术;
简而言之,是通过修改模型结构进行微调,是一种四两拨千斤的微调方法是目前最通用、同时也是效果最好的微调方法之一;课程将详细介绍LoRA微调实践方法;
概念辨析: 大模型微调LoRA与通信技术LoRa,二者相差一个字母的大小写,是完全两种不同的技术;
LoRA除了可以用于微调大语言模型 (LLM)外,目前还有一个非常火爆的应用场景: 围绕diffusion models (扩散模型) 进行微调,并在图片生成任务中表现惊艳;
高效微调方法二 : Prefix Tuning
论文地址: https://aclanthology.org/2021.acl-long.353/
Prefix-Tuning: Optimizing Continuous Prompts for Generation (2021)基于提示词前缀优化的微调方法
来源于斯坦福大学的一种高效微调方法;
原理简述: 在原始模型基础上,增加一个可被训练的Embedding层,用于给提示词增加前缀,从而让模型更好的理解提示词意图,并在训练过程中不断优化这些参数;
Prefix Tuning既能够在模型结构上增加一些新的灵活性,又能够在模型使用上提供一种自动的、能够改进模型表现的提示机制;
高效微调方法三:Prompt Tuning
论文地址: https://arxiv.org/abs/2104.08691
The Power of Scale for Parameter-Efficient Prompt Tuning (2021)
由谷歌提出的一种轻量级的优化方法;
原理简述: 该方法相当于是Prefix Tuning的简化版本,即无需调整模型参数,而是在已有的参数中,选择一部分参数作为可学习参数,用于创建每个Prompt的前缀,从而帮助模型更好地理解和处理特定的任务;不同于Prefix方法,Prompt Tuning训练得到的前缀是具备可解释性的,我们可以通过查看这些前缀,来查看模型是如何帮我们优化prompt的该方法在参数规模非常大的模型微调时效果很好,当参数规模达到100亿时和全量微调效果一致;
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
标签:6B,通识,微调,笔记,开源,ChatGLM,GPT,模型 From: https://blog.csdn.net/lvaolan168/article/details/143719927