首页 > 其他分享 >Hugging Face 的文本生成和大语言模型的开源生态

Hugging Face 的文本生成和大语言模型的开源生态

时间:2023-08-09 19:56:34浏览次数:80  
标签:模型 Hugging Face 开源 Llama 文本

[更新于 2023 年 7 月 23 日: 添加 Llama 2。]

文本生成和对话技术已经出现多年了。早期的挑战在于通过设置参数和分辨偏差,同时控制好文本忠实性和多样性。更忠实的输出一般更缺少创造性,并且和原始训练数据更加接近,也更不像人话。最近的研究克服了这些困难,并且友好的交互页面能让每个人尝试这些模型。如 ChatGPT 的服务,已经把亮点放在强大的模型如 GPT-4,并且引发了爆发式的开源替代品变成主流如 Llama。我们认为这些技术将持续很长一段时间,并且会越来越集成到日常产品中。

这篇博客分成一下几个部分:

  1. 文本生成的简明背景
  2. 许可证
  3. Hugging Face 的生态中面向大语言模型的服务
  4. 参数高效的微调

文本生成的简明背景

文本生成模型本质上是以补全文本或者根据提示词生成文本为目的训练的。补全文本的模型被称之为条件语言模型 (Causal Language Models),有著名的例子比如 OpenAI 的 GPT-3 和 Meta AI 的 Llama

Causal LM Output

下面你最好要了解型微调,这是把一个大语言模型中的知识迁移到另外的应用场景的过程,我们称之为一个 下游任务 。这些任务的形式可以是根据提示的。模型越大,就越能泛化到预训练数据中不存在,但是可以在微调中学习到的提示词上。

条件语言模型有采用基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF)。这个优化过程主要基于答复文本的自然性和忠实性,而不是答复的检验值。解释 RLHF 的工作原理超出了本博客的范围,但是你可以在 这里 了解。

举例而言,GPT-3 是一个条件 基本 语言模型,作为 ChatGPT 的后端,通过 RLHF 在对话和提示文本上做微调。最好对这些模型做区分。

在 Hugging Face Hub 上,你可以同时找到条件语言模型和在提示文本上微调过的条件语言模型 (这篇博客后面会给出链接)。Llama 是最早开源,并且能超过闭源模型的大语言模型之一。一个由 Together 领导的研究团队已经复线了 Llama 的数据集,称之为 Red Pajama,并且已经在上面训练和微调了大语言模型。你可以在 这里 了解。以及在 Hugging Face Hub 上找到 模型。截止本博客写好的时候,三个最大的开源语言模型和其许可证分别为 MosaicML 的 MPT-30BSalesforce 的 XGenTII UAE 的 Falcon,全都已经在 Hugging Face Hub 上开源了。

最近,Meta 开放了 Llama 2,其许可证允许商业用途。截止目前 Llama 2 能在各种指标上超过任何其他开源模型。Llama 2 在 Hugging Face Hub 上的 checkpoint 在 transformers 上兼容,并且最大的 checkpoint 人们都可以在 HuggingChat 上尝试。你可以通过 这篇博客 学习到如何在 Llama 2 上微调,部署和做提示词。

第二种文本生成模型通常称之为文本到文本的生成模型。这些模型在文本对的数据集上训练,这些数据集或者是问答形式,或者是提示和反馈的形式。最受欢迎的是 T5 和 BART (目前为止以及不是最新的技术了)。Google 最近发布了 FLAN-T5 系列的模型。FLAN 是最近为提示任务设计的技术,而 FLAN-T5 便是完全由 T5 用 FLAN 微调得到的模型。目前为止,FLAN-T5 系列的模型是最新的技术,并且开源,可以在 Hugging Face Hub 上看到。注意这和用条件语言模型在提示任务的微调下是不一样的,尽管其输入和输出形式类似。下面你能看到这些模型的原理。

FLAN-T5 Illustration

拥有更多开源的文本生成模型能让公司保证其数据隐私,部署下游更快,并且减少购买闭源 API 的支出。Hugging Face Hub 上所有开源的条件语言模型都能在 这里 找到,并且文本到文本的生成模型都能在 这里 找到。

Hugging Face 用爱和 BigScience 与 BigCode 创造的模型

标签:模型,Hugging,Face,开源,Llama,文本
From: https://www.cnblogs.com/huggingface/p/17617864.html

相关文章

  • 多城市自媒体资讯入驻投稿会员合伙人pch5小程序开源版开发
    多城市自媒体资讯入驻投稿会员合伙人pch5小程序开源版开发PCH5小程序是一款多城市自媒体资讯入驻投稿会员合伙人的平台,具有以下功能:自媒体入驻:自媒体可以通过PCH5小程序申请入驻,提交个人资料和作品,经过审核后可以在平台上发布自己的资讯内容。投稿功能:用户可以通过PCH5小程序投稿自......
  • 让 GPT-4 给开源项目 GoPool Review 社区贡献者的 PR - 每天5分钟玩转 GPT 编程系列(5
    目录1.嘚瑟一下2.言归正传2.1GoPool的第一个PR2.2祭出GPT-42.3问问GPT-4怎么看这个PR2.4让GPT-4重构代码3.打完收工1.嘚瑟一下你还记得那个宣称自己性能全网第一的GolangWorkerPool不?对,就是能够GoPool,据说作者拿着GPT-4只花了3天就把这个项目肝出来了。......
  • 金融科技与现代开源技术结合的进展超前到你无法想象!
    想要了解最新的金融科技进展吗?渴望与其他技术爱好者交流,并扩展您在金融科技行业中的人脉关系吗?那么请参加我们即将举行的Meetup,本次活动由ApacheDolphinScheduler社区和OceanBase技术社区共同举办,聚焦金融科技进展,线上&线下同步,欢迎关注并预约直播。在新加坡的朋友也可以赴......
  • 金融科技与现代开源技术结合的进展超前到你无法想象!
    想要了解最新的金融科技进展吗?渴望与其他技术爱好者交流,并扩展您在金融科技行业中的人脉关系吗?那么请参加我们即将举行的Meetup,本次活动由ApacheDolphinScheduler社区和OceanBase技术社区共同举办,聚焦金融科技进展,线上&线下同步,欢迎关注并预约直播。在新加坡的朋友也可以......
  • 最好用的免费开源WAF - safeline 长亭雷池WAF
     Safeline长亭雷池WAF是一款功能强大且易于部署的网站应用防火墙,特别适合中小企业和个人网站。它采用先进的AI模型和规则库,能精准识别各类Web攻击,提供全方位的网站防护。无需复杂配置,开箱即用,让您的网站安全运营无后顾之忧。长亭雷池WAF还完全免费,让更多用户享......
  • 数据挖掘(五) -----基于Spark的可伸缩基因数据分析平台开源存储运算架构hail全面了解
    hail简介hail是一个开源的、通用的、面向python数据类型的处理基因数据专用的分析库和方法解决方案。hail的存在是为了支持多维度的复杂的数据结构,比如全基因组关联数据研究(GWAS).GWASTutorialhail的底层是通过python,scala,java和apachespark来实现的。hail官网gitlab官方文......
  • Hugging News #0807: ChatUI 官方 Docker 模板发布、 Hub 和开源生态介绍视频来啦!
    每一周,我们的同事都会向社区的成员们发布一些关于HuggingFace相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「HuggingNews」。本期HuggingNews有哪些有趣的消息,快来看看吧!......
  • TOPIAM 社区版 1.0.0 发布,开源 IAM/IDaaS 企业身份管理平台
    Hi,亲爱的朋友们,今天是传统24节气中的立秋,秋天是禾谷成熟、收获的季节。经过长时间优化和迭代,TOPIAM企业身份管控平台也迎来了当下的成长和收获,正式发布社区1.0.0版本,欢迎大家下载试用,经验交流、社区共建。产品概述TopIAM 企业数字身份管控平台,简称:EIAM(EmployeeIdentityand......
  • Databend 开源周报第 105 期
    Databend是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。What'sOnInDatabend探索Databend本周新进展,遇到更贴近你心意的Databend。Databend轻量级CDC解决方案Debezium是一组用于捕获......
  • 活动发布报名平台型公众号开源版开发
    活动发布报名平台型公众号开源版开发后台管理、手机端自由发布活动!为个人、企业或主办方举办各类活动提供一个发布推广与活动报名平台,主办方可以在平台进行活动发布,用户可以免费注册并灵活使用该系统的发布、报名管理、核销等功能。功能支付、退款、表单定义模板通知、短信、数据导......