• 2024-11-02搞人工智能开源大语言模型GPT2、Llama的正确姿势
    (如果想及时收到人工智能相关的知识更新,请点击关注!!)序言:目前我们每一小节的内容都讲解得非常慢,因为这是人工智能研发中的最基础知识。如果我们不能扎实掌握这些知识,将很难理解后续更复杂且实用的概念。因此,我们甚至采用一个概念一节的方式来编排内容,区分得清清楚楚、明明白白,以便
  • 2024-10-07大模型配置学习
    为什么在import里有一个GPT2,然后,在代码里面又有一个frompretrainedgpt2在import部分引入了GPT2Model后,在代码中使用GPT2Model.from_pretrained("gpt2")来加载预训练的模型。这样做的原因是,import只是引入了GPT2Model这个类,它提供了GPT-2的模型定义。而from_pretrai
  • 2024-06-22【大语言模型基础】GPT和GPT2区别
    GPT:参数量:1.17亿个参数。模型架构:采用12层的Transformer编码器架构GPT由pretraining和fine-tuning(SFT)两部分组成trainingobjective:predictthenexttoken做pretraining的好处:语料学习与理解:预训练可以让模型在大量的语料上学习语言的基本规律、词汇的语义、句子的结
  • 2024-05-20LLM大模型GPT2微调尝试
    1、作为安全从业者,以前搞逆向、挖漏洞、干渗透全靠人工推进,缺点很明显:无法自动化,甚至也无法半自动化,效率低(后续可以开发agent解决)知识面有限,存在很多知识盲点,导致遇到部分问题无法解决(可以通过增加知识库,然后rag检索或微调大模型解决)   尝试了一些在线的大模型(chat
  • 2024-04-29[Python急救站]基于Transformer Models模型完成GPT2的学生AIGC学习训练模型
    为了AIGC的学习,我做了一个基于TransformerModels模型完成GPT2的学生AIGC学习训练模型,指在训练模型中学习编程AI。在编程之前需要准备一些文件:首先,先win+R打开运行框,输入:PowerShell后输入:pipinstall-Uhuggingface_hub下载完成后,指定我们的环境变量:$env:HF_ENDPOINT="ht
  • 2024-04-05Megatron-DeepSpeed-GPU-多机训练
    Megatron-DeepSpeed-cuda-多机训练1.从ngc拉取pytorch:24.03-py3镜像2.安装nvidia-docker、创建容器3.安装Megatron-DeepSpeed环境4.安装openmpi和ssh服务5.拷贝公钥6.安装pdsh7.升级protobuf8.准备数据集9.创建配置文件10.开始测试本文演示了Megatron-DeepSpeed-GPU-
  • 2024-03-13【预训练语言模型】使用Transformers库进行GPT2预训练
    基于HuggingFace的Transformer库,在Colab或Kaggle进行预训练。本教程提供:英文数据集wikitext-2和代码数据集的预训练。注:可以自行上传数据集进行训练目的:跑通自回归语言模型的预训练流程一、准备1.1安装依赖!pipinstall-Udatasets!pipinstallaccelerate-U注意:在C
  • 2023-11-26在Megatron-Deepspeed项目中如何下载和预处理Wikipedia数据集
    更详细的查看https://github.com/marsggbo/Megatron-DeepSpeed/blob/main/tutorials/gpt2_wikipedia.md下载Wikipedia压缩数据集(enwiki-latest-pages-articles.xml.bz2)再使用wikiextractor工具将数据集解压缩pipinstallwikiextractorpython-mwikiextractor.WikiExt
  • 2023-10-07Langchain-Chatchat项目:2.1-通过GPT2模型来检索NebulaGraph
      在官方例子中给出了通过chain=NebulaGraphQAChain.from_llm(ChatOpenAI(temperature=0),graph=graph,verbose=True)来检索NebulaGraph图数据库。本文介绍了通过GPT2替换ChatOpenAI的思路和实现,暂时不考虑效果。之所以没用ChatGLM2是因为加载模型太慢,调试不方便,不过将GPT2
  • 2023-08-28带你上手基于Pytorch和Transformers的中文NLP训练框架
    本文分享自华为云社区《全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据》,作者:汀丶。1.简介目标:基于pytorch、transformers做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生
  • 2023-08-11开启想象翅膀:轻松实现文本生成模型的创作应用,支持LLaMA、ChatGLM、UDA、GPT2等模型,开箱即用
    开启想象翅膀:轻松实现文本生成模型的创作应用,支持LLaMA、ChatGLM、UDA、GPT2等模型,开箱即用1.介绍TextGen实现了多种文本生成模型,包括:LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型,开箱即用。1.1最新更新[2023/06/15]v1.0.0版本:新增ChatGLM/LLaMA/Bloom模
  • 2023-04-17:)深度学习模型如何统计params量-|
    :)深度学习模型如何统计params量-|1大概统计已知模型大小,如312M计算为312000000Bytes,浮点数据一个参数占4个字节,importtransformersimporttorchimportosfromtransformersimportGPT2TokenizerFast,GPT2LMHeadModel,GPT2ConfigfromtransformersimportBertT
  • 2023-03-12chatgpt系列读后感
    资料来源:李沐谈gpt1-3GPT1:用transformer的decoder作为base模型在unlabel的模型上做pretraining,然后放到下游任务做finetuning。从时间上来讲是第一个大预训练NLP模型,比b
  • 2023-03-10基于Mindspore2.0的GPT2预训练模型迁移教程
    摘要: 这篇文章主要目的是为了让大家能够清楚如何用MindSpore2.0来进行模型的迁移。本文分享自华为云社区《MindNLP-基于Mindspore2.0的GPT2预训练模型迁移教程》,作者:Sup
  • 2022-12-09Task04 学习GPT
    文章目录​​前言​​​​1GPT2和语言模型​​​​1.1什么是语言模型​​​​1.2语言模型的Transformer​​​​1.3与BERT的一个不同之处​​​​1.4Transformer模块
  • 2022-10-17GPT2代码详解
    这里主要解读transformers中关于GPT2的代码,主要涉及:GPT2Attention,GPT2Block,GPT2MLP以及GPT2Model#transformers安装condainstalltransformerspipinstalltransforme