首页 > 其他分享 >中文TigerBot-70B大模型:领先Llama-2,全球开源新标杆,300B数据驱动

中文TigerBot-70B大模型:领先Llama-2,全球开源新标杆,300B数据驱动

时间:2023-12-22 22:32:36浏览次数:46  
标签:https 300B 模型 算法 TigerBot Llama 数据 70B

引言

随着大型语言模型(LLM)在自然语言处理领域的日益重要,新型多语言多任务模型——TigerBot-70B的问世,标志着全球范围内一个新的技术里程碑的达成。TigerBot-70B不仅在性能上匹敌行业巨头如OpenAI的模型,而且其创新算法和数据处理方式在行业内引起广泛关注。

模型概览

TigerBot-70B是一款集成700亿参数的多语言多任务LLM,其基于OpenAI InstructGPT论文框架,并在多个公开NLP数据集上进行自动评测。最显著的成就是,即使只是最小可行产品(MVP),TigerBot-70B的综合表现已达到OpenAI相同大小模型的96%。

中文TigerBot-70B大模型:领先Llama-2,全球开源新标杆,300B数据驱动_多语言

核心特点

  • 模型和数据: TigerBot-70B提供了多个版本。该模型是在Llama-2-70b的基础上,通过300B tokens多语言数据继续预训练而来,着重于数据的质量和多样性。
  • 算法创新: 模型采用了诸如GQA (group-query-attention), flash-attention, RoPE (rotary-position-embedding), holistic-training等前沿算法,确保了高计算效率与卓越的模型性能。
  • 训练优化: 在训练过程中,TigerBot-70B使用了tensor/pipeline-partition技术,有效突破了内存和通信限制,实现了在大规模分布式环境下的高效训练。
  • 微调策略: TigerBot-70B-base在20M指令完成数据上进行SFT微调,同时采用人类标注的10K gold-set数据进行rejection-sampling的对齐微调,进一步提升了模型的实用性和准确性。

中文TigerBot-70B大模型:领先Llama-2,全球开源新标杆,300B数据驱动_数据_02

训练和数据处理

在TigerBot-70B的训练过程中,特别重视数据的质量和处理方式。开发团队通过精心设计的数据清洗算法,去除了网络口语化和低知识密度等问题,确保了数据的高质量。

中文TigerBot-70B大模型:领先Llama-2,全球开源新标杆,300B数据驱动_多任务_03

模型评测

TigerBot-70B在业内主流的10项基准测试集上进行了全面评测,这些测试集包括mmlu, arc, squad_v2等。评测结果显示,TigerBot-70B在阅读理解、推理、世界知识、常识问答、数理和代码等领域的能力均优于Llama-2-70B,标志着它在全球范围内的领先地位。

中文TigerBot-70B大模型:领先Llama-2,全球开源新标杆,300B数据驱动_多语言_04

结语

TigerBot-70B的问世,不仅展示了数据驱动和算法创新在LLM领域的重要性,更为全球的AI研究和应用开发者提供了新的、强大的工具。随着模型的开源和免费商用政策,TigerBot-70B预计将在教育、科研以及更广泛的行业应用中发挥重要作用,推动整个AI领域的进一步发展。

模型下载

Huggingface模型下载

https://huggingface.co/TigerResearch

AI快站模型免费加速下载

https://aifasthub.com/models/TigerResearch

标签:https,300B,模型,算法,TigerBot,Llama,数据,70B
From: https://blog.51cto.com/u_16323307/8939190

相关文章

  • llama大模型部署
    看模型加载的参数设置.importtorch#初始化HalfTensorh=torch.tensor([1.0,2.0,3.0],dtype=torch.half)#h=torch.tensor([1.0,2.0,3.0],dtype=torch.float16)#跟上面一行一样.#查看数据类型print(h.dtype)importaccelerateimportbitsandbytesfromtran......
  • llama的hf源码结构
    上一个博客我们看了rope.那么llama的hidden_states就没啥难点了.再整体把握一下hf里面llama的代码结构.文件是:D:\Users\admin\miniconda3\Lib\site-packages\transformers\models\llama\modeling_llama.py基座:classLlamaModel(LlamaPreTrainedModel):这个模型输入bs,se......
  • 国产DeepSeek Coder 33B开源:创新代码AI,性能优于CodeLlama
    引言近日,国产AI领域迎来了一项重大突破:DeepSeek团队正式发布了DeepSeekCoder33B模型,这一基于最新人工智能技术的代码生成模型不仅完全开源,而且在多项评测中显示出优于同类产品CodeLlama的卓越性能。Huggingface模型下载:https://huggingface.co/deepseek-aiAI快站模型免费加速下......
  • llama的rope源码阅读
    关键代码的理解:classLlamaRMSNorm(nn.Module):def__init__(self,hidden_size,eps=1e-6):"""LlamaRMSNormisequivalenttoT5LayerNorm"""super().__init__()self.weight=nn.Parameter(to......
  • 国产670亿参数的DeepSeek:超越Llama2,全面开源
    模型概述DeepSeek,一款国产大型语言模型(LLM),凭借其670亿参数的规模,正引领着人工智能领域的新浪潮。这款模型不仅在多项中英文公开评测榜单上超越了700亿参数的Llama2,而且在推理、数学和编程能力方面表现突出。最引人注目的是,DeepSeek在匈牙利最新高中数学考试中获得了65分的高分,显示......
  • LLAMA预训练:大模型的潜力与挑战
    随着人工智能技术的不断发展,大型深度学习模型在各个领域的应用越来越广泛。其中,Bloom和LLAMA(LargeLanguageModelfromOuterSpace)两个大模型备受瞩目。这些模型在预训练阶段具有许多共同点,本文将重点介绍它们的预训练方法。一、预训练目标大型深度学习模型的预训练目标是通过大......
  • llama-factory fine-tuning 4 (mixtral fine-tuning)
    introductionfine-tuningcommandclicktoviewthecodeCUDA_VISIBLE_DEVICES=0pythonsrc/train_bash.py\--stagesft\--do_train\--model_name_or_path../Mixtral-8x7B-v0.1/\--datasetalpaca_en\--templatemistral\--q......
  • 大模型那么火,教你一键ModelArts玩转开源LlaMA大模型
     本文分享自华为云社区《大模型那么火,教你一键Modelarts玩转开源LlaMA(羊驼)大模型》,作者:码上开花_Lancer。近日,LlaMA(羊驼)这个大模型再次冲上热搜!LLaMA(LargeLanguageModelMetaAI),由MetaAI发布的一个开放且高效的大型基础语言模型,共有7B、13B、33B、65B(650亿)四种版本。......
  • 大模型那么火,教你一键Modelarts玩转开源LlaMA(羊驼)大模型
    本文分享自华为云社区《大模型那么火,教你一键Modelarts玩转开源LlaMA(羊驼)大模型》,作者:码上开花_Lancer。近日, LlaMA(羊驼)这个大模型再次冲上热搜!LLaMA(LargeLanguageModelMetaAI),由MetaAI发布的一个开放且高效的大型基础语言模型,共有7B、13B、33B、65B(650亿)四种版本......
  • 使用双卡/8卡3090微调llama2-70B/13B模型
    写在前面本篇博文将会教大家如何在消费级的设备(或者各种超级便宜的洋垃圾上)实现13B/70B等无法在单张消费级显卡上加载(但可以在一台机器上的多张卡上加载)的模型的微调。由于绝大部分做实验,仅要求实现推理,或者在微调时没有资源上到全量/13B+级别的真·大模型的微调,没有涉及到将一......