首页 > 其他分享 >Falcon:我们是靠洗数据洗败 LLaMA 的!

Falcon:我们是靠洗数据洗败 LLaMA 的!

时间:2023-10-25 15:22:34浏览次数:33  
标签:洗败 模型 互联网 LLaMA Falcon 数据

原文链接:https://blog.csdn.net/qq_27590277/article/details/131298092

思想:

从数据入手,想炼丹,先把好原材料的关。

这个模型仅使用“互联网语料”(不需要额外的数据源),就可以训练一个不错的大模型。

问题点:

数据、wikipedia、论文集这些数据集质量高,但是不易扩展,数量级起不来。

假设:世界上所有的信息都能在互联网信息中被找到,只是信息密度比【结构化的精选数据集】要更低。

方案:

互联网数据清洗

1 url过滤

2 内容抽取

3 语言识别

4 规则过滤:篇章级:整体长度、符号比率;句子级:关键词匹配“点赞”、"转发"、“展开”

5 去重 tokenizer+spark+simhash+faiss

6 基于统计知识的打分模型

结论:

FalCon的模型也是传统的Rotary Emb+Flash Attention的Decoder结构,从效果看,不管是pretrain还是finetuning,【数据质量】都比【模型结构】更重要。

 

标签:洗败,模型,互联网,LLaMA,Falcon,数据
From: https://www.cnblogs.com/Revelation/p/17787288.html

相关文章

  • pip 手动安装 jieba包 | [babyllama2-chinese]
    在复现babyllama2-chinese项目时,jieba无论是用pip还是conda进行安装都会报错,遂尝试手动安装,步骤如下:先参考一篇博客以及我自己的博客:conda、pip从本地安装包我直接进入pip官网:https://pypi.org搜索jieba包这里需要注意,如果需要下载历史版本,请点击Releasehisto......
  • 私密离线聊天新体验!llama-gpt聊天机器人:极速、安全、搭载Llama 2
    “私密离线聊天新体验!llama-gpt聊天机器人:极速、安全、搭载Llama2,尽享CodeLlama支持!”一个自托管的、离线的、类似chatgpt的聊天机器人。由美洲驼提供动力。100%私密,没有数据离开您的设备。Demohttps://github.com/getumbrel/llama-gpt/assets/10330103/5d1a76b8-ed03-4a51-9......
  • 如何让 Llama2、通义千问开源大语言模型快速跑在函数计算上?
    作者:寒斜阿里云智能技术专家「本文是“在Serverless平台上构建AIGC应用”系列文章的第一篇文章。」前言随着ChatGPT以及StableDiffusion,Midjourney这些新生代AIGC应用的兴起,围绕AIGC应用的相关开发变得越来越广泛,有呈井喷之势,从长远看这波应用的爆发不仅仅是停留......
  • LLM实践-在Colab上使用免费T4 GPU进行Chinese-Llama-2-7b-4bit推理
    一、配置环境1、打开colab,创建一个空白notebook,在[修改运行时环境]中选择15GB显存的T4GPU.2、pip安装依赖python包!pipinstall--upgradeaccelerate!pipinstallbitsandbytestransformers_stream_generator!pipinstalltransformers!pipinstallsentencepiece!pip......
  • Llama2-Chinese项目:3.2-LoRA微调和模型量化
      提供LoRA微调和全量参数微调代码,训练数据为data/train_sft.csv,验证数据为data/dev_sft.csv,数据格式为"<s>Human:"+问题+"\n</s><s>Assistant:"+答案。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程。1.LoRA微调脚本  LoRA微调脚本train/sft/finetune_lora......
  • 手把手教你在Ubuntu上部署中文LLAMA-2大模型
     一、前言 llama2作为目前最优秀的的开源大模型,相较于chatGPT,llama2占用的资源更少,推理过程更快,本文将借助llama.cpp工具在ubuntu(x86\ARM64)平台上搭建纯CPU运行的中文LLAMA2中文模型。二、准备工作 1、一个Ubuntu环境(本教程基于Ubuntu20LTS版操作) 2、确保你的环境可......
  • Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
  • Llama2-Chinese项目:3.1-全量参数微调
      提供LoRA微调和全量参数微调代码,训练数据为data/train_sft.csv,验证数据为data/dev_sft.csv,数据格式如下所示:"<s>Human: "+问题+"\n</s><s>Assistant: "+答案  举个例子,如下所示:<s>Human: 用一句话描述地球为什么是独一无二的。</s><s>Assistant: 因为地球是目前为止......
  • Llama2-Chinese项目:2.1-Atom-7B预训练
    虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力,可以采用微调和预训练两种路径,其中:微调需要的算力资源少,能够快速实现一个中文Llama的雏形。但缺点也显而易见,只......
  • Llama2-Chinese项目:1-项目介绍和模型推理
    Atom-7B与Llama2间的关系:Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢?因为原子生万物,Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型,如下所示:FlagAlpha/Atom-7BFlagAlpha/Llama2-Chinese-7b-ChatFlagAlpha/Llama2-Ch......