Falcon：我们是靠洗数据洗败 LLaMA 的！

时间：2023-10-25 15:22:34浏览次数：33

标签：洗败模型互联网 LLaMA Falcon 数据

原文链接：https://blog.csdn.net/qq_27590277/article/details/131298092

思想：

从数据入手，想炼丹，先把好原材料的关。

这个模型仅使用“互联网语料”（不需要额外的数据源），就可以训练一个不错的大模型。

问题点：

数据、wikipedia、论文集这些数据集质量高，但是不易扩展，数量级起不来。

假设：世界上所有的信息都能在互联网信息中被找到，只是信息密度比【结构化的精选数据集】要更低。

方案：

互联网数据清洗

1 url过滤

2 内容抽取

3 语言识别

4 规则过滤：篇章级：整体长度、符号比率；句子级：关键词匹配“点赞”、"转发"、“展开”

5 去重 tokenizer+spark+simhash+faiss

6 基于统计知识的打分模型

结论：

FalCon的模型也是传统的Rotary Emb+Flash Attention的Decoder结构，从效果看，不管是pretrain还是finetuning，【数据质量】都比【模型结构】更重要。

标签：洗败,模型,互联网,LLaMA,Falcon,数据
From： https://www.cnblogs.com/Revelation/p/17787288.html

pip 手动安装 jieba包 | [babyllama2-chinese]
在复现babyllama2-chinese项目时，jieba无论是用pip还是conda进行安装都会报错，遂尝试手动安装，步骤如下：先参考一篇博客以及我自己的博客:conda、pip从本地安装包我直接进入pip官网：https://pypi.org搜索jieba包这里需要注意，如果需要下载历史版本，请点击Releasehisto......
私密离线聊天新体验！llama-gpt聊天机器人：极速、安全、搭载Llama 2
“私密离线聊天新体验！llama-gpt聊天机器人：极速、安全、搭载Llama2，尽享CodeLlama支持！”一个自托管的、离线的、类似chatgpt的聊天机器人。由美洲驼提供动力。100%私密，没有数据离开您的设备。Demohttps://github.com/getumbrel/llama-gpt/assets/10330103/5d1a76b8-ed03-4a51-9......
如何让 Llama2、通义千问开源大语言模型快速跑在函数计算上？
作者：寒斜阿里云智能技术专家「本文是“在Serverless平台上构建AIGC应用”系列文章的第一篇文章。」前言随着ChatGPT以及StableDiffusion，Midjourney这些新生代AIGC应用的兴起，围绕AIGC应用的相关开发变得越来越广泛，有呈井喷之势，从长远看这波应用的爆发不仅仅是停留......
LLM实践-在Colab上使用免费T4 GPU进行Chinese-Llama-2-7b-4bit推理
一、配置环境1、打开colab，创建一个空白notebook，在[修改运行时环境]中选择15GB显存的T4GPU.2、pip安装依赖python包!pipinstall--upgradeaccelerate!pipinstallbitsandbytestransformers_stream_generator!pipinstalltransformers!pipinstallsentencepiece!pip......
Llama2-Chinese项目：3.2-LoRA微调和模型量化
提供LoRA微调和全量参数微调代码，训练数据为data/train_sft.csv，验证数据为data/dev_sft.csv，数据格式为"<s>Human:"+问题+"\n</s><s>Assistant:"+答案。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程。1.LoRA微调脚本 LoRA微调脚本train/sft/finetune_lora......
手把手教你在Ubuntu上部署中文LLAMA-2大模型
一、前言 llama2作为目前最优秀的的开源大模型，相较于chatGPT，llama2占用的资源更少，推理过程更快，本文将借助llama.cpp工具在ubuntu(x86\ARM64）平台上搭建纯CPU运行的中文LLAMA2中文模型。二、准备工作 1、一个Ubuntu环境（本教程基于Ubuntu20LTS版操作） 2、确保你的环境可......
Llama2-Chinese项目：2.3-预训练使用QA还是Text数据集？
Llama2-Chinese项目给出pretrain的data为QA数据格式，可能会有疑问pretrain不应该是Text数据格式吗？而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术，给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
Llama2-Chinese项目：3.1-全量参数微调
提供LoRA微调和全量参数微调代码，训练数据为data/train_sft.csv，验证数据为data/dev_sft.csv，数据格式如下所示："<s>Human: "+问题+"\n</s><s>Assistant: "+答案举个例子，如下所示：<s>Human: 用一句话描述地球为什么是独一无二的。</s><s>Assistant: 因为地球是目前为止......
Llama2-Chinese项目：2.1-Atom-7B预训练
虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍，但是中文预训练数据的比例依然非常少，仅占0.13%，这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力，可以采用微调和预训练两种路径，其中：微调需要的算力资源少，能够快速实现一个中文Llama的雏形。但缺点也显而易见，只......
Llama2-Chinese项目：1-项目介绍和模型推理
Atom-7B与Llama2间的关系：Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢？因为原子生万物，Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型，如下所示：FlagAlpha/Atom-7BFlagAlpha/Llama2-Chinese-7b-ChatFlagAlpha/Llama2-Ch......

Falcon：我们是靠洗数据洗败 LLaMA 的！

相关文章

赞助商

阅读排行