原文链接:https://blog.csdn.net/qq_27590277/article/details/131298092
思想:
从数据入手,想炼丹,先把好原材料的关。
这个模型仅使用“互联网语料”(不需要额外的数据源),就可以训练一个不错的大模型。
问题点:
数据、wikipedia、论文集这些数据集质量高,但是不易扩展,数量级起不来。
假设:世界上所有的信息都能在互联网信息中被找到,只是信息密度比【结构化的精选数据集】要更低。
方案:
互联网数据清洗
1 url过滤
2 内容抽取
3 语言识别
4 规则过滤:篇章级:整体长度、符号比率;句子级:关键词匹配“点赞”、"转发"、“展开”
5 去重 tokenizer+spark+simhash+faiss
6 基于统计知识的打分模型
结论:
FalCon的模型也是传统的Rotary Emb+Flash Attention的Decoder结构,从效果看,不管是pretrain还是finetuning,【数据质量】都比【模型结构】更重要。
标签:洗败,模型,互联网,LLaMA,Falcon,数据 From: https://www.cnblogs.com/Revelation/p/17787288.html