网站首页
编程语言
数据库
系统相关
其他分享
编程问答
为预
2024-07-03
Cosmopedia: 如何为预训练构建大规模合成数据集
本文概述了我们在生成含数十亿词元的合成数据集以复现Phi-1.5过程中所遇到的挑战及其解决方案,由此最终创建了Cosmopedia合成数据集。合成数据已成为机器学习社区的C位话题,其题中之义是用人工(如使用大语言模型(LLM))生成的数据模拟真实数据。传统上,构建用于有监督微调和