• 2024-07-03Cosmopedia: 如何为预训练构建大规模合成数据集
    本文概述了我们在生成含数十亿词元的合成数据集以复现Phi-1.5过程中所遇到的挑战及其解决方案,由此最终创建了Cosmopedia合成数据集。合成数据已成为机器学习社区的C位话题,其题中之义是用人工(如使用大语言模型(LLM))生成的数据模拟真实数据。传统上,构建用于有监督微调和