羊驼数据集52k,基于llama模型训练
此数据集是是使用llama模型自己生成数据,然后对这些生成进行过滤,以删除低质量或类似的生成,并将生成的数据添加回任务池。这个过程可以重复多次,从而产生大量的教学数据,这些数据可以用来微调语言模型,以更有效地遵循指令。此创建数据集的方法其实和目标检测任务创建高质量训练数据相似,也是用模型去审核训练数据
数据集地址: https://github.com/tatsu-lab/stanford_alpaca/blob/main/alpaca_data.json
以上数据的创建方法: https://github.com/yizhongw/self-instruct(如果需要的话重点看下这个)
创建方法的论文: https://arxiv.org/abs/2212.10560
标签:探索,训练,创建,模型,生成,https,数据 From: https://www.cnblogs.com/chentiao/p/17386131.html