框架:
1、https://github.com/LianjiaTech/BELLE
支持Docker
2、https://github.com/vllm-project/vllm
3、https://github.com/hiyouga/LLaMA-Factory/
一个训练框架,比起BELLE来说bug会少一点,但是不支持docker
数据集:
- https://huggingface.co/datasets/QingyiSi/Alpaca-CoT
- https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
- https://huggingface.co/datasets/vicgalle/alpaca-gpt4
- https://platypus-llm.github.io/ 手工打造的英文数据集,质量很高
- https://huggingface.co/datasets/BAAI/COIG-PC 似乎没清洗
思路:
训模型的时候可以先考虑一下是个通用任务还是特定任务,用LORA、P-Tuning还是全量微调。
标签:datasets,co,LLM,huggingface,github,https,资料,整理,com From: https://www.cnblogs.com/lucifer1997/p/17796114.html