格式
alpaca 格式的数据集应遵循以下格式:
[
{
"instruction": "user instruction (required)",
"input": "user input (optional)",
"output": "model response (required)",
"system": "system prompt (optional)",
"history": [
["user instruction in the first round (optional)", "model response in the first round (optional)"],
["user instruction in the second round (optional)", "model response in the second round (optional)"]
]
},
...
]
字段作用
- instruction: 必须提供,用户的指令或问题。
- input: 可选,提供上下文信息。
- output: 必须提供,模型对instruction的输出。
- system: 可选,系统提示或者说是prompt、角色设定等。
- history: 必须提供,一个列表,表示历史对话,为空则表示这是新的对话。只需要提供instruction和output即可。
例子
[
{
"instruction": "从以下文本中提取发生的事件类型、地点和时间。",
"input": "昨天,在加州的一家购物中心发生了一起火灾事故,幸好没有人员伤亡。",
"output": "事件类型: 火灾; 地点: 加州; 时间: 昨天",
"system": "你是一位信息分析师,擅长从文本中提取关键信息。",
"history": []
},
{
"instruction": "从以下文本中提取发生的事件类型、地点和时间。",
"input": "本周三,加州市中心的一座办公楼发生了爆炸,造成多人受伤。",
"output": "事件类型: 爆炸; 地点: 加州市中心; 时间: 本周三",
"system": "你是一位信息分析师,擅长从文本中提取关键信息。",
"history": [
["从以下文本中提取发生的事件类型、地点和时间。", "事件类型: 火灾; 地点: 加州; 时间: 昨天"]
]
},
{
"instruction": "从以下文本中提取发生的事件类型、地点和时间。",
"input": "上个月底,加州的一个工业园区内发生化学品泄漏,导致附近居民紧急疏散。",
"output": "事件类型: 化学品泄漏; 地点: 加州的一个工业园区; 时间: 上个月底",
"system": "你是一位信息分析师,擅长从文本中提取关键信息。",
"history": [
["从以下文本中提取发生的事件类型、地点和时间。", "事件类型: 火灾; 地点: 加州; 时间: 昨天"],
["从以下文本中提取发生的事件类型、地点和时间。", "事件类型: 化学品泄漏; 地点: 加州的一个工业园区; 时间: 上个月底"]
]
}
]