格式

alpaca 格式的数据集应遵循以下格式：

[
 {
   "instruction": "user instruction (required)",
   "input": "user input (optional)",
   "output": "model response (required)",
   "system": "system prompt (optional)",
   "history": [
     ["user instruction in the first round (optional)", "model response in the first round (optional)"],
     ["user instruction in the second round (optional)", "model response in the second round (optional)"]
   ]
 },
 ...
]

字段作用

instruction: 必须提供，用户的指令或问题。
input: 可选，提供上下文信息。
output: 必须提供，模型对instruction的输出。
system: 可选，系统提示或者说是prompt、角色设定等。
history: 必须提供，一个列表，表示历史对话，为空则表示这是新的对话。只需要提供instruction和output即可。

例子

[
  {
    "instruction": "从以下文本中提取发生的事件类型、地点和时间。",
    "input": "昨天，在加州的一家购物中心发生了一起火灾事故，幸好没有人员伤亡。",
    "output": "事件类型: 火灾; 地点: 加州; 时间: 昨天",
    "system": "你是一位信息分析师，擅长从文本中提取关键信息。",
    "history": []
  },
  {
    "instruction": "从以下文本中提取发生的事件类型、地点和时间。",
    "input": "本周三，加州市中心的一座办公楼发生了爆炸，造成多人受伤。",
    "output": "事件类型: 爆炸; 地点: 加州市中心; 时间: 本周三",
    "system": "你是一位信息分析师，擅长从文本中提取关键信息。",
    "history": [
    	["从以下文本中提取发生的事件类型、地点和时间。", "事件类型: 火灾; 地点: 加州; 时间: 昨天"]
    ]
  },
  {
    "instruction": "从以下文本中提取发生的事件类型、地点和时间。",
    "input": "上个月底，加州的一个工业园区内发生化学品泄漏，导致附近居民紧急疏散。",
    "output": "事件类型: 化学品泄漏; 地点: 加州的一个工业园区; 时间: 上个月底",
    "system": "你是一位信息分析师，擅长从文本中提取关键信息。",
    "history": [
    	["从以下文本中提取发生的事件类型、地点和时间。", "事件类型: 火灾; 地点: 加州; 时间: 昨天"],
    	["从以下文本中提取发生的事件类型、地点和时间。", "事件类型: 化学品泄漏; 地点: 加州的一个工业园区; 时间: 上个月底"]
    ]
  }
]

参考

Qwen官方文档

CSDN博客

标签：地点,alpaca,output,模型,instruction,input,格式,文本,加州
From： https://www.cnblogs.com/ag-chen/p/18430783

KG Structure as Prompt：利用知识图谱构建Prompt，提高大模型对因果关系的理解
KGStructureasPrompt：利用知识图谱构建Prompt，提高大模型对因果关系的理解秒懂大纲提出背景解法拆解创意视角中文意译论文：KnowledgeGraphStructureasPrompt:ImprovingSmallLanguageModelsCapabilitiesforKnowledge-basedCausalDiscovery代码：https://github.com/l......
AI大模型知识点梳理：大模型是什么？大模型发展历程、底层原理、优点和不足、如何学习大模
一、AI大模型是什么AI大模型是指具有巨大参数量的深度学习模型，通常包含数十亿甚至数万亿个参数。这些模型可以通过学习大量的数据来提高预测能力，从而在自然语言处理、计算机视觉、自主驾驶等领域取得重要突破。AI大模型的定义具体可以根据参数规模来分类。根据OpenAI的分类方法，可以......
模型压缩：CNN和Transformer通用，修剪后精度几乎无损，速度提升40%
前言随着目标检测的蓬勃发展，近年来提出了几种深度卷积神经网络模型，例如R-CNN、SSD和YOLO等。然而，随着网络变得越来越复杂，这些模型的规模不断增加，这使得在现实生活中将这些模型部署到嵌入式设备上变得越来越困难。因此，开发一种高效快速的物体检测模型以在不影响目标检测质量的情况下......
大模型面试百问百答
大家好，这里是大模型八哥。今天分享大模型面试相关知识点，持续更新。1.RAG技术体系的总体思路数据预处理->分块（这一步骤很关键，有时候也决定了模型的效果）->文本向量化->query向量化->向量检索->重排->query+检索内容输入LLM->输出2.使用外挂知识库主要为了解决什么问......
大模型算法岗常见面试题100道（值得收藏）
大模型应该是目前当之无愧的最有影响力的AI技术，它正在革新各个行业，包括自然语言处理、机器翻译、内容创作和客户服务等等，正在成为未来商业环境的重要组成部分。截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来......
大模型应用曙光 - 10X压缩技术
关注TechLead，复旦AI博士，分享AI领域全维度知识与研究。拥有10+年AI领域研究经验、复旦机器人智能实验室成员，国家级大学生赛事评审专家，发表多篇SCI核心期刊学术论文，上亿营收AI产品研发负责人。如何在不牺牲性能的情况下将大型语言模型缩小十倍虽然LLM的巨大规模赋予了它们在各......
crnn_migraphx用于端到端地对不定长的文本序列进行识别的OCR模型
CRNN论文AnEnd-to-EndTrainableNeuralNetworkforImage-basedSequenceRecognitionandItsApplicationtoSceneTextRecognitionhttps://arxiv.org/abs/1507.05717模型结构CRNN模型的主要结构包括基于CNN的图像特征提取模块以及基于双向LSTM的文字序列特征提取......
baichuan_lmdeploy大规模对话问答语言模型
Baichuan论文无模型结构Baichuan系列模型是由百川智能开发的开源大规模预训练模型，包含7B和13B等规模。其中，Baichuan-7B在大约1.2万亿tokens上训练的70亿参数模型，支持中英双语，上下文窗口长度为4096。模型具体参数：模型名称隐含层维度层数头数词表大小总参数量训练数据(toke......
用于将日期时间表示为日期和时间的 Pydantic 模型
我为日期时间创建了一个Pydantic模型，它将处理解析一个类似于{"date":"2021-07-01","time":"12:36:23"}的JSON对象datetime(2021,7,1,12,36,23)它还为模型生成正确的JSON架构。classTimestampWithSplit(RootModel):root:datetime......
基于父模型归档的 Pydantic 联合判别器
我有这样的模型：classFoo(BaseModel):protocol:strprotocol_params:Union[ProtocolOneParam,ProtocolTwoParam]ProtocolOneParam和ProtocolTwoParam没有具有可区分值的相同字段，因此我可以将它们用作Discriminator，而我可以理解哪个模......

大模型-alpaca格式数据说明

格式

例子

参考

相关文章

赞助商

阅读排行