首页 > 其他分享 >【Datawhale AI 冬令营】定制专属大模型笔记

【Datawhale AI 冬令营】定制专属大模型笔记

时间:2024-12-11 22:32:29浏览次数:5  
标签:冬令营 AI 模型 微调 Datawhale 学习 任务 定制 数据

学习目标:

  • 跟着学习手册体验AI嬛嬛,学习定制专属模型
  • 创建自己的AI应用

学习内容:

  1. 如何定制大模型
  2. 构建数据集
  3. 微调模型
  4. 评价模型效果

学习时间:

  • 12月10日–跑通demo
  • 12月11日–学习数据集构建,如何定制大模型

学习总结:

  • 定制专属大模型:通过投喂特定语料,改造大模型,让模型在某些专业领域或特定任务中表现得更为出色
    • 模型定制,一般可指微调开发(往往是使用 LoRA微调技术),构建 垂直领域的大模型(与通用大模型对应)
    • 通用大模型通常是大模型厂商根据自己的 优势数据 配比,训练出的一个大模型
  • 微调数据集是定制大模型的关键:清洗数据、处理、生成数据、归类数据–》影响最后效果
  • Alpaca格式数据集
    • 特点与应用:结构简单清晰,易于理解和处理。它明确地将任务指令和输入内容分离开来,能够很好地适用于各种自然语言处理任务,像文本生成、翻译、总结等任务,尤其适合单轮的、以任务为导向的指令微调任务.
    • 字段说明
      • instruction:任务的指令,模型需要完成的具体操作,一般可以对应到用户输入的 Prompt 。
      • input:任务所需的输入内容。若任务是开放式的,或者不需要明确输入,可以为空字符串。
      • output:在给定指令和输入的情况下,模型需要生成的期望输出,也就是对应的正确结果或参考答案
 {
    "instruction": "小姐,别的秀女都在求中选,唯有咱们小姐想被撂牌子,菩萨一定记得真真儿的——",
    "input": "",
    "output": "嘘——都说许愿说破是不灵的。"
}

课后问题:

  1. 如何 定制大模型 ?用到的 技术 主要是什么?
    专属大模型最方便的步骤 ≈ 指定数据集 + 开源大模型 + 微调平台(如讯飞星辰Maas)
    微调技术(Lora)
  2. 什么是 微调 ? 为什么 要微调?
  3. 微调得到的是什么? 微调得到的模型 可以用来做什么?怎么用?
  4. 微调的 关键步骤 是什么?
  5. 什么样的 数据 可以用来微调?从哪里可以找到?
  6. 如何构建自己的 微调数据集 ?
  7. 如何评价自己的 模型效果 ?并且有较为客观的数据支撑?
  8. 我要如何基于自己的想法 定制一个效果优秀的大模型?

标签:冬令营,AI,模型,微调,Datawhale,学习,任务,定制,数据
From: https://blog.csdn.net/weixin_42331581/article/details/144410981

相关文章

  • 转载:【AI系统】推理流程全景
    本文介绍神经网络模型在部署态中的两种方式:云侧部署和边缘侧部署。其中,云侧部署适用于云服务器等具备强大计算能力和存储空间的环境,可以实现高吞吐量和集中的数据管理,但可能面临高成本、网络延迟和数据隐私等挑战。边缘侧部署适用于边缘设备和移动设备等资源受限的环境,可以通过模......
  • 转载:【AI系统】CUDA 编程模式
    前面的文章对AI芯片SIMD和SIMT计算本质进行了分析,结合英伟达CUDA实现对SIMD和SIMT进行了对比,本文将以英伟达GPU为例,讲解GPU的编程模型。GPU编程模型CUDA英伟达公司于2007年发布了CUDA,支持编程人员利用更为通用的方式对GPU进行编程,更好地发挥底层硬件强大......
  • 转载:【AI系统】推理引擎架构
    在深入探讨推理引擎的架构之前,让我们先来概述一下推理引擎的基本概念。推理引擎作为AI系统中的关键组件,负责将训练好的模型部署到实际应用中,执行推理任务,从而实现智能决策和自动化处理。随着AI技术的快速发展,推理引擎的设计和实现面临着诸多挑战,同时也展现出独特的优势。本文......
  • 转载:【AI系统】推理系统架构
    推理系统架构是AI领域中的一个关键组成部分,它负责将训练好的模型应用于实际问题,从而实现智能决策和自动化。在构建一个高效的推理系统时,我们不仅需要考虑其性能和准确性,还需要确保系统的可扩展性、灵活性以及对不同业务需求的适应性。在本文中,我们将主要以NVIDIATritonInfere......
  • 转载:【AI系统】AI 芯片的思考
    为了满足数据中心算力需求,谷歌在2014年开始研发基于特定领域架构(Domain-specificArchitecture,DSA)的TPU(TensorProcessingUnit),专门为深度学习任务设计的定制硬件加速器,加速谷歌的机器学习工作负载,特别是训练和推理大模型。DavidPatterson(大卫·帕特森)是计算机体系结构领域科......
  • 转载:【AI系统】昇腾推理引擎 MindIE
    本文将介绍华为昇腾推理引擎MindIE的详细内容,包括其基本介绍、关键功能特性以及不同组件的详细描述。本文内容将深入探讨MindIE的三个主要组件:MindIE-Service、MindIE-Torch和MindIE-RT,以及它们在服务化部署、大模型推理和推理运行时方面的功能特性和应用场景。通过本文的......
  • 转载:【AI系统】推理参数
    本文将介绍AI模型网络参数方面的一些基本概念,以及硬件相关的性能指标,为后面让大家更了解模型轻量化做初步准备。值得让人思考的是,随着深度学习的发展,神经网络被广泛应用于各种领域,模型性能的提高同时也引入了巨大的参数量和计算量(如下图右所示),一般来说模型参数量越大,精度越高,性......
  • 转载:【AI系统】推理引擎示例:AscendCL
    AscendCL作为华为Ascend系列AI处理器的软件开发框架,为用户提供了强大的编程支持。通过AscendCL,开发者可以更加高效地进行AI应用的开发和优化,从而加速AI技术在各个领域的应用和落地。AscendCL的易用性和高效性,使得它成为开发AI应用的重要工具之一。本文将介绍Ascend......
  • 转载:【AI系统】轻量级CNN模型综述
    神经网络模型被广泛的应用于工业领域,并取得了巨大成功。然而,由于存储空间以及算力的限制,大而复杂的神经网络模型是难以被应用的。首先由于模型过于庞大,计算参数多(如下图所示),面临内存不足的问题。其次某些场景要求低延迟,或者响应要快。所以,研究小而高效的CNN模型至关重要。本......
  • 转载:【AI系统】算子开发编程语言 Ascend C
    本文将深入探讨昇腾算子开发编程语言AscendC,这是一种专为昇腾AI处理器算子开发设计的编程语言,它原生支持C和C++标准规范,最大化匹配用户的开发习惯。AscendC通过多层接口抽象、自动并行计算、孪生调试等关键技术,极大提高算子开发效率,助力AI开发者低成本完成算子开发和模......