首页 > 其他分享 >进行领域大模型的训练技巧介绍

进行领域大模型的训练技巧介绍

时间:2024-12-06 16:28:43浏览次数:6  
标签:技巧 训练 模型 领域 数据量 数据 进行

问题一:进行领域大模型预训练应用哪些数据集比较好?
答:通过分析发现现有的开源大模型进行预训练的过程中会加入书籍、论文等数据。主要是因为这些数据的数据质量较高,领域相关性比较强,知识覆盖率(密度)较大,可以让模型更适应考试。给我们自己进行大模型预训练的时候提供了一个参考。同时领域相关的网站内容、新闻内容也是比较重要的数据。

问题二:领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力?
答:如果仅仅使用领域数据集进行模型训练,模型很容易出现灾难性遗忘现象,为了解决这个问题通常在领域训练的过程中加入通用数据集。那么这个比例多少比较合适呢?目前还没有一个准确的答案。主要与领域数据量有关系,当数据量没有那么多时,一般领域数据与通用数据的比例在1:5到1:10之间是比较合适的。

问题三:进行SFT操作的时候,基座模型选用Chat还是Base?
答:在进行SFT实验的时候,大模型选用Chat还是Base作为基座,需要根据SFT的数据量进行决定。如果你只拥有小于10k数据,建议你选用Chat模型作为基座进行微调;如果你拥有100k的数据,建议你在Base模型上进行微调。
通过实际实验验证,模型效果基于chat与base模型训练出来的效果差别不是很大,在这个问题上不必纠结。

标签:技巧,训练,模型,领域,数据量,数据,进行
From: https://blog.csdn.net/wlqkycg/article/details/144295209

相关文章

  • RCE漏洞及绕过技巧:从基础到高级实战攻略
    文章目录常见漏洞执行函数:1.系统命令执行函数2.代码执行函数命令拼接符读取文件命令绕过:空格过滤绕过关键字绕过长度过滤绕过无参数命令执行绕过无字母数字绕过利用%0A截断利用回溯绕过利用create_function()代码注入无回显RCE1.反弹shell2.dnslog外带数据法3.msf反向回......
  • 大模型输出参数说明
    参数名含义取值范围engine大模型后台推理引擎,目前可选的推理引擎有基础模型,古文模型,对话模型和翻译模型‘base_10B’:基础模型translate’:翻译模型‘dialog’:对话模型'‘rhythm_poems’:古文模型temprature模拟退火温度参数。值越大,使得概率分布越尖锐,模型的创造......
  • 注意力训练与认知能力提升:如何通过专注力增强你的大脑
    注意力训练,认知能力,专注力,大脑,神经科学,机器学习,深度学习,注意力机制1.背景介绍在当今信息爆炸的时代,我们每天都被各种信息轰炸,注意力被不断分散。如何集中注意力,提升认知能力,成为了一个越来越重要的课题。注意力是认知功能的基础,它决定了我们能够有效地处理信息的能力......
  • 【comfyui教程:】ComfyUI | 最简单Flux模型入门教程,让你的图片告别AI味
    前言最近有一款名为FLUX的AI绘画模型被誉为“小红书美女爆款风格制造机”,它产出的图片具有超强的的真实感,在AI圈超级火!像下面这几张美女图片,就是用的Flux模型FLUX模型产出的图片,具有超强的真实感。在小红书和视频号、抖音等社交媒体,热度极高。自从有了FLUX模型,小红......
  • 已入职华为大模型算法岗,面试真的很水的…
    觉得中大厂面试太难的,完全就是自己没准备充分,技术不到位,没准备的面试完全是浪费时间,更是对自己的不负责!今天我给大家分享一下我整理的大模型面试专题和答案,其中大部分都是面试常问的面试题,可以对照这查漏补缺奥!祝大家早日上岸呀!方向:大模型算法工程师整个面试持续了1小......
  • 大语言模型 —— 使用RAG工具Anything LLM䢎本地部署AI大模型投喂数据,创建本地私有AI
    相关:https://www.youtube.com/watch?v=77990wI3LZkhttps://anythingllm.com/https://ollama.com/......
  • 如果你真的想自学大模型,请参考我的方法,系统入门看这篇就够了!!
    第一阶段:学习前置知识:Python基础、Linux基础学习目的:1.熟练掌握Python语言,熟悉常用的Python库和工具,如NumPy、Pandas、TensorFlow、PyTorch等。2.具备NLP相关的基础知识,包括文本预处理、分词、词性标注等。3.对大模型有一定了解,包括Transformer模型的结构......
  • 所有大模型领域学习者必读论文,没有之一!由深度学习三巨头联合撰写!
    本书介绍《深度学习》这篇论文是深度学习领域的一个里程碑,由三位领域内的领军人物——YannLeCun、YoshuaBengio和GeoffreyHinton——联手撰写。这篇综述性的文章首次集结了他们对深度学习的深刻见解,并在2015年发表于《自然》杂志上。尽管这篇论文已经发表了近十年,但它......
  • 人工智能大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲
    LLaMA-Factory——一个高效、易用的大模型训练与微调平台。它支持多种预训练模型,并且提供了丰富的训练算法,包括增量预训练、多模态指令监督微调、奖励模型训练等。LLaMA-Factory的优势在于其简单易用的界面和强大的功能。用户可以在不编写任何代码的情况下,在本地完成上百种预......
  • 南科大龚欣课题组在ABCA蛋白结构和转运机制模型领域的研究进展
    研究背景ABC转运蛋白(ATP-bindingcassettetransporter)是一类ATP驱动泵,在人类基因组已发现48种,分为7个亚家族(A-G)。ABC转运蛋白由两个跨膜结构域(TMD)和两个胞质侧ATP结合域(NBD)组成。TMD通过构象变化实现分子跨膜转运,NBD结合或水解胞浆中的ATP,确保转运底物所需能量。而在ABCA亚......