- 2024-12-10模型并行-Megatron-LM
1.原理 针对transformer模型的模型并行方法,利用矩阵乘法的特性,将每个层切开,放入不同GPU中。对于注意力层,是按注意力头进行切分;对于MLP层,是按矩阵列进行切分。整个执行流程中,每个层的需要进行数据通信,因为对于矩阵切分后的乘法要得到最终的结果需要每个分块的结果进行矩
- 2024-12-02大模型面试题:prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点?
我整理了1000道算法面试题:获取各模型的atttion计算逻辑如下PrefixLM(前缀语言模型)定义:PrefixLM,即前缀语言模型,是一种在给定一个文本前缀的情况下,模型能够基于这个前缀生成接下来的文本内容。注意力机制:在这种模型中,解码器(Decoder)可以访问整个输入序列(包括前缀和之前生
- 2024-12-13类别不均衡处理
resamplingoversamplingrandom oversamplinggeneratesyntheticexamples:SMOTE(syntheticminorityoversamplingtechnique)byaneareastneighborsapproachundersamplingrandomundersamplingTomeklinks model-levelmethodsuseclass-banla
- 2024-09-27Lora微调的Bug
问题这里,记录一下在使用LoRa进行微调时遇到的错误。设备不一致的问题ValueError:CaughtValueErrorinreplica0ondevice0.这个问题时有由于多块GPU不在一个设备上引起的。解决方法很简单。使用当个GPU,最直接的操作就是CUDA_VISIBLE_DEVICES=0pythonxxx.py。制定GPU的
- 2024-09-26Linux系统之温度监控工具——lm_sensors的安装和基本使用
Linux系统之温度监控工具——lm_sensors的安装和基本使用一、lm_sensors介绍lm_sensors,是一款基于linux系统的硬件监控的软件。可以监控主板,CPU的工作电压,温度等数据。rpm包下载地址获取码2344:lm_sensors-3.4.0-6.20160601gitf9185e5.el7.x86_64.rpm二、检测安装环境1.检查
- 2024-09-19蓝易云服务器 - ubuntu查看相关硬件温度教程
要查看Ubuntu系统中相关硬件温度,你可以使用 lm-sensors工具。安装和使用步骤如下:安装 lm-sensors:在终端中执行以下命令安装 lm-sensors:sudoapt-getupdatesudoapt-getinstalllm-sensors配置 lm-sensors:在终端中执行以下命令配置 lm-sensors:sudosensors-detect检测硬件
- 2024-09-16Jina AI 发布 Reader-LM-0.5B 和 Reader-LM-1.5B:为网络数据处理提供多语种、长语境和高效小语言模型,彻底改变 HTML 到 Markdown 的转换方式
JinaAI发布的Reader-LM-0.5B和Reader-LM-1.5B标志着小语言模型(SLM)技术的一个重要里程碑。这些模型旨在解决一个独特而具体的挑战:将开放网络中原始、嘈杂的HTML转换为干净的标记符格式。这项任务看似简单,却面临着复杂的挑战,尤其是在处理现代网络内容中的大量噪音
- 2024-09-11Awesome-LM-SSP学习资料大全 - 大型语言模型安全、隐私与保障资源汇总
Awesome-LM-SSP学习资料大全-大型语言模型安全、隐私与保障资源汇总Awesome-LM-SSP是一个致力于收集大型语言模型(LLM)安全性、隐私性和可靠性相关资源的开源项目。本文将为大家介绍该项目的主要内容和学习资源,帮助读者快速了解和使用这个宝贵的知识库。项目简介Awesome-
- 2024-09-07Distributed Training: DeepSpeed ZeRO 1/2/3 + Accelerate, Megatron-LM
1IntroductionGithub:https://github.com/microsoft/DeepSpeedZeRO:MemoryOptimizationsTowardTrainingTrillionParameterModelsZeRO-Offload:DemocratizingBillion-ScaleModelTrainingZeRO-Infinity:BreakingtheGPUMemoryWallforExtremeScaleDee
- 2024-08-20THLM论文阅读笔记
PretrainingLanguageModelswithText-AttributedHeterogeneousGraphs论文阅读笔记Abstract现存的问题: 目前语言模型(LM)的预训练任务主要集中在单独学习每个实体的文本信息,而忽略了捕捉TAHGs中实体间拓扑连接的关键环节。提出方法: 本文提出了一种新的LM预训练框架
- 2024-08-11LLM分类模式驱动一
今天给大家带来的文章是LLM分类模式驱动,希望能对学习LLM的同学们有所帮助。文章目录1.前言2.模式驱动生成1.前言 随着这两年大语言模型的应用,各种语言模型已经在很多领域带来了许多颠覆性的成果,但是在融入各种程序环境时,大语言模型也遇到了一些阻碍。为了
- 2024-07-02LM-Cocktail:一种创新的模型合并方法打破预训练语言模型微调后的性能局限,实现语言模型在一般任务与特定领域的均衡高性能
LM-Cocktail:一种创新的模型合并方法打破预训练语言模型微调后的性能局限,实现语言模型在一般任务与特定领域的均衡高性能使语言模型的微调类似于调制一杯精致的鸡尾酒。模型合并可用于提高单个模型的性能。我们发现此方法对于大型语言模型和密集嵌入模型也很有用,并设计了LM
- 2024-06-21【论文笔记】Prefix-Tuning: Optimizing Continuous Prompts for Generation
题目:Prefix-Tuning:OptimizingContinuousPromptsforGeneration来源:ACL2021模型名称:Prefix-Tuning论文链接:https://aclanthology.org/2021.acl-long.353/项目链接:https://github.com/XiangLi1999/PrefixTuning感觉与prompt的想法很相近,那么问题来了,为什
- 2024-06-19串扰(二)
三、感性串扰首先看下串扰模型及电流方向:由于电感是阻碍电流变化,受害线的电流方向和攻击线的电流方向相反。同时由于受害线阻抗均匀,故有Vb=-Vf(感应电流属于电池内部电流)。分析感性串扰大小仍然是按微分的方法,如下图:感应电压大小为:其中di/dt=dv/dt/Z0,故感应电压VLm为:
- 2024-06-16域渗透之初识LM&NTLM认证过程
目录前言LMHashNTLMHashWindows本地认证LSASS进程Mimikatz抓取明文密码Windows网络认证NetNTLMNTLMv1&NTLMv2Hash传递攻击前言LANManager和NTLANManager认证是Windows系统中的一种挑战-响应身份验证机制。LM认证是早期Windows版本中使用的一种认证协议,而NTLM是LM的改
- 2024-06-02Unlearn What You Want to Forget Efficient Unlearning for LLMs
目录概符号说明UnlearningLayersFusingUnlearningLayers代码ChenJ.andYangD.Unlearnwhatyouwanttoforget:efficientunlearningforllms.2024.概本文提出一种Unlearninglayer去帮助LLMs'遗忘'一些数据.符号说明\(F(\cdot)\),largelanguagemodel
- 2024-05-31使用LM Studio来运行本地版本大语言模型
自2022年11月30日发布ChatGPT对话性大预言模型,AI再一次被推向了高潮,再到后来,国内外也衍生了大量的语言模型开放给公众使用。为了可以让更多人接触到AI,让本地化部署更加轻便快捷,于是就有了Ollama、LMStudio等可以在本地部署模型的工具。这两款工具相比较来说,个人觉的LMStudio
- 2024-05-12LM Studio 本地离线部署大模型
安装LMStudio官网:https://lmstudio.ai/下载模型:Meta-Llaa-3-8B-Instruet.Q4_KM.gguf下载地址:https://cdn-lfs-us-1.huggingface.co/repos/79/f2/79f21025e377180e4ec0e3968bca4612bb9c99fa84e70cb7815186c42a858124/647a2b64cbcdbe670432d0502ebb2592b36dd364d51a9e
- 2024-05-06Huggingface Transformers实现张量并行的小坑 set/get_output_embeddings
transformers库里实现的很多模型会有这么两个函数get_output_embeddings和get_output_embeddings。以SwitchTransformer为例classSwitchTransformersForConditionalGeneration(SwitchTransformersPreTrainedModel):defset_output_embeddings(self,new_embeddings):
- 2024-05-0312_面板数据
第12章面板数据12.1面板数据的特点定义面板数据一段时间内跟踪同一组个体的数据。分类:分类分类准则特点短面板n、T的大小n小、T大长面板n大、T小动态面板是否有被解释变量滞后项有静态面板*否平衡面板*每个时期样本中的个体是否完全相