• 2024-07-02参考资料
    pytorch训练中的一些优化手段https://blog.csdn.net/deephub/article/details/139622843pytorch中python和底层C++tensor对象关系https://pytorch.org/cppdocs/notes/tensor_basics.html#:~:text=TheATentensorlibrarybackingPyTorchisa,APIisgenericanddoesnot
  • 2024-07-02LLM大语言模型知识点整理
    大模型知识点总结1.基础概念1.1大模型定义大模型(LargeModel)通常指参数量级达到数亿甚至数千亿的深度学习模型。这些模型通常基于Transformer架构,如GPT、BERT等。1.2常见大模型GPT系列(GenerativePre-trainedTransformer)BERT(BidirectionalEncoderRepresentations
  • 2024-07-02从零开始实现大语言模型(一):概述
    1.前言大家好,我是何睿智。我现在在做大语言模型相关工作,我用业余时间写一个专栏,给大家讲讲如何从零开始实现大语言模型。从零开始实现大语言模型是了解其原理及领域大语言模型实现路径的最好方法,没有之一。已有研究证明,为特定任务定制或使用领域数据训练的大语言模型能在
  • 2024-07-02低资源语言的Transformer挑战:探索与机遇
    低资源语言的Transformer挑战:探索与机遇在自然语言处理(NLP)的广阔领域中,低资源语言(也称为小种语言或少数民族语言)面临着独特的挑战。尽管Transformer模型在高资源语言上取得了巨大成功,但其在低资源语言上的应用仍然充满挑战。本文将深入探讨这些挑战,并探索可能的解决方案。
  • 2024-07-02神经网络图像数据训练集成应用 | 可视化图像处理 | 可视化训练器
    〇、写在前面本应用基于开源UI框架PyDracula进行开发,除去最基本的UI框架外,所有功能的前后端实现都由我个人开发完成,但也有部分UI(如开关控件和进度条)是参考其他大佬的分享。这个应用是我的本科毕业设计,但因为个人能力不足,姑且只能使用Python+PySide6开发。开发这个应用的启发是,
  • 2024-07-02解决PyTorch中的`CUDA out of memory`错误
    解决PyTorch中的`CUDAoutofmemory`错误解决PyTorch中的`CUDAoutofmemory`错误
  • 2024-07-01机器学习Day9:集成学习
    概念集成学习通过构建并结合多个学习器来完成学习任务模型集成学习的结果通过投票法(少数服从多数)产生,所以学习器要有多样性,精度高不一定是好事1.Bagging模型:并行训练多个学习器典型代表:随机森林随机:数据采样随机,特征选择随机森林:多个决策树并行放在一起优点:能够学习
  • 2024-07-01跨模型知识融合:大模型的知识融合
     大模型(LLMs)在多个领域的应用日益广泛,但确保它们的行为与人类价值观和意图一致却充满挑战。传统对齐方法,例如基于人类反馈的强化学习(RLHF),虽取得一定进展,仍面临诸多难题:训练奖励模型需准确反映人类偏好,这本身难度很大;actor-critic架构的设计和优化过程复杂;RLHF通常需要直接访问
  • 2024-07-01揭秘LLaMA 2:深度学习的未来,从原理到模型训练的全面剖析
    引言LLaMA(LargeLanguageModelforAIAssistance)2是Meta(原Facebook)开发的一个大型语言模型,旨在为各种自然语言处理任务提供强大的支持。它在前代基础上进行了改进,具有更好的性能和更广泛的应用前景。本文将详细介绍LLaMA2的原理、模型结构和训练方法。目录LLaMA
  • 2024-07-01hypernetwork在SD中是怎么工作的
    大家在stablediffusionwebUI中可能看到过hypernetwork这个词,那么hypernetwork到底是做什么用的呢?简单点说,hypernetwork模型是用于修改样式的小型神经网络。什么是StableDiffusion中的hypernetwork?Hypernetwork是由NovelAI开发的一种微调技术,NovelAI是StableDiffus
  • 2024-07-012024.7~8 训练日记
    \(\color{grey}\bigstar\)可以秒杀的题。\(\color{green}\bigstar\)思考一会儿后可以秒的题。\(\color{blue}\bigstar\)需要较长时间思考的题。\(\color{#F1C40F}\bigstar\)看题解、稍加指点就会做的题。\(\color{red}\bigstar\)看题解后需要较长时间消化,甚至现在都没有
  • 2024-06-30深度学习CUDA Out of Memory原因总结和方法
    CUDAOutofMemory原因总结和方法原因总结显存不足:深度学习模型(尤其是大型模型)在训练或推理时需要大量的显存。如果显存容量不足,会导致CUDAOutofMemory错误。批处理大小过大:在训练过程中,批处理(batch)大小设置过大时,会占用过多的显存,导致显存溢出。模型过大:模型
  • 2024-06-30深度学习实战之找最大数字
    文章目录前言问题描述生成训练集定义神经网络进行训练模型评估预测前言之前学习了深度学习的概念与基本过程,今天用一个简单的深度学习框架实现最大数字的找寻,理解深度学习的的基本流程。问题描述假设有一个5维数组,
  • 2024-06-30深度解析:scikit-learn Pipeline记忆功能的秘密
    标题:深度解析:scikit-learnPipeline记忆功能的秘密摘要scikit-learn(简称sklearn)是Python中一个广泛使用的机器学习库,它提供了许多用于数据挖掘和数据分析的工具。Pipeline是sklearn中一个强大的功能,允许用户以流水线的方式组合多个数据转换和/或模型训练步骤。本文将详细
  • 2024-06-30【Python】 模型训练数据归一化的原理
    那年夏天我和你躲在这一大片宁静的海直到后来我们都还在对这个世界充满期待今年冬天你已经不在我的心空出了一块很高兴遇见你让我终究明白回忆比真实精彩                     
  • 2024-06-30(五)DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
    DeepSpeedChat:一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍如需引用DeepSpeedChat,请引用我们的arxivreport:@article{yao2023dschat,title={{DeepSpeed-Chat:Easy,FastandAffordableRLHFTrainingofChatGPT-likeModelsatAllScales}},autho
  • 2024-06-30LLM——10个大型语言模型(LLM)常见面试题以及答案解析
    今天我们来总结以下大型语言模型面试中常问的问题1、哪种技术有助于减轻基于提示的学习中的偏见?A.微调Fine-tuningB.数据增强DataaugmentationC.提示校准PromptcalibrationD.梯度裁剪Gradientclipping答案:C提示校准包括调整提示,尽量减少产生的输出中的偏差
  • 2024-06-24GNN 避免了 RNN 的 定制化训练
    图神经网络(GNN)在某些方面避免了递归神经网络(RNN)定制化训练的复杂性,下面是具体原因和解释:1.数据处理的通用性GNN:统一处理各种图结构数据:GNN能够处理任意图结构的数据,这些数据不需要额外定制化的预处理,可以直接通过图的节点和边来表示各种关系和依赖。自动捕捉图中的复杂
  • 2024-06-23搭建yolov8模型训练的环境_制作docker镜像_模型训练
    搭建一个能进行yolov8模型训练的环境,包括CUDA11.x、cuDNN8.x、Ubuntu18.04、Python3.8、Cython、NumPy、PyTorch、YOLOv8、Ultralytics等依赖(其实ultralytics 包会包含YOLOv8及其相关工具)。在Docker容器中,不需要创建虚拟环境,每个容器本身就像是一个隔离的环境,所以可以直
  • 2024-06-23AI 大模型应用开发实战(04)-AI生态产业拆解
    1行业全景图2结构拆解AIGC生成式AI这个产业。分成上中下游三大块。2.1上游基础层主要包括:算力:包括AI芯片和云服务等,例如像英伟达、AMD以及华为等厂商提供的算力基础设施。大型模型基于Transformer架构,对算力的需求很大。数据:新时代的石油,分为基础数据服务、数据集和向
  • 2024-06-23ChatGPT原理和训练【 ChatGPT是由OpenAI开发】
    本人详解作者:王文峰,参加过CSDN2020年度博客之星,《Java王大师王天师》公众号:JAVA开发王大师,专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生,期待你的关注和支持!本人外号:神秘小峯山峯转载说明:务必注明来源(注明:作者:王文峰哦)ChatGPT原理和
  • 2024-06-23简单讲一下Mobile Aloha模拟环境代码
    MobileAloha模拟环境有两部分代码:1. https://github.com/tonyzhaozh/act  ---里面有ACT论文的链接2. https://github.com/MarkFzp/act-plus-plus  ---这个是我们要介绍的代码ACT算法全称是 ActionChunkingwithTransformers,大体意思是:用机械臂的n个帧的视频
  • 2024-06-23【机器学习】在【R语言】中的应用:结合【PostgreSQL数据库】的【金融行业信用评分模型】构建
    目录1.数据库和数据集的选择1.准备工作2.PostgreSQL安装与配置3.R和RStudio安装与配置2.数据导入和预处理1.连接数据库并导入数据1.连接数据库2.数据检查和清洗1.数据标准化2.拆分训练集和测试集3.特征工程1.生成新特征2.特征选择4.模型训练和评估1.逻辑回归2.
  • 2024-06-23goldfish loss:减少训练数据泄漏,提高大语言模型输出的多样性
    LLMs(大型语言模型)能够记忆并重复它们的训练数据,这可能会带来隐私和版权风险。为了减轻记忆现象,论文作者引入了一种名为"goldfishloss"的微妙修改,在训练过程中,随机抽样的一部分标记被排除在损失计算之外。这些被舍弃的标记不会被模型记忆,从而防止模型完整复制训练集中的一整
  • 2024-06-23大模型基本概念学习 - Checkpoint、PyTorch、 TensorFlow、Transformers、ModelScope
    文章目录前言一、checkpoint二、TensorFlow1.简介2.主要特点3.示例代码三、PyTorch1.简介2.主要特点3.示例代码四、TensorFlow和PyTorch区别五、Transformers六、Transformers通过配置或自动检测来决定使用PyTorch或TensorFlow1.自动检测2.通过环境变量配