首页 > 其他分享 >大模型 LLMs 入门指南:小白的学习之路

大模型 LLMs 入门指南:小白的学习之路

时间:2024-09-19 10:50:33浏览次数:12  
标签:Prompt 入门 框架 LLMs 模型 私有化 AI 小白 LLM

前言

很明显,这是一个偏学术方向的指南要求,所以我会把整个LLM应用的从数学到编程语言,从框架到常用模型的学习方法,给你捋一个通透。也可能是不爱学习的劝退文。

通常要达到熟练的进行LLM相关的学术研究与开发,至少你要准备 数学、编码、常用模型的知识,还有LLM相关的知识的准备。

TL;DR

要求总结:
数学知识:线性代数、高数、概率
开发语言:Python, C/C++
开发框架:Numpy/Pytorch/Tensorflow/Keras/Onnx
常用模型:MLP、CNN、RNN、Transformer(GPT-2、RWKV、Mamba、TTT)
LLM相关:Prompt各种理论框架,RAG各种技术,FineTune的几种方法
好了,开始正式的劝退版吧。

数学是基础,但是对于研究生来讲可能又不是大问题。
通常数学对于毕业后的人来讲,需要简单的看一下,对于一个研究生一年级的人来讲不是问题。毕竟线性代数、高数、概率都是必考。只有凸优化这东西,可能是门需要自己再看一下的课程。

线性代数:关键概念包括向量、矩阵、。重要的公式涉及矩阵乘法、及特征值方程Av=λv,其中 A是矩阵,v 是特征向量,λ是特征值。

高数:基本是微积分,重点是理解极限、导数和积分的概念。函数 f(x) 在点 x的导数由f′(x)=limh→0 f(x+h)−f(x) 给出,基本微积分定理将微分与积分联系起来。

概率:关键点包括概率公理、条件概率、随机变量和分布。例如,贝叶斯定理由P(A∣B)=P(B∣A)P(A)/P(B)给出,它帮助在发生B 的情况下更新 A 的概率。

凸优化:关注目标函数的问题。关键概念包括凸集、凸函数、梯度下降。梯度下降更新规则可以表示为 xn+1 =xn −α∇f(xn ),其中 α是学习率。可能你需要在此努力一下。

编码,以前需要大量的时间,现在你只需要适应AI的Copilot
原来编码我要写一堆的,但是最近的AI告诉我,Cursor或者任意的AI大模型都可以指导你完成基本的编码工作了。

所以你只需要知道,自己需要下面这些知识就好了。

核心开发语言要掌握Python、C/C++。 如果你有更强烈的意愿,可以再去研究一下CUDA相关的知识。
Numpy 主要是掌握各种数据的使用方法。
Pytorch 与 Tensor、 Keras 就是完成各种网络及训练的方法。 Onnx就是有些模型是基于它的发布,你要会使用它来运行及分析这个模型。
但这些其实只需要你会问AI大模型就好了。

常用模型,这些可能是让你了解常识,面未来的突破就在历史
MLP、CNN、RNN的典型模型你可能要相对熟悉一点,我建议你自己手写一下。

建议是这些网络

LeNet-5: 这是最早的卷积神经网络之一。
AlexNet: AlexNet在ImageNet图像分类竞赛中表现优异,标志着深度学习的广泛应用。
VGGNet: VGGNet以其深度和使用的小(3x3)而闻名,常用的模型有VGG16和VGG19。
ResNet (Residual Networks): ResNet通过引入残差连接解决了深度网络中,最著名的版本是ResNet-50、ResNet-101。
Long Short-Term Memory (LSTM):LSTM通过引入门控机制解决了标准RNN中的长期依赖问题,是处理序列数据的标准模型之一。
Gated Recurrent Unit (GRU): GRU是LSTM的简化版本,具有类似的性能但计算效率更高。
Bidirectional RNN: 这是RNN的一种变体,可以同时考虑序列中前后文信息,通常用于自然语言任务。
而新一些架构,可能你要看RWKV、Mamba、TTT这三个新架构,它们的潜力还是不错的。

LLM相关

在这里插入图片描述

你的目标是这个,其实现在所有做人工智能的基本上都集中在这儿了。而且在卷这样简单的一个架构的各个方面:

在这里插入图片描述

推荐自己手写一个 Transformer 模型,至少要写一个 Attention 的结构。还要看懂下面这个图。你就能体会到一个至简的模型是怎么遵循 Scaling Law的,AGI 可能就在这个简单的重复与变大中了!

当然了,一定要用数据跑个训练。GPT-2的就有非常不错的示范了。

如果你能顺利完成到这儿,我想你的水平,混个论文,搞到研究生毕业在大部分院校应该不是大问题了。如果是TOP几的。。。你自己再想一下吧。

但是,如果你觉得这些难?想找个效率更高,难度更简单的。那我建议你听个课吧。毕竟,课程是一个相对体系化,而且有人不断的能讲解且解决你的疑问的手段。相当于用钱买了你的时间与知识。

大模型资源分享

针对所有自学遇到困难的同学,我为大家系统梳理了大模型学习的脉络,并且分享这份LLM大模型资料:其中包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等。

标签:Prompt,入门,框架,LLMs,模型,私有化,AI,小白,LLM
From: https://blog.csdn.net/2401_86518761/article/details/142353687

相关文章

  • 如何用3个月零基础入门网络安全?_网络安全零基础怎么学习
    前言写这篇教程的初衷是很多朋友都想了解如何入门/转行网络安全,实现自己的“黑客梦”。文章的宗旨是:1.指出一些自学的误区2.提供客观可行的学习表3.推荐我认为适合小白学习的资源.大佬绕道哈!一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员(以编程为基础......
  • SQL注入漏洞的检测及防御,零基础入门到精通_sql 防注入检测
    SQL注入(SQLInjection)是一种广泛存在于Web应用程序中的严重安全漏洞,它允许攻击者在不得到授权的情况下访问、修改或删除数据库中的数据。这是一种常见的攻击方式,因此数据库开发者、Web开发者和安全专业人员需要了解它,以采取措施来预防和检测SQL注入漏洞。01什么是SQL注入......
  • Argocd入门
    概念ArgoCD是一个基于GitOps的持续交付(CD)工具,专门用于Kubernetes环境。它通过使用Git仓库作为应用程序的"源代码真相",自动化应用的部署和管理。以下是ArgoCD的一些关键特性:GitOps模型:ArgoCD遵循GitOps原则,将基础设施和应用程序的期望状态存储在Git仓库中。任......
  • SQL Server全方位指南:从入门到高级详解
    本文将分为三大部分,逐步深入SQLServer的基础知识、进阶技巧和高级特性,旨在帮助从初学者到经验丰富的开发人员深入理解和使用SQLServer。一、入门篇1.1什么是SQLServer?SQLServer是由微软开发的关系型数据库管理系统(RDBMS),广泛应用于企业应用程序和数据分析领域。它提......
  • TypeScript入门 (二)控制语句
    引言大家好,我是GISerLiu......
  • 信息学入门自学资料
    视频教程:NOIOnline培训Dev-C++软件的安装使用教程练习平台:洛谷如何注册洛谷、加入团队以及提交作业C++语言基础1C++语言基础2&算法入门数据结构与算法入门......
  • CMake入门
    CMake应用:基础篇什么是CMake?CMake是一个开源、跨平台的编译、测试和打包工具,它使用比较简单的语言描述编译、安装的过程,输出Makefile或者project文件,再去执行构建。在使用IDE开发软件的过程中,代码的编译和构建一般是使用IDE自带的编译工具和环境进行编译,开发者参与的并不算......
  • JavaScript语法入门七 数据类型
     BigInt类型在JavaScript中,“number”类型无法代表大于 253(或小于 -253)的整数。此时可以使用BigInt类型。使用方法:在数字的尾部附加一个n。constbigInttest=12345678901234567890123456789012345678901121345526789n; String类型js中只有String类型没有char类型。定义时......
  • 如何使用ChatGPT帮你写论文?有思路有教程【小白上手指南】
    停留5分钟看完这篇文章,绝对让你写论文如虎添翼我这里先给你提供一下思路,再进行详细说明一、框架1、设定ChatGPT的背景你把主题和开题报告以及要求发给它,并告知是什么学位等等,此处建议你做一个专门的助手2、列出大纲要求它列出写作大纲,你根据它写的大纲看是否要进行调整,如......
  • C++入门基础知识75(高级)——【关于C++ Web 编程】
    成长路上不孤单......