首页 > 其他分享 >大模型你的知道它

大模型你的知道它

时间:2024-12-18 17:14:15浏览次数:4  
标签:概率 语言 Language 模型 序列 Model 知道

语言建模(Language Model,LM)

语言建模是提高机器语言智能的主要方法之一。一般来说,LM旨在对词序列的生成概率进行建模,以预测未来失)tokens的概率。

统计语言模型-->神经语言模型-->预训练语言模型-->大模型          

统计语言模型(Statistical Language Model,SLM)

基于统计学习方法开发,例如根据最近的上下文预测下一个词。统计语言模型的一个经典例子是n-gram模型。在n-gram模型中,一个词出现的概率只依赖于它前面的n-1个词。
例如,一个三元模型(trigram model)会使用以下的公式来计算序列中某个词的概率:
[ P(w_i | w_{i-2}, w_{i-1}) ]
这里只考虑了前两个词对第三个词出现概率的影响。

神经语言模型(Neural Language Model,NLM)

是使用神经网络来预测词序列的概率分布的模型。与传统的统计语言模型(如n-gram模型)使用固定窗口大小的词来预测下一个词的概率不同,神经语言模型可以考虑更长的上下文或整个句子的信息。
循环神经网络(RNN):包括LSTM和GRU等变体,能够处理变长的序列数据。
分布式表示:在神经语言模型中,每个单词通常被编码为一个实数值向量,这些向量也被称为词嵌入(wordembeddings)。词嵌入可以捕捉词与词之间的语义和语法关。

预训练语言模型(Pre-trained Language Model,PLM)

这些模型通常在大规模无标签语料库上进行预训练任务,学习词汇、短语、句子甚至跨句子的语言规律和知识。通过这种预训练,模型能够捕获广泛的通用语义特征,然后可以在特定任务上进行微调(fine-tuning),以适应特定的应用场景。
Transformer
2017年在论文《Attention Is All You Need》提出的Transformer,Transformer模型通过其自注意力机制和高度的并行化能力,极大地提高了序列处理任务的效率和效果,它能够在处理序列数据时捕捉全局依赖关系,同时具有并行计算的能力,是近年来自然语言处理领域的重要进展之一。

  • 自注意力机制
  • 并行化能力

 大语言模型(Large Language Models,LLM)

大语言模型(大模型)是指那些具有大量参数、在大规模数据集上训练的语言模型。这些模型能够理解和生成自然语言,通常是通过深度学习和自注意力机制(如Transformer架构)实现的。它们在自然语言处理(NLP)的多个领域都有广泛的应用,包括但不限于文本生成、翻译、摘要、问答和对话系统。

大语言模型通常有数十亿甚至数万亿个参数。例如,GPT-3拥有1750亿个参数。

标签:概率,语言,Language,模型,序列,Model,知道
From: https://www.cnblogs.com/edeny/p/18615362

相关文章

  • 18章4节:ACF和PACF的可视化,和识别最佳模型
    时间序列分析是研究序列数据背后规律的一种重要方法,其中ARIMA模型是最常用的建模工具之一。在ARIMA模型的建立过程中,自相关函数(ACF)和偏自相关函数(PACF)的可视化分析起到了关键作用,它们能够帮助我们识别模型的参数阶数(p和q)。本文首先通过创建模拟数据并进行单位根检验,确保......
  • 小麦病虫害识别与防治系统,resnet50,mobilenet模型【pytorch框架+python源码】
     更多目标检测、图像分类识别、目标追踪等项目可看我主页其他文章功能演示:小麦病虫害识别与防治系统,卷积神经网络,resnet50,mobilenet【pytorch框架,python源码】_哔哩哔哩_bilibili(一)简介小麦病虫害识别与防治系统是在pytorch框架下实现的,这是一个完整的项目,包括代码,数据集,......
  • 18章6节:Facebook 的时间序列预测的 Prophet 模型
    时间序列分析是数据科学中重要的分支,广泛应用于金融、经济、交通、气象等多个领域。近年来,由Facebook开源的Prophet模型因其简单易用、灵活度高和预测效果显著,受到了数据分析和预测领域的广泛关注。本文首先介绍Prophet的背景及其与传统ARIMA模型的对比,包括灵活度、对缺失值的......
  • 【stable diffusion模型】首个中文Stable Diffusion模型开源
    前言生成内容一直被视为AI领域中最具有挑战性的能力,最近大火的AI绘画背后,是StableDiffusion模型的开源,催生了众多AI绘画的应用,得益于StabilityAI的开源精神,这一创变推动了整个以英文为主的下游文生图生态的蓬勃发展。然而在国内,目前大部分团队主要是基于翻译......
  • 【stable diffusion部署】文生图模型原理,以及Stable Diffusion部署体验
    前言LLM推理优化系统工程概述截止到目前市面上比较主流的基于文字生成影像的模型都是基于了3大部分组成的。EncoderModel,GenerationModel,DecoderModel。并且这三个部分是分开训练,然后组合在一起从而构成了文生图大模型。图片来源于B站李宏毅教授讲问生图原理,侵删......
  • 高斯混合模型(GMM)——完整推导与代码实现
    GaussianMixedModel应用​聚类K-means无法处理两个聚类中心点相同的类。比如A∼N(......
  • 欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型
    我们很高兴迎来Google全新的视觉语言模型PaliGemma2,这是PaliGemma的一个新版本。与其前代产品一样,PaliGemma2使用强大的SigLIP进行视觉处理,但在文本解码部分升级到了最新的Gemma2。模型规模和输入分辨率PaliGemma2提供了新的预训练模型,参数规模包括3B、10B和......
  • Django中注册模型到Admin界面
    Django是一个高级的PythonWeb框架,它鼓励快速开发和干净、务实的设计。Django自带了一个强大的管理后台(Admin),可以让开发者轻松地管理数据库中的数据。在这篇博文中,我们将详细介绍如何在DjangoAdmin中注册一个模型,并定制其显示和管理方式。前提条件在开始之前,确保你......
  • 【matplotlib 库画雷达图】你知道怎么用python画雷达图、蜘蛛网图?对于精度展示、模型
    【matplotlib库画雷达图】你知道怎么用python画雷达图、蜘蛛网图?对于精度展示、模型对比非常重要。附代码及解释。【matplotlib库画雷达图】你知道怎么用python画雷达图、蜘蛛网图?对于精度展示、模型对比非常重要。附代码及解释。文章目录【matplotlib库画雷达图】......
  • 零基础在Windows电脑用代码跑一个自己的本地大模型
    零基础在Windows电脑用代码跑一个自己的本地大模型环境1.1下载Windows版本的Anaconda1.2在微软商店中下载python(打开微软商店,搜索python下载3.10版本即可)1.3在pycharm中下载模型下载运行大模型环境确保当前电脑有python3环境如果没有可以选择下载Windows版本的A......