首页 > 其他分享 >AI大模型开发基础篇之OpenAI大模型生态

AI大模型开发基础篇之OpenAI大模型生态

时间:2024-04-05 09:01:54浏览次数:23  
标签:AI 模型 编程 API OpenAI ada GPT

文章目录


前言

在讨论OpenAI的大模型时,大家耳熟能详的通常是ChatGPT3.5和ChatGPT4;然而实际上远不止于此,OpenAI公司在自然语言处理、计算机视觉等多个科技前沿领域,开发了一系列大型神经网络模型;这些模型覆盖了文本、代码、对话、语音、图像等多个维度。


一、语⾔类⼤模型

  1. OpenAI的GPT系列大模型
    GPT-3、GPT-3.5、GPT-4系列模型
  2. OpenAI的A、B、C、D四项大模型
    1)在训练GPT-3的同时,OpenAI还训练了参数和复杂度各异的A、B、C、D四个大模型(基座模型),用于不同场景的应用。
    2)这四个模型的全称分别是:ada、babbage、curie和davinci。
    3)需要注意的是,这四个模型并不是GPT-3的微调模型,而是独立训练的。
    4)从A到D,这四个模型的参数规模和复杂程度依次递增。
    5)虽然它们的知名度不如GPT-3.5和GPT-4,但A、B、C、D四大模型在OpenAI的大模型生态中功能最丰富,API种类最多。

二、图像大模型

图像多模态⼤模型:最新版为DALL·E(达利) v3,DALL·E 3目前支持根据提示创建具有特定尺寸的新图像的功能。DALL·E 2还支持编辑现有图像或创建用户提供的图像的变体的功能。

  1. DALL·E模型为基于GPT-3开发的模型,总共包含120亿个参数,DALL·E对图像的理解能⼒源于⼤语⾔模型;
  2. OpenAI将⼤语⾔模型的理解能⼒“复制”到视觉领域的核⼼⽅法是:将图像视作⼀种⼀种语⾔,将其转化为Token,并和⽂本Token⼀起进⾏训练;

三、语音识别模型

  1. 语⾳识别模型:最新版为Whisper v2-large model,是Whisper模型的升级版,能够执⾏多语⾔语⾳识别以及语⾳翻译和语⾔识别;
  2. Whisper模型是为数不多的OpenAI的开源模型,改模型通过68万⼩时的多语⾔和多任务监督数据进⾏的训练,⽬前提供了原始论⽂进⾏⽅法介绍;
    开源地址:https://github.com/openai/whisper
  3. Whisper模型可以本地部署,也可以像其他OpenAI⼤模型⼀样通过调⽤API进⾏在线使⽤;官⽹介绍,Whisper在线模型会有额外运⾏速度上的优化,通过调⽤API进⾏使⽤,效率更⾼(需要⽀付⼀定的费⽤);

四、语音合成模型

  1. 语音合成模型:TTS,他能够将文本转换为语音; 目前最最新版分别为:tts-1(针对速度进行了优化),tts-1-hd (针对质量进行了优化)
  2. 支持的输出格式
    1) 默认响应格式为“mp3”,但也可以使用“opus”、“aac”、“flac”和“pcm”等其他格式。
    2) Opus:用于互联网流媒体和通信,低延迟。
    AAC:用于数字音频压缩,YouTube、Android、iOS 首选。
    3) FLAC:用于无损音频压缩,受到音频爱好者存档的青睐。
    4) WAV:未压缩的 WAV 音频,适合低延迟应用,以避免解码开销。
    5) PCM:与 WAV 类似,但包含 24kHz 的原始样本(16 位有符号、低端),没有标头。
  3. 支持的语言
    中文、英语、法语、德语、希腊语、意大利语、日语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语等等。

五、文本向量化模型

  1. ⽂本向量化模型:Embedding⽂本嵌⼊模型,⽤于将⽂本转化为词向量,即⽤⼀个数组(向量)来表示⼀个⽂本,该⽂本可以是短语、句⼦或者⽂章;
  2. 最新⼀代Embedding模型是基于ada模型微调的text-embedding-3-small和text-embedding-3-large
  3. 通过将⽂本转化为词向量,就可以让计算机进⼀步的“读懂⽂本”,通过词向量的计算和分析和相似度计算,可以对其背后的⽂本进⾏搜索、聚类、推荐、异常检测和分类等;
    在这里插入图片描述

六、审查模型

审查模型:Moderation模型;旨在检查内容是否符合 OpenAI 的使⽤政策。 这些模型提供了查找以下类别内容的分类功能:仇恨、仇恨/威胁、⾃残、性、性/未成年⼈、暴⼒和暴⼒/图⽚等。
在这里插入图片描述

七、编程大模型

  1. 编程⼤模型:Codex⼤模型,⽤GitHub数⼗亿⾏代码训练⽽成,能够“读懂”代码,并且能够根据⾃然语⾔描述进⾏代码创建;
  2. Codex最擅⻓Python,同时精通JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL,甚⾄Shell 等⼗⼏种编程语⾔;
  3. 该模型发布于2021年8⽉10⽇,⽬前代码编写功能已经合并⼊GPT-3.5,官⽹显示该模型为已弃⽤(deprecated)状态,意为后续不再单独维护,但并不表示OpenAI已放弃编程⼤模型,相反越来越多的编程功能被集成到语⾔⼤模型中;
  4. ⽬前该模型集成于Visual Studio Code、GitHub Copilot、Azure OpenAI Service等产品中,⽤于提供⾃动编程功能⽀持;

八、API命名规范

  1. 通⽤模型API:如GPT-3.5-turbo,GPT-4,ada…
    GPT-3、GPT-3.5、和GPT-4 被称为通用大模型主要是因为它们的设计和训练方法允许它们在多种不同的任务上表现出色,而不仅仅限于特定的领域。这些模型主要是以语言为基础的,通过学习大量的文本数据,它们能够理解和生成语言,完成包括文本生成、翻译、摘要、问答等多种语言处理任务
  2. 停⽌维护但仍可使⽤的API:如GPT-3.5-turbo-0613,GPT-4-0314…
  3. ⾯向特定功能的微调模型API:如ada-code-search-code(基于ada微调的编程⼤模型),babbage- similarity(基于babbage微调的的⽂本相似度检索模型)…
  4. 多版本编号模型API:如text-davinci-001(达芬奇⽂本模型1号)、text_x0002_embedding-ada-002(基于ada的Embedding模型2号)

总结

本章旨在深入剖析OpenAI大模型生态系统中,各个模型的独特属性和功能。通过深入的理解,为后续的大型模型开发与学习奠定坚实的基础。

标签:AI,模型,编程,API,OpenAI,ada,GPT
From: https://blog.csdn.net/xiaobing259/article/details/137383072

相关文章

  • AI大模型应用开发篇之Embeddings向量化
    文章目录前言环境准备一、Embedding介绍二、WordEmbedding技术三、Embedding应用价值四、Embedding开发实践4.1本地数据集Embedding4.2本地知识库检索前言随着AI大模型的不断发展,AI大模型应用开发这门技术也越来越重要,很多人都开启了学习AIGC,本文介绍了AI大模型......
  • 基于大型语言模型的智能体(Agent)研究综述--人大
    内容概述论文地址:https://arxiv.org/pdf/2308.11432.pdf这篇综述内容有35页,内容很多,俗话说一图胜千言,作者提供了5张精美的图片和3个表格,把这些搞明白后对这篇综述也就理解差不多了。文章的总体结构如下由6部分组成,1介绍、2智能体结构、3智能体应用、4智能体评价、5挑战、6总......
  • 【漏洞复现】宏景人力资源信息管理系统 showmediainfo SQL注入漏洞
    免责声明:文章来源互联网收集整理,文章仅供参考,此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等(包括但不限于)进行检测或维护参考,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失,均由使用者......
  • Higgsfield AI: 对飙Sora打造个性化视频新浪潮,重塑社交媒体内容创作
      每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行!订阅:https://......
  • langchain + azure chatgpt组合配置并运行
    首先默认你已经有了azure的账号。最重要的是选择gpt-35-turbo-instruct模型、api_version:2023-05-15,就这两个参数谷歌我尝试了很久才成功。我们打开https://portal.azure.com/#home,点击更多服务: 我们点击AzureOpenAI: 再点击创建: azure访问有点慢,我们等一会后会......
  • (通俗易懂)Unix/Linux上的五种IO模型
    接续上一节内容(通俗易懂)阻塞、非阻塞、同步、异步区别-CSDN博客,非常接地气地解释了阻塞、非阻塞、同步、异步的内容。由于内容深度具有延续性,建议看本节内容之前,先过一遍上一节内容噢~由于最近忙于项目,拖了好久才续更这一节内容。本节,我们更深入地探讨一下Unix/Linux上的五种I......
  • 为什么要学习大模型应用开发?
    0promptengineer就是prompt工程师它的底层透视。1学习大模型的重要性底层逻辑人工智能大潮已来,不加入就可能被淘汰。就好像现在职场里谁不会用PPT和excel一样,基本上你见不到。你问任何一个人问他会不会用PPT,他都会说会用,只是说好还是不好。你除非说这个岗位跟电脑完全无关......
  • 信息传播的AI时代:机器学习赋能新闻出版业的数字化之旅
    ......
  • AI 的语言:探索 ChatGPT 提示词
    原文:TheLanguageofAI:ExploringthePowerofChatGPT译者:飞龙协议:CCBY-NC-SA4.0第一章:ChatGPT简介ChatGPT是一种人工智能语言模型,具有处理和生成类似人类文本的能力。它是自然语言处理(NLP)和机器学习最新突破的产物,使其成为迄今为止最先进的语言模型之一。ChatGPT......
  • OpenAI推出VoiceEngine语音引擎技术:让声音更逼真,更富情感
    继openAIGPT3.5免登录后,OpenAI最近推出了一款名为VoiceEngine的语音引擎技术,这技术能通过简单的文本输入和15秒的音频样本,就能生成跟原始说话者声音一模一样的语音,不仅逼真,还充满了情感。这VoiceEngine技术,是在2022年末由OpenAI的大佬们开发出来的。现在,它已经运用到了Ope......