AI大模型开发基础篇之OpenAI大模型生态

标签：AI 模型编程 API OpenAI ada GPT

前言

在讨论OpenAI的大模型时，大家耳熟能详的通常是ChatGPT3.5和ChatGPT4；然而实际上远不止于此，OpenAI公司在自然语言处理、计算机视觉等多个科技前沿领域，开发了一系列大型神经网络模型；这些模型覆盖了文本、代码、对话、语音、图像等多个维度。

图像多模态⼤模型：最新版为DALL·E（达利） v3，DALL·E 3目前支持根据提示创建具有特定尺寸的新图像的功能。DALL·E 2还支持编辑现有图像或创建用户提供的图像的变体的功能。

语⾳识别模型：最新版为Whisper v2-large model，是Whisper模型的升级版，能够执⾏多语⾔语⾳识别以及语⾳翻译和语⾔识别；
Whisper模型是为数不多的OpenAI的开源模型，改模型通过68万⼩时的多语⾔和多任务监督数据进⾏的训练，⽬前提供了原始论⽂进⾏⽅法介绍；
开源地址：https://github.com/openai/whisper
Whisper模型可以本地部署，也可以像其他OpenAI⼤模型⼀样通过调⽤API进⾏在线使⽤；官⽹介绍，Whisper在线模型会有额外运⾏速度上的优化，通过调⽤API进⾏使⽤，效率更⾼（需要⽀付⼀定的费⽤）；

语音合成模型：TTS，他能够将文本转换为语音；目前最最新版分别为：tts-1（针对速度进行了优化），tts-1-hd （针对质量进行了优化）
支持的输出格式
1）默认响应格式为“mp3”，但也可以使用“opus”、“aac”、“flac”和“pcm”等其他格式。
2） Opus：用于互联网流媒体和通信，低延迟。
AAC：用于数字音频压缩，YouTube、Android、iOS 首选。
3） FLAC：用于无损音频压缩，受到音频爱好者存档的青睐。
4） WAV：未压缩的 WAV 音频，适合低延迟应用，以避免解码开销。
5） PCM：与 WAV 类似，但包含 24kHz 的原始样本（16 位有符号、低端），没有标头。
支持的语言
中文、英语、法语、德语、希腊语、意大利语、日语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语等等。

审查模型：Moderation模型；旨在检查内容是否符合 OpenAI 的使⽤政策。这些模型提供了查找以下类别内容的分类功能：仇恨、仇恨/威胁、⾃残、性、性/未成年⼈、暴⼒和暴⼒/图⽚等。
在这里插入图片描述

编程⼤模型：Codex⼤模型，⽤GitHub数⼗亿⾏代码训练⽽成，能够“读懂”代码，并且能够根据⾃然语⾔描述进⾏代码创建；
Codex最擅⻓Python，同时精通JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL，甚⾄Shell 等⼗⼏种编程语⾔；
该模型发布于2021年8⽉10⽇，⽬前代码编写功能已经合并⼊GPT-3.5，官⽹显示该模型为已弃⽤（deprecated）状态，意为后续不再单独维护，但并不表示OpenAI已放弃编程⼤模型，相反越来越多的编程功能被集成到语⾔⼤模型中；
⽬前该模型集成于Visual Studio Code、GitHub Copilot、Azure OpenAI Service等产品中，⽤于提供⾃动编程功能⽀持；

通⽤模型API：如GPT-3.5-turbo，GPT-4，ada…
GPT-3、GPT-3.5、和GPT-4 被称为通用大模型主要是因为它们的设计和训练方法允许它们在多种不同的任务上表现出色，而不仅仅限于特定的领域。这些模型主要是以语言为基础的，通过学习大量的文本数据，它们能够理解和生成语言，完成包括文本生成、翻译、摘要、问答等多种语言处理任务
停⽌维护但仍可使⽤的API：如GPT-3.5-turbo-0613，GPT-4-0314…
⾯向特定功能的微调模型API：如ada-code-search-code（基于ada微调的编程⼤模型），babbage- similarity（基于babbage微调的的⽂本相似度检索模型）…
多版本编号模型API：如text-davinci-001（达芬奇⽂本模型1号）、text_x0002_embedding-ada-002（基于ada的Embedding模型2号）

本章旨在深入剖析OpenAI大模型生态系统中，各个模型的独特属性和功能。通过深入的理解，为后续的大型模型开发与学习奠定坚实的基础。

标签：AI,模型,编程,API,OpenAI,ada,GPT
From： https://blog.csdn.net/xiaobing259/article/details/137383072