首页 > 其他分享 >AI 大模型应用开发实战(04)-AI生态产业拆解

AI 大模型应用开发实战(04)-AI生态产业拆解

时间:2024-06-23 16:59:44浏览次数:26  
标签:训练 04 AI 模型 生成器 生成 拆解 数据

1 行业全景图

2 结构拆解AI GC

生成式AI这个产业。分成上中下游三大块。

2.1 上游基础层

主要包括:

  • 算力:包括AI芯片和云服务等,例如像英伟达、AMD以及华为等厂商提供的算力基础设施。大型模型基于Transformer架构,对算力的需求很大。
  • 数据:新时代的石油,分为基础数据服务、数据集和向量数据库。
  • 算法:算法基础包括TensorFlow、PyTorch等著名算法框架,以及百度、阿里、腾讯等公司提供的AI开发平台。

这是AI的基础,也是过去AI研究的重点。

2.2 中游-AIGC大模型层和工具层

大模型层分为:

  • 通用模型:如OpenAI、腾讯的宏源、百度的1000万等,
  • 行业模型,根据具体行业或业务进行微调或二次训练。工具层包括AI Agent,其中包括像OutGPT这样的工具,以及模型平台和模型服务等

2.3 下游应用层

包括:

  • 内容消费:在各种平台上生成内容,如抖音、快手等
  • 创作工具:提供基于AI的工具,如MID Generate
  • 企业服务:根据行业提供各种应用,如微软、亚马逊等

产业中,我们的位置是在AI GC工具层,即AI Agent层,作为中间件,承上启下。应用开发者的位置可能更多在中游和下游,发挥着重要作用。

3 名词解释

当然,可以按以下类别对这些概念进行细分解释:

3.1 模型与架构

  1. LLM (大型语言模型):具有大量参数,能处理复杂语言任务的模型。
  2. chatGPT:一种用于生成对话的自然语言处理模型。
  3. RWKV:结合RNN和Transformer优点的神经网络架构。
  4. CNN (卷积神经网络):一种擅长处理图像数据的神经网络。
  5. RNN (循环神经网络):处理序列数据的神经网络。
  6. stable diffusion:一种用于生成图像的扩散模型。
  7. DALL·E:OpenAI开发的生成图像的模型。
  8. RAG (检索增强生成):结合检索和生成的模型。
  9. AIGC (人工智能生成内容):指利用AI生成文本、图像等内容的技术。

3.2 技术与方法

  1. 多模态:处理多种不同类型数据的模型。支持多种形态的模型,如文字、图像、音频等

  2. 自监督学习:利用数据本身结构进行训练的方法。

  3. 预训练:在大规模数据上训练模型,以获得初始参数。

  4. Few-shot:使用少量样本进行训练和推理的能力。

  5. One-shot:使用单个样本进行训练和推理的能力。

  6. Zero-shot:无需样本也能进行推理的能力。

  7. Temperature:控制生成模型输出多样性的参数。

  8. RLHF (基于人类反馈的强化学习):通过人类反馈优化AI行为的方法。

  9. Fine-tunes:在预训练模型基础上,进行特定任务的微调。

  10. 向量搜索:通过向量化表示进行高效搜索的方法。

  11. 向量数据库:存储和检索向量化数据的数据库。

  12. NLP (自然语言处理):处理和生成自然语言的技术。

  13. CV (计算机视觉):理解和生成图像和视频的技术。

  14. 分析式AI:侧重于分析和理解数据的AI。

  15. 知识图谱:以图结构表示知识及其关系的数据结构。

  16. 过拟合:模型过度拟合训练数据而无法泛化到新数据的现象。

  17. AI推理:AI对数据进行推断和决策的过程。

  18. 生成对抗网络:通过两个网络的对抗来提高生成结果质量的方法。一种神经网络类型,用于生成真实的图像。(Generative Adversarial Networks, GANs)是一种由 Ian Goodfellow 等人在 2014 年提出的深度学习模型。GANs 通过两个网络(生成器和判别器)相互对抗的方式来提高生成结果的质量。这两个网络的具体角色和对抗机制如下:

    1. 生成器(Generator):生成器接受一个随机噪声向量作为输入,并生成伪造的数据(例如图像)。它的目标是生成尽可能真实的数据,以便欺骗判别器。

    2. 判别器(Discriminator):判别器接受真实数据和生成器生成的伪造数据,并试图区分两者。判别器的目标是尽可能准确地识别出哪些数据是真实的,哪些是伪造的。

    在训练过程中,生成器和判别器会交替优化自己的参数:

    • 生成器的目标是生成越来越真实的伪造数据,以使判别器难以区分真假数据。
    • 判别器的目标是提高其区分能力,准确判断数据的真假。

    这种对抗机制形成了一个零和游戏,最终生成器会生成出非常逼真的数据,使得判别器难以辨别其真假。

    综上,生成对抗网络是一种通过两个网络的对抗来提高生成结果质量的方法,也是一种用于生成真实图像的神经网络类型。

  19. 元学习:学习如何学习的方法,提高模型在新任务上的适应能力。

  20. 并行训练:同时训练多个模型或在多台设备上训练单个模型的方法。

3.3 平台与工具

  1. HuggingFace:提供自然语言处理模型和工具的公司。
  2. openAI:开发和研究人工智能的机构。
  3. Azure:微软的云计算服务平台。
  4. Heygan:一种AI生成模型(可能是特定应用的名称)。
  5. Copilot:编程助手工具,帮助开发者编写代码。
  6. midjourney:AI驱动的艺术创作平台。
  7. D-ID:用于生成和处理数字身份的技术。

3.4 概念与其他

  1. 具身智能:具有物理存在并能与环境互动的人工智能。
  2. AGI (人工通用智能):具有通用认知能力的AI。
  3. AI-Agents:自主行动并完成任务的人工智能代理。使用AI代替人类执行任务的智能体
  4. RPM:每分钟旋转数(Rotations Per Minute),这里可能表示模型的训练速度。
  5. 知知识幻觉:模型生成的看似合理但错误的知识。
  6. 咒语:特定输入词汇或短语,用来触发模型生成特定输出。
  7. 哼唱:AI生成的音乐或音频。
  8. CDN (内容分发网络):用于加速网络内容传输。
  9. 上下文:模型生成内容时参考的前后文信息。
  10. 炼丹:指模型训练和调优过程的比喻。
  11. 炼炉:可能是某种训练或计算环境的比喻。

关注我,紧跟本系列专栏文章,咱们下篇再续!

作者简介:魔都技术专家,多家大厂后端一线研发经验,在分布式系统设计、数据平台架构和AI应用开发等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。

负责:

  • 中央/分销预订系统性能优化
  • 活动&优惠券等营销中台建设
  • 交易平台及数据中台等架构和开发设计
  • 车联网核心平台-物联网连接平台、大数据平台架构设计及优化
  • LLM应用开发

目前主攻降低软件复杂性设计、构建高可用系统方向。

参考:

本文由博客一文多发平台 OpenWrite 发布!

标签:训练,04,AI,模型,生成器,生成,拆解,数据
From: https://www.cnblogs.com/JavaEdge/p/18263626

相关文章

  • Inpaint软件安装包下载 丨不限速下载丨亲测好用
    众多使用者向我们证明了Inpaint有两个版本,一个是Win平台上的桌面应用软件,另一个是iOS和Android平台上的移动应用软件,桌面应用软件需要购买许可证才能使用,而移动应用软件则提供免费的试用版和付费的完整版。值得一提的是inpaint去除水印,Inpaint最主要的功能是去除图片中的水印,......
  • 【面经】超全版本AIGC算法工程师面经
    AIGC算法工程师面经1.个人项目介绍1.1如何介绍1.2加分点1.3注意事项2.深度学习基础2.1公式理解类2.2模型训练通识3.细分算法3.1NLP问题3.2Transformer细节问题3.3大模型问题本篇为来自各大厂从业者等业内人士做的免费面经总结,希望能为想进入或者即将入......
  • Containerd命令行工具nerdctl
    Containerd客户端工具nerdctl相比Containerd自带的ctr工具,nerdctl操作方式更接近之前的docker命令。nerdctl是一个与dockercli风格兼容的containerd客户端工具,而且直接兼容dockercompose的语法的。仓库:https://github.com/containerd/nerdctl1.安装二进制文件下载路......
  • ChatGPT原理和训练【 ChatGPT是由OpenAI开发】
    本人详解作者:王文峰,参加过CSDN2020年度博客之星,《Java王大师王天师》公众号:JAVA开发王大师,专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生,期待你的关注和支持!本人外号:神秘小峯山峯转载说明:务必注明来源(注明:作者:王文峰哦)ChatGPT原理和......
  • AI辅助编程7 创意、规划和需求
    7创意、规划和需求在本章中,我们将深入探讨制作软件的重要早期阶段。在这一阶段,所有的奇思妙想都会迸发出来,我们也要在这一阶段对它们进行规划,以便它们可以投入使用。我们将使用ChatGPT进行有效的头脑风暴,并将计划细化到最后一个细节。我们将研究市场调研,关注趋势,了解竞争对手......
  • LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理
    LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理LLM技术图谱(LLMTechMap)是将LLM相关技术进行系统化和图形化的呈现,此图谱主要特点是“专注于技术人视角”,不求从LLM产业角度汇聚信息,而是希望让从事相关工作或是想了解LLM的技术人有一个快速......
  • C++题解(1) 信息学奥赛一本通 1003:对齐输出 洛谷 B2004:对齐输出 土豆编程 T1003:对
    【题目描述】读入三个整数,按每个整数占8个字符的宽度,右对齐输出它们,按照格式要求依次输出三个整数,之间以一个空格分开。【输入】只有一行,包含三个整数,整数之间以一个空格分开。【输出】只有一行,按照格式要求依次输出三个整数,之间以一个空格分开。【输入样例】......
  • 用ChatGPT革新SEO:搜索引擎优化的AI驱动策略
    用ChatGPT革新SEO:搜索引擎优化的AI驱动策略引言搜索引擎优化(SEO)是数字营销中不可或缺的一部分,它影响着网站在搜索引擎结果页(SERP)上的表现。随着人工智能(AI)技术的兴起,ChatGPT等AI工具为SEO带来了新的机遇。本文将深入探讨如何利用ChatGPT辅助SEO,提供一系列创新策略和实践指......
  • 构建本地智能知识问答系统:基于Langchain和ChatGLM的简单实践
    在数字化时代,智能知识问答系统成为了提升企业效率和数据安全性的关键工具。本文将介绍如何基于Langchain和ChatGLM构建一个本地化、支持中文的智能知识问答系统。该系统不仅能够实现完全本地化推理,而且对开源模型友好,可满足企业对数据隐私和私域化部署的需求。项目概览本项目利......
  • 聊聊最近比较火的AI产品做互联网算法备案
    今年AI......