2023.25 大模型和小模型

时间：2023-06-24 14:23:05浏览次数：57

标签：场景 AI 模型解释性 LLM 2023.25 计算资源

大模型通常指参数较多、层数较深的模型，它们具有更强的表达能力和更高的准确度，但也需要更多的计算资源和时间来训练和推理。常见的大型模型包括深度神经网络（DNN）、卷积神经网络（CNN）、循环神经网络（RNN）等。这些模型适用于数据量较大、计算资源充足的场景，例如云端计算、高性能计算、人工智能等。小模型通常指参数较少、层数较浅的模型，它们具有轻量级、高效率、易于部署等优点。常见的小型模型包括线性模型、决策树、朴素贝叶斯等。这些模型适用于数据量较小、计算资源有限的场景，例如移动端应用、嵌入式设备、物联网等。在AI时代，选择适合的模型至关重要。一方面，开源的LLM模型不断涌现，比如OPT、BLOOM、LLaMA等，这些预训练模型的推出极大地促进了LLM的相关研究，使得LLM可以被应用于解决愈发复杂的实际问题。另一方面，以羊驼家族（如Alpaca、Vicuna、Guanaco）为代表的，经过微调或蒸馏的小型化LLM也成为了当下的研究焦点之一，在多项测评中都展现出了优异的表现；此外，以Quantization、LoRA、Offloading为代表的多项系统优化技术使得以更低的资源需求部署这些LLM成为可能。大模型在性能和准确度方面具备优势，但也面临着计算资源消耗和可解释性等挑战；小模型则更加轻巧和高效、低成本，但在复杂任务上可能有所不足。那么，要如何选择适合的模型呢？1. 根据任务需求：根据任务的复杂程度选择合适的模型，对于简单任务和资源有限的场景，小模型可能更合适；而对于复杂任务和高性能要求的场景，大模型可能更适合。2. 考虑计算资源：大模型通常需要更多的计算资源进行训练和推理，需要评估自身的计算资源是否能够满足需求。3. 模型可解释性：对于一些对模型解释性要求较高的场景，小模型可能更有优势，因为大模型通常较为复杂，难以解释其决策过程。在选择好模型后，还要注意以下几点：
1. 模型压缩与优化：对于大模型，可以通过模型压缩、剪枝和量化等技术，减少模型大小和计算资源消耗。2. 模型融合与集成：将大模型和小模型进行融合和集成，充分发挥各自的优势，提升整体性能和效果。3. 持续学习和更新：随着技术的不断进步和数据的不断积累，可以持续学习和更新模型，提升其性能和适应性。总之，在选择模型时，需要根据任务需求、计算资源和模型可解释性等因素进行综合考虑。同时，需要不断探索模型压缩、融合和持续学习等方法，以应对挑战并不断提升AI技术的发展水平。

近期，微软出人意料地发布了一个只有 13 亿参数但具有大模型推理能力的开源小模型 Orca，它使用创新的训练方法，成为首位敢于同专有模型叫板的挑战者。而且，Orca 的规模仅是其竞争对手的几十分之一（甚至可能只相当于 GPT-4 的几百分之一）。令人难以置信的是，Orca 在某些场景下甚至表现更好，而且完全碾压迄今为止所谓最强开源模型 Vicuna。论文地址：https://arxiv.org/pdf/2306.02707.pdf
未来学会跟AI提问，输入良好的prompt提示词，将是一个人的重要能力。Intelligent.com 的高等教育顾问、伊萨卡学院战略传播教授 Diane Gayeski 在接受 VentureBeat 采访时表示。“家长们认为 ChatGPT 是一个很有吸引力的导师，因为它免费、随时可用，而且回答问题迅速。它非常擅长提供基本概念，甚至是提供代数、地理和外语等常见主题的练习题。”Gayeski 说到。“为了获得有效的结果，ChatGPT 完全依赖于用户输入良好的 prompt。学生必须具备足够的背景知识才能给 ChatGPT 提供正确类型的 prompt。”

标签：场景,AI,模型,解释性,LLM,2023.25,计算资源
From： https://www.cnblogs.com/doit8791/p/17501055.html

deepspeed ZeRO-Inference 可在1-GPU上推理～100B的大模型
原理：......
怎么让英文大预言模型支持中文？（一）构建自己的tokenization
代码地址：https://github.com/taishan1994/sentencepiece_chinese_bpePart1前言目前，大语言模型呈爆发式的增长，其中，基于llama家族的模型占据了半壁江山。而原始的llama模型对中文的支持不太友好，接下来本文将讲解如何去扩充vocab里面的词以对中文进行token化。Part2数据预处理对......
什么是大模型？
阅读本文之前，建议先阅读上一篇：什么是神经网络？本文由gpt4辅助撰写（gptschools.cn）什么是大模型？模型是指具有大量参数的深度学习或机器学习模型，这些参数可以通过训练过程自动调整以捕获输入数据中的复杂关系。这类模型通常具有较深的网络结构和较多的神经元，以增加模型的表示能力......
【tensorflow】连续输入+离散输入的神经网络模型训练代码
【tensorflow】连续输入+离散输入的神经网络模型训练代码离散输入的转化问题构造词典创建离散数据、转化字典索引、创建连续数据创建离散输入+连续输入模型训练输出全部代码-复制即用查看本系列三种模型写法：【tensorflow】连续输入的线性回归模型训练代码 ......
模型剪枝：让深度学习模型更好地应对不同的任务和环境
目录1.引言2.技术原理及概念3.实现步骤与流程4.应用示例与代码实现讲解5.优化与改进6.结论与展望7.附录：常见问题与解答《模型剪枝：让深度学习模型更好地应对不同的任务和环境》摘要：本文介绍了深度学习模型剪枝技术，它是一种让深度学习模型更好地应对不同的任务和环境的有......
Python与TensorFlow：如何高效地构建和训练机器学习模型
目录标题：《Python与TensorFlow：如何高效地构建和训练机器学习模型》一、引言随着人工智能的快速发展，机器学习作为其中的一个重要分支，受到了越来越多的关注和应用。而Python作为一门广泛应用于机器学习领域的编程语言，其与TensorFlow的结合也变得越来越重要。本文将介绍Python与......
模型生成技术：让智能家居变得更加智能化和高效化
目录引言智能家居是一个非常热门的领域，随着人工智能技术的不断发展，模型生成技术也成为了智能家居领域的一个热门技术。本文将介绍模型生成技术，让智能家居变得更加智能化和高效化。技术原理及概念模型生成技术是指利用机器学习和深度学习算法，对现有的数据进行建模，生成新的......
AI向百万薪资高级原画师开刀？！爆Midjourney入局3D模型生成
现在AI向高级原画师和3D开刀了？网传爆料AI已入局3D模型生成...这进化速度放在整个行业都十分炸裂4月，Midjourney进一步宣布推出Niji-journeyV5这是MJ针对二次元动漫风格预训练好的模型可在其中添加提示词直接调用NijiV5模型据了解，Midjourney是由来自麻省理工的团队Spellbrush共同打......
北京打响大模型地方战第一枪：公布通用人工智能发展21项措施
作者 | 李水青智东西5月16日消息，近日，《北京市促进通用人工智能创新发展的若干措施（2023-2025年）（征求意见稿）》（简称：“措施”）公布，从算力、数据、算法、应用、监管五大方向，对北京大模型发展提出了21项措施，于5月12日至5月19日面向公众征集意见。这是国内首个地方政府紧贴AI大模型产业......
3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光
谷歌内部文件又泄露了，这次是谷歌新一代大模型PaLM2的训练细节：训练数据量是前代的近5倍、参数量是前代的三分之二左右。上周四，在2023谷歌I/O大会上，谷歌CEO皮查伊宣布推出对标GPT-4的大模型PaLM 2，并正式发布预览版本，改进了数学、代码、推理、多语言翻译和自然语言生成......

2023.25 大模型和小模型

相关文章

赞助商

阅读排行