首页 > 其他分享 >大模型应用技术系列(二):大模型部署和推理优化

大模型应用技术系列(二):大模型部署和推理优化

时间:2024-12-25 20:28:07浏览次数:5  
标签:部署 推理 模型 接口 server api ollama 优化

        之前的文章《大模型应用技术系列(一):大模型应用整体技术栈浅析》中,我们浅析了大模型技术栈的构成。从用户到底层,每层中都有很多需要深究的东西。本文将专注介绍大模型部署层面的内容。从一个简单的应用场景出发,通过一个完整的工具链路,来深入了解部署的过程。

简介

        模型训练好之后,最终一定是要对外提供服务的,那么就意味着需要将模型部署到服务端,并提供开放的接口来对外提供服务。接口层面一般遵循OpenAI的接口规范,模型服务一般需要提供OpenAI兼容的接口来让用户进行使用。那么,如何对训练好的模型进行部署呢?目前有哪些部署方式呢?本文将从部署演进的视角,来阐述大模型部署方式以及其中设计到的推理优化过程。

模型部署

本地部署

Ollama

        Ollama是一个开源的大型语言模型服务工具和框架,它简化了部署模型的流程,使训练好的大语言模型可以方便被部署到docker上。 并且它支持不同的平台,也可以很灵活的进行扩展。对于端侧应用来说,是一个不错的选择。

        ollama本身是CS架构,用户通过ollama client和启动的server通信,server端主要由两部分构成,api server和lamma.cpp构成。其中api server提供对外的api服务,lamma.cpp负责实际的模型推导。

        ollama的好处是,它可以简单方便的部署到本地机器上,甚至不需要GPU,可以让模型在CPU上运行。这对于资源限制或者需要网络隔离的

标签:部署,推理,模型,接口,server,api,ollama,优化
From: https://blog.csdn.net/u011160113/article/details/144698130

相关文章

  • 完全小白的大模型入门科普
    引言:网上关于大模型的文章也很多,但是都不太容易看懂。小枣君今天试着写一篇,争取做到通俗易懂。废话不多说,我们直入主题。█什么是大模型?大模型,英文名叫LargeModel,大型模型。早期的时候,也叫FoundationModel,基础模型。大模型是一个简称。完整的叫法,应该是“人工智能预训练......
  • 【Unity 低多边形像素风格 3D 资源包】PIXELGON Muscle Cars Pack 提供了精心设计的车
    PIXELGONMuscleCarsPack是一款专注于肌肉车主题的低多边形像素风格3D资源包,包含多种经典和现代肌肉车设计,适合需要像素艺术风格的游戏项目。这款资源包提供了精心设计的车辆模型,兼具美观与性能优化,能为赛车类、城市模拟、开放世界等项目增添丰富的视觉效果。核心功能与......
  • Hadoop YARN:调度性能优化实践1
     背景YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。离线业务主要运行的是HiveonMapReduce,SparkSQL为主的数据仓库作业。实时业务主要运行S......
  • Hadoop YARN:调度性能优化实践3
     背景YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。离线业务主要运行的是HiveonMapReduce,SparkSQL为主的数据仓库作业。实时业务主要运行S......
  • Hadoop YARN:调度性能优化实践15
     背景YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。离线业务主要运行的是HiveonMapReduce,SparkSQL为主的数据仓库作业。实时业务主要运行S......
  • 什么是 Gas 优化?为什么重要?
    在以太坊和其他EVM区块链上,执行智能合约需要支付Gas费用。Gas是衡量智能合约计算成本的单位,用户需要为合约执行支付费用,费用由Gas消耗量和当前Gas价格决定。高效的智能合约设计可以显著降低Gas消耗,从而为用户和开发者节约成本,提升合约的可用性。在实际应用中,以下场景......
  • 优化大宽表查询性能,揭秘GaussDB(DWS) 谓词列analyze
    本文分享自华为云社区《GaussDB(DWS)谓词列analyze揭秘》,作者:SmithCoder。1.前言适用版本:【9.1.0.100(及以上)】​当前GaussDB(DWS)中存在手动analyze,查询触发的动态analyze,以及后台线程的轮询analyze三种触发形式,其中动态analyze又分为light模式和normal模式,light模式是基于内......
  • 【Unity 3D 工人角色资源包】Line Worker 提供了多个低多边形风格的工人角色模型,适用
    LineWorker是一款专为需要工人角色的游戏开发者设计的3D角色资源包。该资源包提供了多个低多边形风格的工人角色模型,适用于建筑工地、城市建设、维修和其他类似主题的游戏。每个角色都经过精心设计,具有鲜明的个性和细节,能够为游戏世界增添生动的角色元素。该资源包特别适......
  • 指标管理+AI大模型深度融合,开启智能数据分析管理新时代
    随着企业数字化转型的加速,数据管理和分析变得越来越重要。传统的指标管理平台虽然已经能够帮助企业有效地收集、计算、管理和展示关键指标,但在业务分析层面,面对日益复杂的数据环境和业务需求,单纯依靠人工分析已经难以满足高效、精准的管理要求。为此,将指标管理平台与AI大模型相结......
  • 龙哥量化:TB交易开拓者_趋势跟踪策略_多策略对单品种_A00011880206期货量化策略,不用过
    写在前面,做自动交易的宽客们都在寻找圣杯,目前,我找到一只玻璃杯,经过半年的漫长等待,玻璃杯没让我失望。路漫漫其修远兮,吾将上下而求索。如果您需要代写技术指标公式,请联系我。龙哥QQ:591438821龙哥微信:Long622889也可以把您的通达信,文华技术指标改成TB交易开拓者(金字塔、文华8......