之前的文章《大模型应用技术系列(一):大模型应用整体技术栈浅析》中,我们浅析了大模型技术栈的构成。从用户到底层,每层中都有很多需要深究的东西。本文将专注介绍大模型部署层面的内容。从一个简单的应用场景出发,通过一个完整的工具链路,来深入了解部署的过程。
简介
模型训练好之后,最终一定是要对外提供服务的,那么就意味着需要将模型部署到服务端,并提供开放的接口来对外提供服务。接口层面一般遵循OpenAI的接口规范,模型服务一般需要提供OpenAI兼容的接口来让用户进行使用。那么,如何对训练好的模型进行部署呢?目前有哪些部署方式呢?本文将从部署演进的视角,来阐述大模型部署方式以及其中设计到的推理优化过程。
模型部署
本地部署
Ollama
Ollama是一个开源的大型语言模型服务工具和框架,它简化了部署模型的流程,使训练好的大语言模型可以方便被部署到docker上。 并且它支持不同的平台,也可以很灵活的进行扩展。对于端侧应用来说,是一个不错的选择。
ollama本身是CS架构,用户通过ollama client和启动的server通信,server端主要由两部分构成,api server和lamma.cpp构成。其中api server提供对外的api服务,lamma.cpp负责实际的模型推导。
ollama的好处是,它可以简单方便的部署到本地机器上,甚至不需要GPU,可以让模型在CPU上运行。这对于资源限制或者需要网络隔离的
标签:部署,推理,模型,接口,server,api,ollama,优化 From: https://blog.csdn.net/u011160113/article/details/144698130