首页 > 其他分享 >Kubernetes运行 Llama3

Kubernetes运行 Llama3

时间:2024-10-19 20:46:52浏览次数:11  
标签:OpenWebUI Kubernetes Ollama 模型 Llama3 webui GPU ollama 运行

引言

Ollama 是一个运行大模型的工具,可以看成是大模型领域的 Docker,可以下载所需的大模型并暴露 API。OpenWebUI 是一个大模型的 Web UI 交互工具,支持 Ollama,即调用 Ollama 暴露的 API 实现与大模型交互。本文将详细介绍如何在 Kubernetes 上部署 Ollama 和 OpenWebUI,以运行 Llama3 大语言模型。

部署方案选型

虽然 OpenWebUI 的仓库中自带 Ollama + OpenWebUI 的部署方式(主要是 kustomize 和 helm),但本文更推荐直接写 YAML 进行部署,原因如下:

  1. Ollama + OpenWebUI 所需 YAML 相对较少,直接根据需要写 YAML 更直接和灵活。
  2. 不需要研究 OpenWebUI 提供的 kustomize 和 helm 方式的用法。

选择模型

Llama3 目前主要有 8b 和 70b 两个模型,分别对应 80 亿和 700 亿规模的参数模型。CPU 和 GPU 都支持,但根据模型大小和硬件配置,性能会有很大差异:

  • 8b 是小模型,对配置要求不高,一般处于成本考虑,可以直接使用 CPU 运行。
  • 70b 是大模型,CPU 几乎无法胜任,GPU 的配置也需要较高。经实测,24G 显存运行会非常慢,32G 的也有点吃力,40G 的相对流畅(比如 Nvidia A100)。

准备 Namespace

首先,我们需要准备一个 namespace,用于部署运行 llama3 所需的服务:

kubectl create ns llama

部署 Ollama

以下是 Ollama 的部署 YAML:

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: ollama
  namespace: llama
spec:
  serviceName: "ollama"
  replicas: 1
  selector:
    matchLabels:
      app: ollama
  template:
    metadata:
      labels:
        app: ollama
    spec:
      containers:
        - name: ollama
          image: ollama/ollama:latest
          ports:
            - containerPort: 11434
          resources:
            requests:
              cpu: "2000m"
              memory: "2Gi"
              nvidia.com/gpu: "0" # 如果要用 Nvidia GPU,这里声明下 GPU 卡
            limits:
              cpu: "4000m"
              memory: "4Gi"
          volumeMounts:
            - name: ollama-volume
              mountPath: /root/.ollama
          tty: true
  volumeClaimTemplates:
    - metadata:
        name: ollama-volume
      spec:
        accessModes: ["ReadWriteOnce"]
        resources:
          requests:
            storage: 200Gi # 注意要确保磁盘容量能够容纳得下模型的体积
---
apiVersion: v1
kind: Service
metadata:
  name: ollama
  namespace: llama
  labels:
    app: ollama
spec:
  type: ClusterIP
  ports:
    - port: 11434
      protocol: TCP
      targetPort: 11434
  selector:
    app: ollama

部署 OpenWebUI

以下是 OpenWebUI 的部署 YAML:

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: webui-pvc
  namespace: llama
  labels:
    app: webui
spec:
  accessModes: ["ReadWriteOnce"]
  resources:
    requests:
      storage: 2Gi

---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: webui
  namespace: llama
spec:
  replicas: 1
  selector:
    matchLabels:
      app: webui
  template:
    metadata:
      labels:
        app: webui
    spec:
      containers:
        - name: webui
          image: imroc/open-webui:main # docker hub 中的 mirror 镜像,长期自动同步,可放心使用
          env:
            - name: OLLAMA_BASE_URL
              value: http://ollama:11434 # ollama 的地址
          tty: true
          ports:
            - containerPort: 8080
          resources:
            requests:
              cpu: "500m"
              memory: "500Mi"
            limits:
              cpu: "1000m"
              memory: "1Gi"
          volumeMounts:
            - name: webui-volume
              mountPath: /app/backend/data
      volumes:
        - name: webui-volume
          persistentVolumeClaim:
            claimName: webui-pvc

---
apiVersion: v1
kind: Service
metadata:
  name: webui
  namespace: llama
  labels:
    app: webui
spec:
  type: ClusterIP
  ports:
    - port: 8080
      protocol: TCP
      targetPort: 8080
  selector:
    app: webui

© ivwdcwso (ID: u012172506)

打开 OpenWebUI

部署完成后,你可以通过多种方式将 OpenWebUI 暴露给集群外访问,比如 LoadBalancer 类型 Service、Ingress 等。这里我们使用 kubectl port-forward 的方式将 webui 暴露到本地:

kubectl -n llama port-forward service/webui 8080:8080

然后在浏览器中打开 http://localhost:8080。首次打开需要创建账号,第一个创建的账号为管理员账号。

下载模型

有三种方法可以下载模型:

方法一:通过 OpenWebUI 下载

  1. 进入 OpenWebUI 并登录。
  2. 在"设置-模型"中,输入需要下载的 llama3 模型并点击下载按钮。
  3. 等待下载完成。

注意:如果页面关闭,下载会中断,可重新打开页面并重新输入要下载的模型进行下载,会自动断点续传。
© ivwdcwso (ID: u012172506)

方法二:执行 ollama pull 下载

  1. 进入 ollama 的 pod:
    kubectl -n llama exec -it ollama-0 bash
    
  2. 执行 ollama pull 下载需要的模型,例如:
    ollama pull llama3:70b
    
  3. 等待下载完成。

注意:如果 kubectl 的连接中断,下载也会中断,可重新执行命令断点续传。

方法三:使用 init container 自动下载模型

修改 Ollama 的部署 YAML,加入 initContainer 来实现自动下载模型:

initContainers:
  - name: pull
    image: ollama/ollama:latest
    tty: true
    stdin: true
    command:
      - bash
      - -c
      - |
        model="llama3:8b" # 替换需要使用的模型
        ollama serve &
        sleep 5 # 等待 ollama server 就绪
        result=`ollama list | grep $model`
        if [ "$result" == "" ]; then
          echo "downloading model $model"
          ollama pull $model
        else
          echo "model $model already been downloaded"
        fi
    volumeMounts:
      - name: ollama-volume
        mountPath: /root/.ollama

开始对话

打开 OpenWebUI 页面,选择模型,然后就可以在对话框中开始对话了。

小技巧

GPU 调度策略

对于像 70b 这样的大模型,需要较好的 GPU 才能跑起来。如果集群内有多种 GPU 节点,需要加下调度策略,避免分配到较差的 GPU。

例如,要调度到显卡型号为 Nvidia Tesla V100 的节点:

  1. 给节点打上 label:
    kubectl label node gpu=v100
    
  2. 配置调度策略:
    nodeSelector:
      gpu: v100
    

省钱小妙招

  1. 如果使用云厂商托管的 Kubernetes 集群,且不需要大模型高可用,可以购买竞价实例(Spot),会便宜很多。
  2. 如果只在部分时间段使用,可以使用定时伸缩,在不需要的时间段将 Ollama 和 OpenWebUI 的副本数自动缩到 0 以停止计费,比如使用 KEDA 的 Cron 触发器实现定时伸缩。

常见问题

节点无公网导致模型下载失败

ollama 所在机器需要能够访问公网,因为 ollama 下载模型需要使用公网,否则会下载失败,无法启动。可通过查看 init container 的日志确认。

大模型的生成速度非常慢

对于 70b 这样的大模型,使用 CPU 运行几乎不可行,而使用 GPU 也需要足够大的显存。如果没有更好的 GPU,可以考虑使用多张 GPU 卡并行。修改 ollama 的 YAML,在 requests 中声明多个 GPU:

resources:
  requests:
    nvidia.com/gpu: "4"

这样,在模型运行时,几张 GPU 卡可以均摊显存,提高生成速度。

结论

通过本文的指导,你应该能够在 Kubernetes 集群上成功部署 Ollama 和 OpenWebUI,并运行 Llama3 大语言模型。这种部署方式具有以下优点:

  1. 灵活性:可以根据需求自由选择和切换不同的模型。
  2. 可扩展性:利用 Kubernetes 的特性,可以方便地进行扩缩容。
  3. 资源优化:通过合理的资源配置和调度策略,可以充分利用集群资源。
  4. 易于管理:使用 Kubernetes 进行部署,便于统一管理和监控。

然而,在实际应用中,你可能还需要考虑以下几点:

  1. 安全性:确保模型和用户数据的安全,可能需要额外的安全措施。
  2. 性能优化:根据实际使用情况,可能需要进一步优化资源配置和网络设置。
  3. 成本控制:大模型运行可能会消耗大量资源,需要合理规划和控制成本。
    © ivwdcwso (ID: u012172506)

未来展望

随着大语言模型技术的不断发展,我们可以期待:

  1. 更高效的模型:未来可能会出现参数量更小但性能相当或更优的模型,这将降低硬件要求。
  2. 更好的部署工具:像 Ollama 这样的工具可能会变得更加强大和易用。
  3. 云原生集成:大语言模型服务可能会更深度地集成到云原生生态中,提供更seamless的使用体验。

参考资料

附录:故障排查指南

在部署和使用过程中,你可能会遇到一些问题。以下是一些常见问题的排查建议:

  1. Pod 无法启动

    • 检查 Pod 的事件和日志
    • 确保资源配额充足
    • 检查镜像拉取策略和镜像仓库的可访问性
  2. 模型下载失败

    • 确保节点有公网访问权限
    • 检查网络策略,确保允许必要的出站流量
    • 尝试使用镜像或代理服务器
  3. WebUI 无法访问

    • 检查 Service 配置是否正确
    • 确保防火墙规则允许相应的流量
    • 检查 Ingress 配置(如果使用)
  4. 模型加载缓慢

    • 检查存储性能,考虑使用更快的存储类型
    • 优化网络设置,减少延迟
    • 考虑使用本地缓存或预加载机制
  5. 生成速度慢

    • 检查 GPU 利用率,考虑增加 GPU 数量或使用更强力的 GPU
    • 优化模型配置,如降低精度或使用量化技术
    • 考虑使用分布式推理技术
  6. 内存溢出

    • 增加容器的内存限制
    • 检查是否有内存泄漏,考虑定期重启服务
    • 优化模型或切换到更小的模型

最佳实践建议

  1. 监控和告警:设置适当的监控和告警机制,及时发现和解决问题。
  2. 定期更新:保持 Ollama、OpenWebUI 和模型的版本更新,以获得最新的功能和性能改进。
  3. 资源规划:根据实际使用情况,定期评估和调整资源配置。
  4. 安全加固:实施必要的安全措施,如网络隔离、访问控制等。
  5. 备份和恢复:定期备份重要数据和配置,制定恢复策略。
  6. 性能测试:在生产环境部署前,进行充分的性能测试和压力测试。
  7. 文档和培训:保持文档的更新,并对运维人员进行必要的培训。

通过遵循这些最佳实践,你可以构建一个更加稳定、高效和安全的 Llama3 大语言模型服务。
© ivwdcwso (ID: u012172506)

结语

在 Kubernetes 上部署和运行 Llama3 大语言模型是一个既有挑战性又充满机遇的任务。通过本文介绍的方法和技巧,你应该能够成功地在你的 Kubernetes 集群中运行这个强大的 AI 模型。随着技术的不断发展,我们期待看到更多创新的应用场景和部署方案。希望本文能为你的 AI 之旅提供有价值的参考和指导。

标签:OpenWebUI,Kubernetes,Ollama,模型,Llama3,webui,GPU,ollama,运行
From: https://blog.csdn.net/u012172506/article/details/143083962

相关文章

  • Python+PyCharm安装教程,Python+Pycharm环境配置和使用指南,以及如何使用pycharm运行你
    Python+PyCharm安装教程,Python+Pycharm环境配置和使用指南,以及如何使用pycharm运行你的python代码(保姆级)一、Python下载与安装真实在Windows上安装过Python的小伙伴会发现在Windows上安装Python真的和安装普通软件一样简单,我们只需要在官网下载个安装包,然后猛击“下一步......
  • 微信小程序考试系统(lw+演示+源码+运行)
    摘要随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了微信小程序考试系统的开发全过程。通过分析微信小程序考试系统管理的不足,创建了一个计算机管理微信小程序考试系统的方案。文章介绍了微信小程序考试系统的系统分析部分,包括......
  • 微信阅读网站小程序的设计与实现(lw+演示+源码+运行)
    摘要由于APP软件在开发以及运营上面所需成本较高,而用户手机需要安装各种APP软件,因此占用用户过多的手机存储空间,导致用户手机运行缓慢,体验度比较差,进而导致用户会卸载非必要的APP,倒逼管理者必须改变运营策略。随着微信小程序的出现,解决了用户非独立APP不可访问内容的痛点,所以......
  • 基于微信小程序的社区养老服务系统(lw+演示+源码+运行)
    摘要随着计算机技术的成熟,互联网的建立,如今,PC平台上有许多关于社区养老服务方面的应用程序,但由于使用时间和地点上的限制,用户在使用上存在着种种不方便,而开发一款基于微信小程序的社区养老服务系统,能够有效地解决这个问题。本文主要介绍了基于微信小程序的社区养老服务系统......
  • windows安装Android studio并运行显示"hello world"
    闲言本次流程的最终实现目的,正确安装AndroidStudio,并实现运行成功希望能帮到大家目录闲言安装前准备下载AndroidStudio安装新建项目第一次创建情况如果proxy未在创建新项目时出现运行创建虚拟机运行虚拟机碎语安装前准备下载AndroidStudio官网链接https://devel......
  • ton合约中的变量需要在运行结束之后才能存储到合约中
    receive(msg:BatchSyncOrderMsg){self.requireOwner();//EnsurethecalleristhecontractownerletroundInfo:RoundInfo=self.rounds.get(msg.round)!!;//Fetchtheinformationforthespecifiedroundrequire(!(roundInfo.finish),"......
  • jar包运行报错1.无主属性清单 2.外部Jar包未导入 3.Data Source url报错解决 4.端口占
    相信大家mvnpackage打包成jar包后放到服务器上面运行后遇到一些很头疼的问题,怎么按照百度、gpt、csdn上面的博客修改就是成功不了但是!今天!博主带着自己尝试多次的血泪经验为大家解答以上三大问题!接下来以“代码+解析”的方式解析大家的问题一、无主属性问题报错如下图这......
  • 多job同时运行案例-jenkins
    多job同时运行案例-jenkinsMultiJobProject创建对应插件的Job总作业名称,每个job选择忽略,不强制依赖完成后任务输出测试作业执行结果控制台输出......
  • linux上编译运行c程序
    创建test文件,进入该目录后创建hello.c文件使用vimhello.c命令编辑hello.c文件编写完成后保存该文件,使用gcc进行编译并生成可执行程序在终端中执行输入./hello执行相关代码......
  • Kubernetes部署Prometheus并实现自定义指标HPA(安装、配置、实现全流程)
    1.安装kube-prometheusKube-Prometheus是一个开箱即用的监控解决方案,用于监控Kubernetes集群。它集成了Prometheus、Prometheus-Adapter、Alertmanager和一系列的导出器(exporters),使你能够轻松地收集和可视化集群中各种资源的监控数据。1.1克隆kube-prometheus仓库gitclon......