首页 > 其他分享 >在矩池云使用Llama2-7B的方法

在矩池云使用Llama2-7B的方法

时间:2023-08-01 18:48:11浏览次数:68  
标签:显存 LOAD 7B Llama2 webui 租用 矩池 8BIT

今天给大家分享如何在矩池云服务器使用 Llama2-7b模型。

硬件要求

矩池云已经配置好了 Llama 2 Web UI 环境,显存需要大于 8G,可以选择 A4000、P100、3090 以及更高配置的等显卡。

租用机器

在矩池云主机市场:https://matpool.com/host-market/gpu ,选择显存大于 8G 的机器,比如 A4000 显卡,然后点击租用按钮(选择其他满足显存要求的显卡也行)。

租用页面,搜索 Llama 2 Web UI,并选择该镜像,再 点击租用即可。

预装:Ubuntu20.04, Python 3.9, Pytorch 2.0, Llama-2-7b-chat-hf, Llama2-webui, CUDA 11.7, cuDNN 8, NVCC(默认开启 LOAD_IN_8BIT,仅支持显存 8G 以上显卡,开机自启Llama2-webui 服务在 7860 端口)

Llama2-webui 来自开源项目:https://github.com/liltom-eth/llama2-webui

机器租用成功后,可以看到 7860 端口的对应链接,这是 Llama2-webui 默认的端口,镜像已经设置了开机自启,也就是说你现在可以直接访问这个链接,开始使用 Llama2-7B啦。

使用 Llama2-webui

点击租用页面中的 7860 端口对应链接即可访问相关服务。

在页面中的Advanced options中我们可以进行一些设置,比如:系统角色、回复内容的最长长度等。

在上面的问题中我们可以发现,即使给他设置了中文回复,但回复结果仍然用的英文,另外他确实理解了我的问题,并接受了设置的角色。

关闭 LOAD_IN_8BIT,推理更快

这个镜像自启服务中默认开启了 LOAD_IN_8BIT ,这样可以使推理时占用更少的显存,但也会花费更长的时间,所以,如果你租用的是 13G 以上显存机器,可以按以下方法关闭 LOAD_IN_8BIT 重新运行服务,以获得更快的推理速度。

点击租用页面:JupyterLab 链接。

新建一个 terminal,输入ps aux | grep app.py查看相关服务进程id,并使用kill指令结束进程。

JupyterLab 左侧目录导航栏打开llama2-webui项目文件夹下的envfile文件,将里面的LOAD_IN_8BIT = True改成LOAD_IN_8BIT = False,然后按 ctrl+s 保存文件。

回到 terminal,输入以下指令重新启动 Llama2-webui 服务。

cd /llama2-webui/
nohup python -u app.py > /llama2-webui/run_log.log 2>&1 &
# 查看程序运行日志
tail -f run_log.log

等模型加载完成,即可再次访问租用页面 7860 端口连接,使用服务了。

中文迭代效果依然有限,不过迭代速度和效果好了不少。

标签:显存,LOAD,7B,Llama2,webui,租用,矩池,8BIT
From: https://www.cnblogs.com/matpool/p/17598755.html

相关文章

  • Llama2开源大模型的新篇章以及在阿里云的实践
    Llama一直被誉为AI社区中最强大的开源大模型。然而,由于开源协议的限制,它一直不能被免费用于商业用途。然而,这一切在7月19日发生了改变,当Meta终于发布了大家期待已久的免费商用版本Llama2。Llama2是一个由MetaAI开发的预训练大语言模型,它可以接受任何自然语言文本作为输入,并生成文......
  • 使用GGML和LangChain在CPU上运行量化的llama2
    MetaAI在本周二发布了最新一代开源大模型Llama2。对比于今年2月发布的Llama1,训练所用的token翻了一倍,已经达到了2万亿,对于使用大模型最重要的上下文长度限制,Llama2也翻了一倍。在本文,我们将紧跟趋势介绍如何在本地CPU推理上运行量化版本的开源Llama2。 https:......
  • 题解 AT3726 [ARC087B] FT Robot
    首先可以观察到一个非常重要的性质:对于一次前进的操作,如果前面有奇数次转向,则走上下,否则走左右。(当然如果一开始就前进就只能走右)于是我们可以将其拆成许多的“块”,并分成两类,即前进方向为左右还是上下。然后对于两个维度分别dp。\(f_{i},_{j}=f_{i-1},_{j-val}\|\f_{i-......
  • 240-960MHz带编码器的单片OOK 发射器CMT2157B
    CMT2157B是一款真正意义上的单芯片、高灵活性、超低功耗、带编码器的OOK射频发射芯片,非常适合于240至960MHz的无线应用场合。该芯片可实现完全兼容市面上最常用的527、1527、2262和2240等编码格式。此外,还支持用户各种自定义编码。该芯片支持4个独立按键或多达10个扫描按......
  • [llama懒人包]ChatGPT本地下位替代llama-7b,支持全平台显卡/CPU运行
    LLAMA的懒人包:链接:https://pan.baidu.com/s/1xOw8-eP8QB--u6y644_UPg?pwd=0l08 提取码:0l08模型来源:elinas/llama-7b-hf-transformers-4.29模型来源(LoRA):ymcui/Chinese-LLaMA-Alpaca侵权请通知作者删除也可以进我的群下载哦:904511841下面是llama的输入样例 >自......
  • 微调7B模型只用单GPU!通用多模态工具LLaMA-Adapter拆掉门槛,效果惊人
    前言 开源万能模型微调工具LLaMA-Adapter发布,支持多模态输入输出。本文转载自新智元仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【CV技术指南......
  • LCD多键触摸驱动IC芯片VK36N3B/4B/5B/6B/7B/8B技术资料
    型号汇总:VK36N3B-8B按键数不同,分别对应3-8个触摸按键VK36N3B封装为sop8,VK36N4-8B为sop16,VK36N3B/4B为2位BCD码输出,VK36N5B-8B为3位BCD码输出。概述:VK36N3B具有3个触摸按键,可用来检测外部触摸按键上人手的触摸动作。该芯片具有较高的集成度,仅需极少的外部组件便可实现触摸按键......
  • 如何在矩池云上运行 AI 图像编辑工具 DragGAN
    5月,DragGAN横空出世,在开源代码尚未公布前,就在Github上斩获近20000Star,彼时,页面上只有效果图和一句“CodewillbereleasedinJune”,然而这也足够带给人们无限期待。在6月末,在若干非官方复现代码发布后,官方版DragGAN终于发布,我们也第一时间在矩池云上进行了尝试。上传模型......
  • Hugging News #0626: 音频课程更新、在线体验 baichuan-7B 模型、ChatGLM2-6B 重磅发
    每一周,我们的同事都会向社区的成员们发布一些关于HuggingFace相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「HuggingNews」,本期HuggingNews有哪些有趣的消息,快来看看吧!重要更新最新音频课程现已发布近期,我们......
  • 如何在矩池云上安装和使用 Stata
    Stata是一款功能强大的统计分析软件,本文提供了如何在矩池云安装使用Stata,以及如何在Jupyter中使用Stata的简要教程。安装Stata时需要确保按照官方指南进行操作,Stata为付费软件,用户需要自己购买相关软件,将软件安装包上传到矩池云网盘,再根据本教程租用机器安装使用。上传......