在矩池云使用Llama2-7B的方法

时间：2023-08-01 18:48:11浏览次数：72

标签：显存 LOAD 7B Llama2 webui 租用矩池 8BIT

今天给大家分享如何在矩池云服务器使用 Llama2-7b模型。

硬件要求

矩池云已经配置好了 Llama 2 Web UI 环境，显存需要大于 8G，可以选择 A4000、P100、3090 以及更高配置的等显卡。

租用机器

在矩池云主机市场：https://matpool.com/host-market/gpu ，选择显存大于 8G 的机器，比如 A4000 显卡，然后点击租用按钮（选择其他满足显存要求的显卡也行）。

租用页面，搜索 Llama 2 Web UI，并选择该镜像，再点击租用即可。

预装：Ubuntu20.04, Python 3.9, Pytorch 2.0, Llama-2-7b-chat-hf, Llama2-webui, CUDA 11.7, cuDNN 8, NVCC(默认开启 LOAD_IN_8BIT，仅支持显存 8G 以上显卡，开机自启Llama2-webui 服务在 7860 端口)

Llama2-webui 来自开源项目：https://github.com/liltom-eth/llama2-webui

机器租用成功后，可以看到 7860 端口的对应链接，这是 Llama2-webui 默认的端口，镜像已经设置了开机自启，也就是说你现在可以直接访问这个链接，开始使用 Llama2-7B啦。

使用 Llama2-webui

点击租用页面中的 7860 端口对应链接即可访问相关服务。

在页面中的Advanced options中我们可以进行一些设置，比如：系统角色、回复内容的最长长度等。

在上面的问题中我们可以发现，即使给他设置了中文回复，但回复结果仍然用的英文，另外他确实理解了我的问题，并接受了设置的角色。

关闭 LOAD_IN_8BIT，推理更快

这个镜像自启服务中默认开启了 LOAD_IN_8BIT ，这样可以使推理时占用更少的显存，但也会花费更长的时间，所以，如果你租用的是 13G 以上显存机器，可以按以下方法关闭 LOAD_IN_8BIT 重新运行服务，以获得更快的推理速度。

点击租用页面：JupyterLab 链接。

新建一个 terminal，输入ps aux | grep app.py查看相关服务进程id，并使用kill指令结束进程。

JupyterLab 左侧目录导航栏打开llama2-webui项目文件夹下的envfile文件，将里面的LOAD_IN_8BIT = True改成LOAD_IN_8BIT = False，然后按 ctrl+s 保存文件。

回到 terminal，输入以下指令重新启动 Llama2-webui 服务。

cd /llama2-webui/
nohup python -u app.py > /llama2-webui/run_log.log 2>&1 &
# 查看程序运行日志
tail -f run_log.log

等模型加载完成，即可再次访问租用页面 7860 端口连接，使用服务了。

中文迭代效果依然有限，不过迭代速度和效果好了不少。

标签：显存,LOAD,7B,Llama2,webui,租用,矩池,8BIT
From： https://www.cnblogs.com/matpool/p/17598755.html

Llama2开源大模型的新篇章以及在阿里云的实践
Llama一直被誉为AI社区中最强大的开源大模型。然而，由于开源协议的限制，它一直不能被免费用于商业用途。然而，这一切在7月19日发生了改变，当Meta终于发布了大家期待已久的免费商用版本Llama2。Llama2是一个由MetaAI开发的预训练大语言模型，它可以接受任何自然语言文本作为输入，并生成文......
使用GGML和LangChain在CPU上运行量化的llama2
MetaAI在本周二发布了最新一代开源大模型Llama2。对比于今年2月发布的Llama1，训练所用的token翻了一倍，已经达到了2万亿，对于使用大模型最重要的上下文长度限制，Llama2也翻了一倍。在本文，我们将紧跟趋势介绍如何在本地CPU推理上运行量化版本的开源Llama2。 https:......
题解 AT3726 [ARC087B] FT Robot
首先可以观察到一个非常重要的性质：对于一次前进的操作，如果前面有奇数次转向，则走上下，否则走左右。（当然如果一开始就前进就只能走右）于是我们可以将其拆成许多的“块”，并分成两类，即前进方向为左右还是上下。然后对于两个维度分别dp。\(f_{i},_{j}=f_{i-1},_{j-val}\|\f_{i-......
240-960MHz带编码器的单片OOK 发射器CMT2157B
CMT2157B是一款真正意义上的单芯片、高灵活性、超低功耗、带编码器的OOK射频发射芯片，非常适合于240至960MHz的无线应用场合。该芯片可实现完全兼容市面上最常用的527、1527、2262和2240等编码格式。此外，还支持用户各种自定义编码。该芯片支持4个独立按键或多达10个扫描按......
[llama懒人包]ChatGPT本地下位替代llama-7b，支持全平台显卡/CPU运行
LLAMA的懒人包：链接：https://pan.baidu.com/s/1xOw8-eP8QB--u6y644_UPg?pwd=0l08 提取码：0l08模型来源：elinas/llama-7b-hf-transformers-4.29模型来源（LoRA）：ymcui/Chinese-LLaMA-Alpaca侵权请通知作者删除也可以进我的群下载哦：904511841下面是llama的输入样例 >自......
微调7B模型只用单GPU！通用多模态工具LLaMA-Adapter拆掉门槛，效果惊人
前言开源万能模型微调工具LLaMA-Adapter发布，支持多模态输入输出。本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【CV技术指南......
LCD多键触摸驱动IC芯片VK36N3B/4B/5B/6B/7B/8B技术资料
型号汇总：VK36N3B-8B按键数不同，分别对应3-8个触摸按键VK36N3B封装为sop8,VK36N4-8B为sop16,VK36N3B/4B为2位BCD码输出,VK36N5B-8B为3位BCD码输出。概述：VK36N3B具有3个触摸按键，可用来检测外部触摸按键上人手的触摸动作。该芯片具有较高的集成度，仅需极少的外部组件便可实现触摸按键......
如何在矩池云上运行 AI 图像编辑工具 DragGAN
5月，DragGAN横空出世，在开源代码尚未公布前，就在Github上斩获近20000Star，彼时，页面上只有效果图和一句“CodewillbereleasedinJune”，然而这也足够带给人们无限期待。在6月末，在若干非官方复现代码发布后，官方版DragGAN终于发布，我们也第一时间在矩池云上进行了尝试。上传模型......
Hugging News #0626: 音频课程更新、在线体验 baichuan-7B 模型、ChatGLM2-6B 重磅发
每一周，我们的同事都会向社区的成员们发布一些关于HuggingFace相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「HuggingNews」，本期HuggingNews有哪些有趣的消息，快来看看吧！重要更新最新音频课程现已发布近期，我们......
如何在矩池云上安装和使用 Stata
Stata是一款功能强大的统计分析软件，本文提供了如何在矩池云安装使用Stata，以及如何在Jupyter中使用Stata的简要教程。安装Stata时需要确保按照官方指南进行操作，Stata为付费软件，用户需要自己购买相关软件，将软件安装包上传到矩池云网盘，再根据本教程租用机器安装使用。上传......

在矩池云使用Llama2-7B的方法

硬件要求

租用机器

使用 Llama2-webui

关闭 LOAD_IN_8BIT，推理更快

相关文章

赞助商

阅读排行