open_llama_7b_v2 本地运行尝鲜

时间：2024-03-28 11:23:44浏览次数：36

标签：map 7b tokenizer ids v2 llama device input model

open_llama_7b_v2 https://github.com/openlm-research/open_llama

auto 多卡时，显存共 906M+3870M+3870M+762M == 9408 M ，大概率是 tf cuda 驱动的问题
cuda:2 单卡时，显存共 13266M

Python 3.9.16
torch 2.0.1
transformers 4.39.1

import torch
from transformers import LlamaTokenizer, LlamaForCausalLM

## v2 models
model_path = './'
device_map = 'cuda:2'   # 'auto' 'cuda:2'
tokenizer = LlamaTokenizer.from_pretrained(model_path)
model = LlamaForCausalLM.from_pretrained(
    model_path, torch_dtype=torch.float16, device_map=device_map,
)

prompt = 'Q: What is the largest animal?\nA:'
if device_map == 'auto':
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids
else:
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device_map)
generation_output = model.generate(
    input_ids=input_ids, max_new_tokens=32
)
print(tokenizer.decode(generation_output[0]))

# import time   # for check memory usage
# time.sleep(10)

标签：map,7b,tokenizer,ids,v2,llama,device,input,model
From： https://www.cnblogs.com/guilinmifen/p/18101143

TorchV的RAG实践分享(三):解析llama_index的数据存储结构和召回策略过程
1.前言LlamaIndex是一个基于LLM的数据处理框架，在RAG领域非常流行，简单的几行代码就能实现本地的文件的对话功能，对开发者提供了极致的封装，开箱即用。本文以官方提供的最简单的代理示例为例，分析LlamaIndex在数据解析、向量Embedding、数据存储及召回的整个源码过程。通过学习框架......
YOLOv5改进系列：主干ConvNeXTV2结构助力涨点
一、论文理论论文地址：ConvNeXtV2:Co-designingandScalingConvNetswithMaskedAutoencoders1.理论思想ConvNeXtV2 在 ConvNeXt 的基础上增加了两个创新点（一个 framework 和一个 technique）：全卷积掩码自编码器（fullyconvolutionalmaskedautoencoder,FCMAE）和......
强大的VS插件CodeRush全新发布v23.2.6——支持语音
CodeRush是一个强大的VisualStudio.NET插件，它利用整合技术，通过促进开发者和团队效率来提升开发者体验。CodeRushv23.2.6正式版下载具体更新详情如下：语音支持-CTP指定Azure语音识别和OpenAIAPI密钥后，可以在VisualStudio2022中启用语音功能。语音命令按住Ctrl键并说......
界面控件DevExpress WinForms/WPF v23.2 - 电子表格支持表单控件
DevExpressWinForm拥有180+组件和UI库，能为WindowsForms平台创建具有影响力的业务解决方案。DevExpressWinForm能完美构建流畅、美观且易于使用的应用程序，无论是Office风格的界面，还是分析处理大批量的业务数据，它都能轻松胜任！表单控件表示交互元素(按钮、复选框和下拉列表)，并在......
【YOLOv5改进系列(4)】高效涨点----添加可变形卷积DCNv2
可变形卷积......
Elasticsearch：使用在本地计算机上运行的 LLM 以及 Ollama 和 Langchain 构建 RAG 应用
无需GPU的隐私保护LLM。在本博客中，我将演示使用不同的工具Ollama构建的RAG应用程序。与本文相关的所有源代码均已发布在github上。请克隆存储库以跟随文章操作。我们可以通过如下的方式来克隆：gitclonehttps://github.com/liu-xiao-guo/ollama_es什么是 Ollam......
服务器搭建V2实现跨境访问
用途跨境访问准备工作1、一台服务器（香港、新加坡等地区）2、一个域名（将服务器ip解析到该域名）3、域名解析3、V2客户端Xshell连接服务器后执行命令连接服务器以下命令一键安装：将敏感词改一下：bash<(curl-s-Lhttps://raw.githubusercontent.com/xyz690/敏感词/mas......
YoloV5、ShuffleNetV2、YoloV5-Lite网络概述
前言前段时间需要在树莓派上部署一个深度学习环境，先试了YoloV5，fs基本才0.3，远远达不到要求，于是就尝试了一下轻量化网络，试过mobileNet系列+YoloV4，fps有所提升，大概能达到0.9左右，但还是比较慢，于是就发现了YoloV5-Lite这个轻量化网络，极大地加速了fps，基本能达到3左右，因此详细了解了......
cfEduRound163div2--D题解
D-TandemRepeats?题意:做法：因为字符串长度较少，可以考虑枚举。or--动态规划voidsolve(){//D枚举//枚举！！！！！！！！！！stringstr;cin>>str;intn=str.size(),ans=0;for(inti=1;i<=n/2;i++){//枚举一半!!!intcnt=0;for(intj=0;......
SMU Winter 2024 div2 ptlks的周报Week 6（3.18-3.24）
不难想到，要求环的期望，只需求出所有可能的环的长度总和和不相邻点对的组数。而边数确定，则只需求环的总长。对于两个不相邻的点x，y，所形成的环的长度等于两点深度之差加一，\(\vertdp[x]-dp[y]\vert+1\)，不妨令x为根节点，则只需求所有节点的深度之和，再减去相邻的点，最后对树进行换根dp，输出......

open_llama_7b_v2 本地运行尝鲜

相关文章

赞助商

阅读排行