首页 > 其他分享 >open_llama_7b_v2 本地运行尝鲜

open_llama_7b_v2 本地运行尝鲜

时间:2024-03-28 11:23:44浏览次数:18  
标签:map 7b tokenizer ids v2 llama device input model

open_llama_7b_v2 https://github.com/openlm-research/open_llama

auto 多卡时,显存共 906M+3870M+3870M+762M == 9408 M ,大概率是 tf cuda 驱动的问题
cuda:2 单卡时,显存共 13266M

Python 3.9.16
torch 2.0.1
transformers 4.39.1

import torch
from transformers import LlamaTokenizer, LlamaForCausalLM

## v2 models
model_path = './'
device_map = 'cuda:2'   # 'auto' 'cuda:2'
tokenizer = LlamaTokenizer.from_pretrained(model_path)
model = LlamaForCausalLM.from_pretrained(
    model_path, torch_dtype=torch.float16, device_map=device_map,
)

prompt = 'Q: What is the largest animal?\nA:'
if device_map == 'auto':
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids
else:
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device_map)
generation_output = model.generate(
    input_ids=input_ids, max_new_tokens=32
)
print(tokenizer.decode(generation_output[0]))

# import time   # for check memory usage
# time.sleep(10)

标签:map,7b,tokenizer,ids,v2,llama,device,input,model
From: https://www.cnblogs.com/guilinmifen/p/18101143

相关文章

  • TorchV的RAG实践分享(三):解析llama_index的数据存储结构和召回策略过程
    1.前言LlamaIndex是一个基于LLM的数据处理框架,在RAG领域非常流行,简单的几行代码就能实现本地的文件的对话功能,对开发者提供了极致的封装,开箱即用。本文以官方提供的最简单的代理示例为例,分析LlamaIndex在数据解析、向量Embedding、数据存储及召回的整个源码过程。通过学习框架......
  • YOLOv5改进系列:主干ConvNeXTV2结构助力涨点
    一、论文理论论文地址:ConvNeXtV2:Co-designingandScalingConvNetswithMaskedAutoencoders1.理论思想ConvNeXtV2 在 ConvNeXt 的基础上增加了两个创新点(一个 framework 和一个 technique):全卷积掩码自编码器(fullyconvolutionalmaskedautoencoder,FCMAE)和......
  • 强大的VS插件CodeRush全新发布v23.2.6——支持语音
    CodeRush是一个强大的VisualStudio.NET插件,它利用整合技术,通过促进开发者和团队效率来提升开发者体验。CodeRushv23.2.6正式版下载具体更新详情如下:语音支持-CTP指定Azure语音识别和OpenAIAPI密钥后,可以在VisualStudio2022中启用语音功能。语音命令按住Ctrl键并说......
  • 界面控件DevExpress WinForms/WPF v23.2 - 电子表格支持表单控件
    DevExpressWinForm拥有180+组件和UI库,能为WindowsForms平台创建具有影响力的业务解决方案。DevExpressWinForm能完美构建流畅、美观且易于使用的应用程序,无论是Office风格的界面,还是分析处理大批量的业务数据,它都能轻松胜任!表单控件表示交互元素(按钮、复选框和下拉列表),并在......
  • 【YOLOv5改进系列(4)】高效涨点----添加可变形卷积DCNv2
    可变形卷积......
  • Elasticsearch:使用在本地计算机上运行的 LLM 以及 Ollama 和 Langchain 构建 RAG 应用
    无需GPU的隐私保护LLM。在本博客中,我将演示使用不同的工具Ollama构建的RAG应用程序。与本文相关的所有源代码均已发布在github上。请克隆存储库以跟随文章操作。我们可以通过如下的方式来克隆:gitclonehttps://github.com/liu-xiao-guo/ollama_es什么是 Ollam......
  • 服务器搭建V2实现跨境访问
    用途跨境访问准备工作1、一台服务器(香港、新加坡等地区)2、一个域名(将服务器ip解析到该域名)3、域名解析3、V2客户端Xshell连接服务器后执行命令连接服务器以下命令一键安装:将敏感词改一下:bash<(curl-s-Lhttps://raw.githubusercontent.com/xyz690/敏感词/mas......
  • YoloV5、ShuffleNetV2、YoloV5-Lite网络概述
    前言前段时间需要在树莓派上部署一个深度学习环境,先试了YoloV5,fs基本才0.3,远远达不到要求,于是就尝试了一下轻量化网络,试过mobileNet系列+YoloV4,fps有所提升,大概能达到0.9左右,但还是比较慢,于是就发现了YoloV5-Lite这个轻量化网络,极大地加速了fps,基本能达到3左右,因此详细了解了......
  • cfEduRound163div2--D题解
    D-TandemRepeats?题意:做法:因为字符串长度较少,可以考虑枚举。or--动态规划voidsolve(){//D枚举//枚举!!!!!!!!!!stringstr;cin>>str;intn=str.size(),ans=0;for(inti=1;i<=n/2;i++){//枚举一半!!!intcnt=0;for(intj=0;......
  • SMU Winter 2024 div2 ptlks的周报Week 6(3.18-3.24)
    不难想到,要求环的期望,只需求出所有可能的环的长度总和和不相邻点对的组数。而边数确定,则只需求环的总长。对于两个不相邻的点x,y,所形成的环的长度等于两点深度之差加一,\(\vertdp[x]-dp[y]\vert+1\),不妨令x为根节点,则只需求所有节点的深度之和,再减去相邻的点,最后对树进行换根dp,输出......