(一)前言
1、磁盘空间
占用33G磁盘,预留了近67G磁盘空间以供用户使用。
2、模型介绍
Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是一个包含 11B 和 90B 尺寸的指令微调图像推理生成模型的集合(文本 + 图像输入 / 文本输出)。Llama 3.2-Vision 指令微调模型针对视觉识别、图像推理、字幕生成和回答有关图像的一般问题进行了优化。在常见的行业基准测试中,这些模型的性能超过了众多现有的开源和闭源多模态模型。
支持的语言:对于纯文本任务,官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 已在比这 8 种支持语言更广泛的语言集合上进行训练。dsfsdfdsfdsfsdfs
请注意,对于图像 + 文本应用,仅支持英语。
(二)使用详情
应用服务(以11B)为例
星海智算官网:https://gpu.spacehpc.com/
- 实例创建完成后,滑动下方滚动条,在实例右侧有应用服务按钮,点击打开界面。
- 若出现“502 Bad Gateway”建议关闭界面等待两到三分钟重新启动,若还是出现问题,联系工作人员。
- 打开界面如图所示。
- 首次登录需要注册管理员账户,点击下方注册,输入账户名,邮箱,密码完成注册。
- 点击左上角Arena Model按钮选择需要的大模型,目前已内置Llama3.2 Vision 11B多模态大模型以及Llama3.2 3B大模型。
- 选择好模型后,在输入框添加图片,使用英文进行对话。
- 等待片刻,即可收到Llama 3.2-Vision识别图像后的回复。
-
切记,对于图像 + 文本应用,仅支持英语对话。
标签:文本,Llama3.2,3.2,Llama,图像,智算,模型,Vision From: https://blog.csdn.net/2402_84709675/article/details/145207042