无法在 Llama Index 中加载 HuggingFace Embeddings llama3.1

时间：2024-07-30 03:53:33浏览次数：15

标签：python large-language-model huggingface

我有一个非常简单的代码，如下所示：

from llama_index.embeddings.huggingface import HuggingFaceEmbedding
embed_model = HuggingFaceEmbedding(model_name="meta-llama/Meta-Llama-3-8B")

我看到这个模型，meta-llama/Meta-Llama-3-8B，只有 4.5 GB，而我有 16GB RAM，最多只使用 20%跑步前。但每次，我运行这两行，内存就会爆炸并且 python 崩溃。

我也尝试过

os.environ["CUDA_VISIBLE_DEVICES"] = ""

但相同。

知道为什么吗？

llama3.1 相当大，即使只有 4.5 GB，因为它在加载时需要更多的 RAM。的系统可能会遇到以下问题之一：

内存碎片化： 即使有 16GB 的 RAM，但如果内存碎片化严重，则可能没有足够大的连续内存块来加载模型。
HuggingFace Transformers 库的开销： HuggingFace Transformers 库本身会消耗大量内存，特别是在加载大型模型时。
其他进程的内存使用： 提到了在运行代码之前内存使用率为 20%。其他正在运行的进程可能会在加载模型时消耗更多内存，从而导致崩溃。

可以尝试以下几种解决方案：

1. 使用量化模型:

量化模型使用较低的精度存储模型权重，从而减少内存占用。尝试加载量化版本的模型：

embed_model = HuggingFaceEmbedding(model_name="meta-llama/Meta-Llama-3-8B-q4_0")

2. 使用较小的模型:

如果量化模型仍然太大，请考虑使用较小的 llama 模型，例如 meta-llama/Llama-2-7b 。

3. 使用不同的嵌入模型:

HuggingFace Embeddings 只是 Llama Index 支持的众多嵌入模型之一。可以尝试使用其他模型，例如 OpenAI Embeddings 或 Cohere Embeddings，这些模型可能内存效率更高。

4. 增加交换空间:

增加交换空间可以为的系统提供更多虚拟内存。但是，这会降低性能，因为数据需要在 RAM 和硬盘之间交换。

5. 关闭其他程序:

在加载模型之前，请关闭所有不必要的程序以释放内存。

6. 使用具有更多内存的机器：

如果上述方法均无效，则可能需要使用具有更多 RAM 的机器来加载和运行模型。

请注意，即使解决了内存问题，在 CPU 上运行 llama 模型也会非常慢。如果可能，请考虑使用 GPU 进行推理。

标签：python,large-language-model,huggingface
From： 78808833

python 正则表达式匹配一行中的多个单词而不转到下一行
我正在编写一个解析器来解析以下输出：admin@str-s6000-on-5:~$showinterfacestatusEthernet4InterfaceLanesSpeedMTUAliasVlanOperAdminTypeAsymPFC------------------------------------------......
使用 Python 平滑和对称不规则形状和曲线
我需要完成三项任务：正则化曲线曲线的对称性完成不完整的曲线例如，这里是输入和预期的输出图像：输入输出|||在一般设置中，形状可以由任何SVG曲线基元（贝塞尔曲线、直线、弧线）表示。为了统一表示，示例包含曲线的折线近似。这些折线保存为......
在Python中通过绝对路径引用数据文件夹
我有一个大型python项目，其中数据太大，无法每次都以相同的方式共享。不同的人可能会使用网络位置或将某些内容复制到本地驱动器。该路径由不同子文件夹中的脚本和笔记本使用。例如，我将创建一个config.py来定义数据文件夹的路径。importsyssys.path.append('../'......
python三天速成记(看完你就会)day3 满满干货~
续上文啦~EXCEL表的操作上一篇文章讲了怎么读取和操作txt和csv文档，但其实我们生活中还有一个常用的文本格式那就是excel文件，特别是在对大量数据进行处理的时候。excel文件的用处和广泛。其实在python中有很多库可以处理excel文件，但是本文主要介绍使用最实用最广泛的库pan......
Python输入验证改进的其他方式
题目[题目来源：Python编程快速上手——让繁琐工作自动化（第二版）第三章实践项目，下面的解答程序为我自己完成的，仅供参考。]编写一个名为collatz()的函数，他有一个名为number的参数。如果参数是偶数，那么collatz()就输出number//2，并返回该值。如果参数是奇数，那么collatz()就......
Python的PyInputPlus模块
PyInputPlus模块简介PyInputPlus模块的功能：PyInputPlus模块是一个Python第三方模块，需要自己对它进行安装。包含与input()函数类似的、用于多种数据（如日期、数字、电子邮箱地址等）的函数。如果，用户输入了无效的内容，例如格式错误的日期或超过预期范围的数字，那么PyInputPlus模......
用Python实现二进制搜索（二分查找）
二进制搜索（binarysearch，又称二分搜索）是一种快速有效的搜索方法，用于搜索有序列表中的元素。importmathdefbinary_search(sorted_list,target):"""在有序列表sorted_list中查找目标值target的位置使用二分查找算法"""lower_bound=0#初始......
超详细Python教程——使用Hexo搭建自己的博客
使用Hexo搭建自己的博客对于一个程序员来说，搭建一个属于自己的博客平台是非常有意义的事情。首先，博客可以记录自己的成长历程，也是对自己一段时间学习和工作的总结和沉淀；其他，通过博客可以营销自己，增强自己在互联网或行业内的影响力，为将来更好的职业生涯打一个坚实的基础。前......
超详细Python教程——玩转PyCharm
玩转PyCharmPyCharm是由JetBrains公司开发的提供给Python专业的开发者的一个集成开发环境，它最大的优点是能够大大提升Python开发者的工作效率，为开发者集成了很多用起来非常顺手的功能，包括代码调试、高亮语法、代码跳转、智能提示、自动补全、单元测试、版本控制等等。此外，P......
2024年华为OD机试真题-找出作弊的人-(C++/Java/python)-OD统一考试（C卷D卷）
2024华为OD机试真题目录-(B卷C卷D卷)-【C++JavaPython】题目描述公司组织了一次考试,现在考试结果出来了，想看一下有没人存在作弊行为,但是员工太多了,需要先对员工进行一次过滤,再进一步确定是否存在作弊行为。过滤的规则为:找到分差最小的员工ID对(p1,p2)列表,......

无法在 Llama Index 中加载 HuggingFace Embeddings llama3.1

相关文章

赞助商

阅读排行