InvalidDimensionException：嵌入维度 384 与集合维度 3 不匹配

时间：2024-08-02 16:00:27浏览次数：13

标签：python database embedding chromadb vector-database

我尝试在 ChromaDB 上使用语义搜索方法，然后出现错误“InvalidDimensionException：嵌入维度 384 与集合维度 3 不匹配” 我的文件没有任何问题，供您参考，该文件是 .CSV 并且它已经有嵌入。

我尝试使用以下代码执行语义搜索方法：


from chromadb.config import Settings
from chromadb import Client
from sentence_transformers import SentenceTransformer

collection = client.get_collection("my_collection")

query = "What division this student?"
model = SentenceTransformer('all-MiniLM-L6-v2')
query_embedding = model.encode(\[query\])

results = collection.query(query_embeddings=query_embedding, n_results=5)

for i, result in enumerate(results\['ids'\]):
print(f"Document {i+1}: {result}")
print(f"Distance: {results\['distances'\]\[i\]}")
print(f"Title: {results\['metadatas'\]\[i\]\['title'\]}")

我期望语义搜索成功运行，但是有一个错误说： “InvalidDimensionException：嵌入维度 384 与集合维度 3 不匹配”

这个错误信息 "InvalidDimensionException: Embedding dimension 384 does not match collection dimension 3" 意味着你试图将维度为 384 的 embedding 向量插入到一个预期维度为 3 的 ChromaDB 集合中。

以下是可能的原因和解决方法：

1. 集合创建时的维度设置错误:

你可能在创建 my_collection 集合时指定了错误的维度。
检查创建集合的代码，确保 embedding_function 参数设置正确，并且与你使用的 SentenceTransformer 模型 ( all-MiniLM-L6-v2 ) 的输出维度 (384) 一致。

2. 错误的 embedding 向量:

确保你提供的 embedding 向量确实是 query_embedding ，而不是其他维度为 3 的向量。
打印 query_embedding.shape 确认其维度是否为 (384,) 。

3. 集合中已有数据:

如果 my_collection 集合中已经存在数据，这些数据可能使用了不同的 embedding 模型或设置，导致维度不匹配。
- 解决方法:
  - 清空集合: 删除现有集合并使用正确的维度重新创建。
  - 创建新集合: 使用正确的维度创建一个新的集合，并将数据导入到新集合中。

代码示例 (修正):

from chromadb.config import Settings
from chromadb import Client
from sentence_transformers import SentenceTransformer

# 配置 ChromaDB (如果需要)
client = Client(Settings(chroma_db_impl="duckdb+parquet", persist_directory="./.chromadb"))

# 创建/获取集合, 确保维度设置正确
collection = client.get_or_create_collection(
    name="my_collection",
    embedding_function=SentenceTransformer('all-MiniLM-L6-v2').encode  # 设置正确的 embedding 函数
)

# 查询
query = "What division this student?"
model = SentenceTransformer('all-MiniLM-L6-v2')
query_embedding = model.encode([query]) 

# 打印 embedding 维度进行确认
print(f"Query Embedding Dimension: {query_embedding.shape}")  

results = collection.query(query_embeddings=query_embedding, n_results=5)

for i, result in enumerate(results['ids']):
    print(f"Document {i+1}: {result}")
    print(f"Distance: {results['distances'][i]}")
    print(f"Title: {results['metadatas'][i]['title']}")

其他建议:

在创建和使用 ChromaDB 集合时，仔细检查 embedding 维度设置。
使用相同的 embedding 模型和设置来生成所有要存储在同一集合中的 embedding 向量。

希望这些信息能帮到你!

标签：python,database,embedding,chromadb,vector-database
From： 78824361

Qt C++ 调用 Python 之 PyObject* 数据类型转换
整数：PyLong_FromLong和PyLong_AsLong类型检查函数：PyLong_Check()intcppInt=42;//C++整数转换为Python整数对象PyObject*pyInt=PyLong_FromLong(cppInt);//Python整数对象转换为C++整数longcppIntFromPy=PyLong_AsLong(pyInt);Py_DECREF(pyInt)......
Python 警告：重试（重试（总计=4，连接=无，读取=无，重定向=无，状态=无））
我正在尝试pipinstall--upgradepip并保持收到此错误：WARNING:Retrying(Retry(total=4,connect=None,read=None,redirect=None,status=None))afterconnectionbrokenby'ProxyError('Cannotconnecttoproxy.',NewConnectionError('<......
{Python} 有没有办法从函数中“提取”返回值变量并在其他地方使用它，而不调用原始函数？
第一次在这里发帖。对python来说相对较新，我正在开发一个程序，它基本上是一个随机故事生成器，用于学习语言、发展技能并添加到我的投资组合中。我有一个主文件（最初启动该程序）、一个简介文件（对于介绍部分，获取用户名以及我试图“提取”user_name变量的位置），一个函数文件，其中包......
为什么我在 Python 中的 Skip-Gram 实现会产生不正确的结果？
我正在使用Python实现Word2Vec的Skip-Gram模型。然而，正如生成的嵌入及其可视化所示，我的模型似乎无法正常工作。这是嵌入的3D图的示例，它显示单词聚集在一起并重叠，因此很难区分它们：我怀疑问题在于我的实现而不是绘图函数。importnumpyasnpfromnltk.corpusimpor......
基于SpringBoot的智能购房推荐系统-09040（免费领源码）可做计算机毕业设计JAVA、PHP、爬
Springboot智能购房推荐系统摘要近年来随着我国经济的高速发展，房地产业也随之蓬勃发展，尤其是最近国家新出台的房改政策。鼓励居民购房，这对房产公司无疑是一个极好的发展势头。尤为重要的是，近几年随着信息技术和电子商务的快速发展，许多企业都开发了自己房产信息软件。智......
Python 基础教学 - 开发规范
Python基础教学-开发规范一、引言在Python编程中，遵循良好的开发规范是编写高质量、可维护代码的关键。本文将为您详细介绍Python开发中的一些重要规范，帮助您养成良好的编程习惯。二、代码布局缩进使用4个空格进行缩进，避免使用制表符。示例：ifTrue:p......
Python基础学习笔记（一）
文章目录一、下载Python二、变量三、数据类型四、运算符五、语句六、容器类型七、函数function八、常用API九、面向对象类的创建：创建对象：实例成员：实例方法：类成员：静态方法：十、三大特征：封装、继承、多态十一、六大原则：Python基础学习笔记（二）一、下载Python官网：https......
随机森林的可解释性分析（含python代码）
随机森林的可解释性分析1.引言可解释性的重要性2.随机森林的原理2.1基本原理：2.2随机森林的实现3.随机森林的可解释性分析3.1特征重要性3.2特征重要性3.3SHAP值3.4部分依赖图（PDP）3.5交互特征效应3.6变量依赖图4.结论5.参考文献1.引言在机器学习领域，随机森林......
【Python】模块
1.模块的概念Python中有一种方法可以把定义放在一个文件里面，并在脚本或者解释器的交互实例中使用它们。这样的文件被称作Python的模块。2.自定义模块在Python中，自定义模块有两个作用，一个作用是规范代码，让代码更容易阅读；另一个作用是方便其他程序使用已经编写好的代码，提高开......
计算机毕业设计-基于python的房屋租赁系统【源码+文档+PPT】
精彩专栏推荐订阅：在下方主页......

InvalidDimensionException：嵌入维度 384 与集合维度 3 不匹配

相关文章

赞助商

阅读排行