首页 > 数据库 >向量数据库Chroma学习记录

向量数据库Chroma学习记录

时间:2024-04-13 11:13:26浏览次数:21  
标签:chromadb 数据库 Chroma collection embedding 集合 query where 向量

一 简介

Chroma是一款AI开源向量数据库,用于快速构建基于LLM的应用,支持Python和Javascript语言。具备轻量化、快速安装等特点,可与Langchain、LlamaIndex等知名LLM框架组合使用。

二 基本用法

1 安装

安装方式非常简单,只需要一行命令

pip instakk chromadb

2 创建一个客户端

import chromadb
chroma_client = chromadb.Client()

3 创建一个集合

这里面的集合用于存放向量以及元数据的信息,可以理解为传统数据库的一张表

collection = chroma_client.create_collection(name="my_collection")

4 添加数据

集合中可以添加文本,元信息,以及序号等数据。添加文本之后会调用默认的嵌入模型对文本进行向量化表示。
documents和ids为必需项,其他为可选项。(metadatas、embeddings、urls、data)

collection.add(
    documents=["This is a document", "This is another document"],
    metadatas=[{"source": "my_source"}, {"source": "my_source"}],
    ids=["id1", "id2"]
)

如果已经有文本的向量化表示,可以直接添加进embedding字段。需要注意手动添加的向量的维度需要与初始化集合时用到的嵌入模型维度一致,否则会报错。

collection.add(
    embeddings=[[1.2, 2.3, 4.5], [6.7, 8.2, 9.2]],
    documents=["This is a document", "This is another document"],
    metadatas=[{"source": "my_source"}, {"source": "my_source"}],
    ids=["id1", "id2"]
)

5 从集合中检索

results = collection.query(
    query_texts=["This is a query document"],
    n_results=2
)

三 进阶用法

创建本地数据存放路径

前面代码中创建的集合不会落到数据盘中,只用于快速搭建项目原型,程序退出即消失。如果想使集合可以重复利用,只需要稍微修改一下代码即可:

# Client改为PersistentClient
client = chromadb.PersistentClient(path="/path/to/save/to")

客户端/服务端部署

实际项目一般不会只有客户端代码,因此chroma也被设计成可以客户端-服务端方式进行部署

服务端启动命令:

# --path参数可以指定数据持久化路径
# 默认开启8000端口
chroma run --path /db_path

客户端连接命令:

import chromadb
client = chromadb.HttpClient(host='localhost', port=8000)

如果你负责的项目只需要维护客户端的数据,则可以安装更加轻量化的客户端chroma

pip install chromadb-client

在客户端,连接方式同前面一样。chromadb-client相比完整版减少很多依赖项,特别是不支持默认的embedding模型了,因此必须自定义embedding function对文本进行向量化表示。

创建或选择已有的集合:

# 创建名称为my_collection的集合,如果已经存在,则会报错
collection = client.create_collection(name="my_collection", embedding_function=emb_fn)
# 获取名称为my_collection的集合,如果不存在,则会报错
collection = client.get_collection(name="my_collection", embedding_function=emb_fn)
# 获取名称为my_collection的集合,如果不存在,则创建
collection = client.get_or_create_collection(name="my_collection", embedding_function=emb_fn)

探索集合

# 返回集合中的前10条记录
collection.peek() 
# 返回集合的数量
collection.count() 
# 重命名集合
collection.modify(name="new_name") 

操作集合

集合的增用add来实现,前面已有,这里不赘述

集合的查找包含queryget两个接口

# 可以用文本进行查找,会调用模型对文本进行向量化表示,然后再查找出相似的向量
collection.query(
    query_texts=["doc10", "thus spake zarathustra", ...],
    n_results=10,
    where={"metadata_field": "is_equal_to_this"},
    where_document={"$contains":"search_string"}
)

# 也可以用向量进行查找
collection.query(
    query_embeddings=[[11.1, 12.1, 13.1],[1.1, 2.3, 3.2], ...],
    n_results=10,
    where={"metadata_field": "is_equal_to_this"},
    where_document={"$contains":"search_string"}
)

where和where_document分别对元信息和文本进行过滤。这部分的过滤条件比较复杂,可以参考官方的说明文档。个人感觉有点多余了,对于这种轻量化数据库以及AI应用来说必要性不强。

collection.get(
    ids=["id1", "id2", "id3", ...],
    where={"style": "style1"},
    where_document={"$contains":"search_string"}
)

get更像是传统意义上的select操作,同样也支持where和where_document两个过滤条件。

集合的删除操作通过指定ids实现,如果没有指定ids,则会删除满足where的所有数据

collection.delete(
    ids=["id1", "id2", "id3",...],
    where={"chapter": "20"}
)

集合的修改也是通过指定id实现,如果id不存在,则会报错。如果更新的内容是documents,则连同对应的embeddings都一并更新

collection.update(
    ids=["id1", "id2", "id3", ...],
    embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],
    metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],
    documents=["doc1", "doc2", "doc3", ...],
)

自定义embedding函数

chroma支持多种向量化模型,除此之外还能自定义模型。下面是一个用text2vec模型来定义embedding function的例子:

from chromadb import Documents, EmbeddingFunction, Embeddings
from text2vec import SentenceModel

# 加载text2vec库的向量化模型
model = SentenceModel('text2vec-chinese')

# Documents是字符串数组类型,Embeddings是浮点数组类型
class MyEmbeddingFunction(EmbeddingFunction):
    def __call__(self, input: Documents) -> Embeddings:
        # embed the documents somehow
        return model.encode(input).tolist()

多模态

chroma的集合支持多模态的数据存储和查询,只需要embedding function能对多模型数据进行向量化表示即可。官方给出了以下例子:

import chromadb
from chromadb.utils.embedding_functions import OpenCLIPEmbeddingFunction
from chromadb.utils.data_loaders import ImageLoader

# 用到了Openai的CLIP文字-图片模型
embedding_function = OpenCLIPEmbeddingFunction()
# 还需要调用一个内置的图片加载器
data_loader = ImageLoader()
client = chromadb.Client()

collection = client.create_collection(
    name='multimodal_collection', 
    embedding_function=embedding_function, 
    data_loader=data_loader)


往集合中添加numpy类型的图片

collection.add(
    ids=['id1', 'id2', 'id3'],
    images=[...] # A list of numpy arrays representing images
)

与文本检索类似,只是变成了query_images而已

results = collection.query(
    query_images=[...] # A list of numpy arrays representing images
)

标签:chromadb,数据库,Chroma,collection,embedding,集合,query,where,向量
From: https://www.cnblogs.com/deeplearningmachine/p/18132593

相关文章

  • oracle数据库技术没落了吗
    oracle数据库技术没落了吗重庆思庄2023-05-1717:26重庆 随着新兴技术的不断涌现,一些人开始质疑传统的Oracle数据库技术是否已经过时,甚至已经走向没落。然而,在现实应用中,Oracle数据库技术仍然是最受欢迎的数据库之一。尽管其他技术比如云计算和大数据技术造成了......
  • MySQL数据库无法远程连接的解决办法
    MySQL数据库无法远程连接的解决办法 远程登陆数据库的时候出现了下面出错信息:ERROR2003(HY000):Can'tconnecttoMySQLserveron'xxx.xxx.xxx.xxx',经过今天下午的反复纠结,关于MySql数据库无法远程连接的问题可以归结为以下几点:1).没有授予相应的......
  • 对于redis和数据库数据不一致性的解决方案
    对比两种方案:1)先更新数据库,然后删redis。此方案,如果先更新数据库,然后服务宕机没有删除缓存,那么redis中存的一直是脏数据。2)先删除redis,然后更新数据库此方案,如果数据库更新时间比较长,查询操作比较频繁,会导致取到数据库的脏数据。(并发量不高的情况下使用)3)先删除redis,然后再......
  • 数据库物理删除和逻辑删除的区别 ?
    一、主要区别:物理删除和软删除是数据库中常见的两种数据删除方式,它们的主要区别在于数据的处理方式和是否永久删除数据。 二、概念:物理删除:物理删除是指从数据库中彻底删除数据,包括数据记录和关联的索引等,使其完全消失。物理删除释放了存储空间,并且被删除的数据无法再......
  • oracle数据库listagg、wm_concat、xmlagg的用法
    1.listaggLISTAGG(measure_expr:any[,delimiter_expr:VARCHAR])WITHINGROUP(ORDERBYcolumn_exprASC/DESC)语法注解LISTAGG函数一般配合GROUPBY作为聚合函数(也可用于开窗函数)使用,可以传入两个参数变量measure_expr:要合并处理的字段delimiter_expr:给定分隔符号......
  • MySQL数据库下载及安装教程
    MySQL数据库下载及安装教程(最最新版)一、下载mysql数据库二、安装Mysql三、验证是否安装成功(一)、命令提示符cmd窗口验证(二)、MySQL控制台验证一、下载mysql数据库进入MySQL官方网站(https://www.mysql.com/downloads/),按下图顺序点击进入下载页面。 注意:这里MSIInstal......
  • 【高薪诚聘】数据库精英,加入我们,共创数据未来!
    我们寻找的你:【如果你是数据库架构专家】对数据库架构有深入的了解和实践经验,能够为公司构建稳定、高效、可扩展的数据库架构;对各种数据库系统有深入的理解,包括但不限于MySQL、Oracle、SQLServer等,并能够根据实际业务需求进行选择和优化;对新技术和新架构保持敏感,有能力推动公......
  • 一个糟糕的数据库架构设计优化案例
    聊聊一个糟糕的数据库架构设计带来的问题。技术人人都可以磨炼,但处理问题的思路和角度各有不同,希望这篇文章可以抛砖引玉。以一个例子为切入点一、问题背景某系统已经线上运行多年,数据量随着时间的推移越来越大。公司业务量还在不断增加,已经潜在威胁数据库的运行效率,急需清理历......
  • 肖sir__jmeter之操作数据库
    jmeter之操作数据库==========================一、下载jdbc驱动,安装jdbc驱动  2、将驱动存放在4个路径下(1)C:\ProgramFiles\Java\jre1.8.0_60\lib    (2)第二个存放的包C:\ProgramFiles\Java\jre1.8.0_60\lib\ext  (3)第三个存放的包  (4)存放第四个包......
  • 从 Oracle 到 MySQL 数据库的迁移之旅
    目录引言一、前期准备工作1.搭建新的MySQL数据库2.建立相应的数据表2.1数据库兼容性分析2.1.1字段类型兼容性分析2.1.2函数兼容性分析2.1.3是否使用存储过程?存储过程的个数?复杂度?2.1.4是否使用触发器?个数?使用的场景?2.2建表过程中其他需要注意的事项3.为项目配置Oracle和MyS......