• 2024-07-04​RAG与LLM原理及实践(8)--- Chroma 应用场景及限制
    前言通过前面几节的介绍,你应该对Chroma的运作原理有相当透彻的理解。Chroma的设计正如之前描述的:Chroma提供的工具:存储文档数据和它们的元数据:storeembeddingsandtheirmetadata嵌入:embeddocumentsandqueries搜索:searchembeddingsChroma在设计上优先考虑:足够简
  • 2024-07-01​RAG与LLM原理及实践(7)--- Chroma query应用层策略及实现原理
    背景Chromaquery底层查询的 query思想是相同的,甚至在vectordb的世界中,都大同小异。如果你有看前面写的  RAG与LLM原理及实践(5)---Chromaquery源码分析应该比较清楚query的运作原理,说直白就是在memory或是disk中通过暴力查询比较与HNSW算法(NSW算法的变种,分层可导航
  • 2024-07-01RAG与LLM原理及实践(6)--- Chroma collection及存储逻辑分析
     背景在chromavectordb的世界中,除了对query的理解,另外就是需要深入理解chroma的运行模式,chroma运行时,提供了 local模式,server-client模式,这些在应用中固然重要,但从实现原理上说,其实就是通过http服务,在固定端口如11344上请求数据。但是在这之前,需要深入了解并理解coll
  • 2024-07-01RAG与LLM原理及实践(4)--- 语义相似度距离衡量的三种方式chroma示例
    语义相似度的计算是一个比较复杂的过程。今天打算先比较详细的介绍下几个相似度的距离衡量算法。相似度的排名衡量,在向量数据库vectordb的query中,被大量使用。还是直接上干货,理解下背后的逻辑和概念比较重要,后面看看源码 chromavectordb是怎么处理这个过程的。1)co
  • 2024-06-17Langchain的向量索引(3)
    文章目录前言一、Chroma的优点1.易用性和集成:2.内存管理:3.功能丰富:4.内置存储和检索优化:二、FAISS的优点1.高性能:2.**灵活性**:3.GPU加速:4.社区支持和文档:三、选择Chroma还是FAISS四、使用FAISS1.安装FAISS2.使用FAISS与LangChain集成五、安装
  • 2024-06-04向量数据库chroma
    概述Chroma是向量数据库,存向量用的。拥有针对向量的查询能力,根据向量的距离远近查询,这一点和传统数据库不一样。安装与简单使用用pipinstallchromadb命令安装。为了创建数据库实例,先要创建一个client。importchromadbchroma_client=chromadb.Client()借助client
  • 2024-04-25开源向量数据库比较:Chroma, Milvus, Faiss,Weaviate
    语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数据库能是一项艰巨的任务。本文为你提供四个重要的开源向量数据库之间的全面比较,希望你能够选择出最符合自己特定需求的数据库。什么是向量数据库?向量数
  • 2024-04-13向量数据库Chroma学习记录
    一简介Chroma是一款AI开源向量数据库,用于快速构建基于LLM的应用,支持Python和Javascript语言。具备轻量化、快速安装等特点,可与Langchain、LlamaIndex等知名LLM框架组合使用。二基本用法1安装安装方式非常简单,只需要一行命令pipinstakkchromadb2创建一个客户端impor
  • 2024-03-24chroma使用指南官方文档&翻译
  • 2024-03-24Chroma向量数据库使用案例
     转载自:https://blog.csdn.net/xzq_qzx_/article/details/136535125​​​​​基于ChromaDB与BGEToward-VectorModel的本地私有化向量检索之路安装基础环境包括Python安装、pip安装及镜像设置等网上提供很多资料,这里就不介绍了。安装chromaDB环境安装pipinstallchrom
  • 2024-03-24向量数据库Chroma极简教程
    向量数据库Chroma极简教程转载自:https://zhuanlan.zhihu.com/p/665715823引子向量数据库其实最早在传统的人工智能和机器学习场景中就有所应用。在大模型兴起后,由于目前大模型的token数限制,很多开发者倾向于将数据量庞大的知识、新闻、文献、语料等先通过嵌入(embeddi