理论基础与研究
向量数据库用于非结构化文本、图片、音频、视频搜索、推荐,将他们转换为数字向量表示来进行相似性(ANN)搜索。存储和搜索高维向量是其特征之一,通常采用高级索引技术和算法如HNSW, Annoy, 或Faiss来实现。不同于SQL数据库,向量数据库更像nosql,用户接受使用sdk/API来执行搜索(虽然这个声明式不如SQL强大)。
向量数据库使用的底层搜索、索引技术和推荐系统中的向量召回是高度重合的。
「向量召回」相似检索算法——HNSW(pg_embedding使用的就是HNSW算法)
深入浅出推荐系统(四):召回:向量化的潮流(重点讲embedding)
搜索召回 | Facebook: 亿级向量相似度检索库Faiss原理+应用
向量数据库排名
https://byby.dev/vector-databases
https://github.com/topics/vector-database
https://press.ai/best-vector-databases/#
综合github/国外排名/国内分析来看,开源中基于es,faiss,milvus的方案比较有较大竞争力。
基于ElasticSearch的方案参考
向量数据库:使用Elasticsearch实现向量数据存储与搜索
高维向量搜索:在 Elasticsearch 8.X 中利用 dense_vector 的实战探索基于postgresql的方案参考
https://github.com/pgvector/pgvector https://neon.tech/blog/pg-embedding-extension-for-vector-search(采用HNSW算法) https://access.crunchydata.com/documentation/pgvector/latest/pdf/pgvector.pdf https://github.com/yoshioterada/PostgreSQL-Vector-Search-pgvector--for-PDF-file-on-Blob-Storage-english比 pgvector 快 20 倍的 Postgres 向量运算插件:pg_embedding
PASE: PostgreSQL Ultra-High-Dimensional Approximate Nearest Neighbor Search Extension
基于redis的参考方案
将Redis向量相似性搜索应用于文档搜索和检索的用例】'Redis arXiv Search - Vector search demo with the arXiv paper dataset, HuggingFace, OpenAI, FastAPI, React, and Redis as the vector database.' Redis Ventures GitHub: github.com/RedisVentures/redis-arXiv-search Redis arXiv Search Redis 7.2 里程碑版本发布,向量搜索速度提高 16 倍 利用Redis实现向量相似度搜索:解决文本、图像和音频之间的相似度匹配问题milvus方案
召回技术(向量检索工具faiss篇) milvus基于faiss库
标签:PostgreSQL,数据库,Redis,vector,搜索,召回,向量 From: https://www.cnblogs.com/lightdb/p/17673842.html