最近应该是开始了向量数据库热门,阿里云和腾讯云都推出了相应的服务,阿里云现阶段可以免费的试用。
说说为啥热门起来了,主要是由于向量以及大模型的特殊性。向量是有指向的,最直观的就是二维向量,简单的表示就是一个箭头。通过不同的大模型的embedding服务,我们可以对音视频,文字,图形等拆分。拆分的维度啥的和模型相关。(例如阿里的灵积,它的基础文本模式是这个https://help.aliyun.com/zh/dashscope/developer-reference/text-embedding-api-details?spm=a2c4g.11186623.0.0.4b994c5e6SscUj 腾讯云的是这个:https://cloud.tencent.com/document/product/1709/97775)拆分出来就出现就可以依靠数据库来做我们所说的相似性的搜索。具体我没细研究数据库向量是怎么的相似的计算。
向量数据库数据大致上是分为vector属性,field属性,id属性。相似性搜索大差不差的都是topK(多少),条件运用到向量或者field。
标签:检索服务,拆分,数据库,阿里,embedding,向量 From: https://www.cnblogs.com/lannoy/p/18310983