三大知名向量化模型比较分析——m3e,bge,bce

时间：2024-07-16 15:30:06浏览次数：19

标签：BGE bce 模型 BAAI BCE m3e M3E bge

先聊聊出处。

M3E 是 Moka Massive Mixed Embedding 的缩写，

Moka，此模型由 MokaAI 训练，开源和评测，训练脚本使用 uniem ，评测 BenchMark 使用 MTEB-zh
Massive，此模型通过千万级 (2200w+) 的中文句对数据集进行训练
Mixed，此模型支持中英双语的同质文本相似度计算，异质文本检索等功能，未来还会支持代码检索Embedding，此模型是文本嵌入模型，可以将自然语言转换成稠密的向量。HuggingFace地址：https://huggingface.co/moka-ai

BGE是由北京智源人工智能研究院提出的新的embedding模型。 源码地址：https://github.com/FlagOpen/FlagEmbedding 在这里插入图片描述

BCE来源网易有道，BCEmbedding模型的GitHub官网 https://github.com/netease-youdao/BCEmbedding，
在这里插入图片描述

在比较m3e、bge和bce向量化模型时，我们需要从多个方面进行分析，包括模型的多语言支持能力、文本处理能力、检索精度以及资源使用情况等。

1. 多语言支持能力

BGE

BGE-M3支持超过100种语言，并且能够高效实现不同粒度的检索任务。
BGE系列模型包括中英文模型和多语言模型，其跨语言能力全面领先。

M3E

M3E主要针对中文文本进行向量化处理，但也有一定的双语处理能力。

BCE

BCE的具体多语言支持能力未明确提及，但其被用于RAG应用中，表明其可能具有一定的多语言处理能力。

2. 文本处理能力

BGE

BGE可以将任意文本映射到低维的稠密向量，在文本向量化任务中得到了广泛的应用。
BGE系列模型在C-MTEB中文排行榜中名列前茅，显示了其强大的文本处理和语义表征能力。

M3E

M3E采用大规模混合嵌入技术，旨在提高词向量的表达能力和泛化能力。
M3E在训练过程中使用千万级的中文句对数据集进行训练，表现出色的向量编码能力。

BCE

BCE模型主要用于提升RAG应用的准确度，具体细节较少，但其作为开源大模型的一部分，应具备较强的文本处理能力。

3. 检索精度与整体语义表征能力

BGE

BGE在中英文语义检索精度与整体语义表征能力方面均超越了社区所有同类模型，如OpenAI的text embedding 002等。
其保持了同等参数量级模型中的最小向量维度，使用成本更低。

M3E

M3E在私有部署和大规模文本处理方面表现出色，适用于需要私有化和资源节约的场景。
它通过大规模混合嵌入技术提高了词向量的表达能力和泛化能力，适用于各种文本处理任务。

BCE

BCE的具体检索精度和语义表征能力未详细说明，但其在RAG应用中的表现表明其具有较高的准确性。

4. 资源使用情况

BGE

BGE系列模型在全球下载量超过1500万，位居国内开源AI模型首位，表明其资源使用高效且受欢迎。

M3E

M3E属于小模型，资源使用不高，CPU也可以运行，适合私有化部署和资源受限的环境。

BCE

BCE的具体资源使用情况未明确提及，但作为开源大模型的一部分，其资源使用可能相对较高。

总结

BGE：在多语言支持、文本处理能力和检索精度方面表现优异，尤其适合需要高精度和高效率的场景。同时，其资源使用较为经济。
M3E：专注于中文文本处理，具有强大的文本处理能力和灵活的部署选项，适合资源受限或需要私有化的应用场景。
BCE：虽然具体细节较少，但其在RAG应用中的表现表明其具备一定的优势，可能适合特定的高精度需求场景。

根据不同的应用需求和资源条件选择合适的模型会更加有效。

BGE模型列表

BAAI/bge-large-en-v1.5
BAAI/bge-base-en-v1.5
BAAI/bge-small-en-v1.5
BAAI/bge-large-zh-v1.5
BAAI/bge-base-zh-v1.5
BAAI/bge-small-zh-v1.5
BAAI/bge-large-en
BAAI/bge-base-en
BAAI/bge-small-en
BAAI/bge-large-zh
BAAI/bge-base-zh
BAAI/bge-small-zh

M3E模型列表

m3e-small
m3e-base
m3e-large

BCE模型列表

bce-embedding-base_v1
bce-reranker-base_v1

标签：BGE,bce,模型,BAAI,BCE,m3e,M3E,bge
From： https://blog.csdn.net/hero272285642/article/details/140466752

从零学习大模型——使用GLM-4-9B-Chat + BGE-M3 + langchain + chroma建立的本地RAG应
BGE-M3是第一个具有多功能、多语言和多粒度特性的文本检索模型。多功能:可以同时执行三种检索功能：单向量检索、多向量检索和稀疏检索。多语言:支持100多种工作语言。多粒度:它能够处理不同粒度的输入，从短句子到长达8192个词汇的长文档。为了构建RAG应用，我们需要用到向量数......
从零学习大模型——使用GLM-4-9B-Chat + BGE-M3 + langchain + chroma建立的本地RAG应
第一篇介绍了如何配置最基本的环境并下载了GLM-4-9B-Chat到本地，接下来我们试着将GLM-4-9B-Chat接入LangChain。LangChain 是一个基于大型语言模型（LLM）开发应用程序的框架。LangChain简化了LLM应用程序生命周期的每个阶段：开发：使用LangChain的开源构建模块和组件构建应用程序......
从零学习大模型——使用GLM-4-9B + BGE-M3 + langchain + chroma建立的本地RAG应用（一）
本项目基于DataWhaleChina的self-llm教程与llm-universe及Langchain官方文档等资料开发，旨在实现全部本地化的RAG应用。本项目使用AutoDL的云服务器进行开发。在 AutoDL 平台中租一个3090等24G显存的显卡机器，如下图所示镜像选择 PyTorch-->2.1.0-->3.10(ubuntu22.04)-->12.......
embedding模型——BGE-M3的搭建（以算力云平台为例）
本文对在算力云平台为基础搭建本地的embedding大模型bge-m3中遇到的问题做的一个汇总https://github.com/datawhalechina/self-llm/blob/master/GLM-4/01-GLM-4-9B-chat%20FastApi%20%E9%83%A8%E7%BD%B2%E8%B0%83%E7%94%A8.md上面是在算力云平台从零开始搭建清华GLM-4-9B-chat大......
关于BGE-M3接入LangChain时遇到的问题与解决方法
本文基于https://github.com/datawhalechina/self-llm/blob/master/GLM-4/02-GLM-4-9B-chat%20langchain%20%E6%8E%A5%E5%85%A5.md提供的教程。由于使用本地部署的大模型，在继承LangChain中的LLM类时需要重写几个函数。但是在具体测试的时候出现了以下的错误/root/miniconda3/lib......
『vulnhub系列』BEELZEBUB- 1 96692f0bce834b9f85ce4fb6710ae52d
『vulnhub系列』BEELZEBUB-1下载地址：https://www.vulnhub.com/entry/beelzebub-1,742/信息搜集：使用nmap扫描存活主机，发现主机开启了22和80端口nmap192.168.0.*访问80端口的web服务，发现是apache的默认页面使用dirsearch扫描目录dirsearch-u"http://192.168.0.140/"......
补档 https://github.com/taichi-framework/TaiChi/wiki/FAQ/9eeeef88cdbcee6a2834969
taichi-framework/TaiChiPublicNotificationsFork 572 Star 5.9kCodePullrequestsActionsWikiSecurityInsightsFAQ weishueditedthispage onNov2,2018 · 17revisions如何使用点击右下角浮动按钮，然后选择“创建应用”......
BCEL：加载恶意类
直入主题为啥要用BCEL？因为范围广，如下JDK内置类（JDK<8u251）Tomcat中相关依赖：Tomcat7org.apache.tomcat.dbcp.dbcp.BasicDataSourceTomcat8及以后org.apache.tomcat.dbcp.dbcp2.BasicDataSourcecom.sun.org.apache.bcel.internal.util.ClassLoader重写了默认的类加载方法......
BGE M3-Embedding 模型介绍
BGEM3-Embedding来自BAAI和中国科学技术大学，是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216，论文提出了一种新的embedding模型，称为M3-Embedding，它在多语言性（Multi-Linguality）、多功能性（Multi-Functionality）和多粒度性（Multi-Granularity）方面表现出色。M3-Embedding......
CS 1501KhattabGeneral警长提示
CS1501KhattabGeneral警长提示•您可以使用ag.getAirports（）.size（）获取顶点的数量，从而ag是一个AirlineGraph对象•使用for（Stringairport:ag.getAirports（））在机场上迭代｛…｝•您可以使用ag.getAirportNo（）方法•您可以使用检索机场的邻居集ag.adj（机场名称）•迭代邻居集：for（Router:a......