AI构建新质生产力，合合信息Embedding模型助力专业知识应用

时间：2024-04-01 10:36:40浏览次数：40

一、合合信息acge模型获MTEB中文榜单第一 现阶段，大语言模型的飞速发展吸引着社会各界的目光，背后支撑大型语言模型应用落地的Embedding模型也成为业内关注的焦点。近期，合合信息发布了文本向量化模型acge_text_embedding（简称“acge模型”），获得MTEB中文榜单（C-MTEB）第一的成绩。图1：C-MTEB榜单结果 二、MTEB与C-MTEB MTEB（Massive Text Embedding Benchmark）是衡量文本嵌入模型（Embedding模型）的评估指标的合集，是目前业内评测文本向量模型性能的重要参考。对应的C-MTEB则是专门针对中文文本向量的评测基准。 C-MTEB被公认为是目前业界最全面、最权威的中文语义向量评测基准之一，涵盖了分类、聚类、检索、排序、文本相似度、STS等6个经典任务，共计35个数据集，为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。 三、Embedding模型的意义 互联网时代中，随着信息量急剧膨胀，人们接触信息的渠道不断拓展，大量无关的信息已成为信息检索的干扰项。Embedding模型通过理解查询的深层含义和上下文，能够显著提高搜索和问答的质量、效率和准确性，让搜索和问答引擎不再只是匹配文字，而是可以真正理解人的意图。 Embedding模型能够将单词、句子或图像特征等高维的离散数据转换为低维的连续向量，捕捉到数据的语义特征和关系，被广泛应用于搜索、推荐、问答、检索增强生成、数据挖掘等领域。 “假设你需要了解如何在家中自制咖啡，可能会在搜索引擎中输入‘家庭咖啡制作方法’。如果没有Embedding模型，传统的引擎会简单地匹配包含关键词的文章，提供一些表面相关的内容而非实用的指南。”团队成员提到，借助Embedding模型，引擎便能更准确地理解用户意图，从而提供包括但不限于选择咖啡豆、磨豆技巧、不同的冲泡方法等更专业的内容。” 图2：embedding模型原理示意图 四、合合信息acge模型 Embedding模型在当前大模型实际落地应用过程中扮演着至关重要的角色。为了更好地发挥大模型在应用过程中的价值，合合信息技术团队重点从数据集、训练策略等方面针对Embedding模型进行了优化，打造了acge模型。技术人员构造了大量的数据集，保证训练的质量与场景覆盖面；在模型训练方面，团队也引入多种有效的模型调优技术。 （一）acge模型特点 据合合信息技术团队成员介绍，相比于传统的预训练或微调垂直领域模型，acge模型支持在不同场景下构建通用分类模型、提升长文档信息抽取精度，且应用成本相对较低，可帮助大模型在多个行业中快速创造价值，推动科技创新和产业升级，为构建新质生产力提供强有力的技术支持。 （二）acge模型功能 具体实践上，为做好不同任务的针对性学习，团队使用策略学习训练方式，显著提升了检索、聚类、排序等任务上的性能；引入持续学习训练方式，克服了神经网络存在灾难性遗忘的问题，使模型训练迭代能够达到相对优秀的收敛空间；运用MRL技术，实现一次训练，获取不同维度的表征。 （三）acge模型优势 与目前C-MTEB榜单上排名前五的开源模型相比，合合信息本次发布的acge模型较小，占用资源少；模型输入文本长度为1024，满足绝大部分场景的需求。此外，acge模型还支持可变输出维度，让企业能够根据具体场景去合理分配资源。 五、公司介绍 合合信息是一家人工智能及大数据科技企业，基于自主研发的领先的智能文字识别及商业大数据核心技术，为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。公开资料显示，公司的C端产品覆盖了全球百余个国家和地区的亿级用户，B端服务覆盖了近30个行业的企业客户。《财富》杂志2022年发布的世界500强公司名单中，公司客户已覆盖超过125家。

标签：AI,模型,MTEB,合合,acge,Embedding,文本
From： https://www.cnblogs.com/intsig/p/18107882

Error in callback for immediate watcher “chartsData“: “Error: Initialize fail
在使用echarts提示dom未找到，原因就是当我们封装了echarts组件初始化传值时通常会造成过早调用，也就是在数据还未处理完就已经调用init函数进行初始化，此时dom还未挂载成功，就会报这个错，这里解决可以使用nextTick()函数在初始化时延时调用；this.$nextTick(()=>{this.draw......
YOLOV8逐步分解(3)_trainer训练之模型加载
yolov8逐步分解(1)--默认参数&超参配置文件加载yolov8逐步分解(2)_DetectionTrainer类初始化过程接上2篇文章，继续讲解yolov8训练过程中的模型加载过程。使用默认参数完成训练器trainer的初始化后，执行训练函数train()开始YOLOV8的训练。1.train()方法实现代码如下所示：......
yolov8逐步分解(2)_DetectionTrainer类初始化过程
接上篇文章yolov8逐步分解(1)--默认参数&超参配置文件加载继续讲解。 1.默认配置文件加载完成后，创建对象trainer时，需要从默认配置中获取类DetectionTrainer初始化所需的参数args，如下所示deftrain(cfg=DEFAULT_CFG,use_python=False): """TrainandoptimizeYOLO......
SQL性能分析工具Explain
SQL性能分析工具Explain是一个强大的工具，主要用于分析查询语句或执行计划，并提供详细的执行信息。通过Explain，开发人员可以深入理解查询语句的执行过程，找出潜在的性能问题，并针对性地进行优化。 Explain的使用非常简单，只需在需要分析的SQL语句前加上“EXPLAIN”关键字即可。执......
快速排序（C语言实现）此文章由vivo的AI蓝心小v生成
当然可以。快速排序是一种非常高效的排序算法，由英国计算机科学家霍尔（C.A.R.Hoare）于1962年提出。它的基本思想是采用分治法（DivideandConquer）来进行排序。###快速排序的基本步骤：1.**选择基准值（Pivot）**：从待排序的序列中选取一个元素作为基准值。这个元素可以是序列的第一......
强烈推荐：2024 年12款 Visual Studio 亲测、好用、优秀的工具，AI插件等
工具类扩展1.ILSpy2022（免费）ILSpy是ILSpy开源反编译器的VisualStudio扩展。是一款开源、免费的、且适用于.NET平台反编译【C#语言编写的程序和库(.dll)内容】工具；可以集成在VisualStudio开发工具中，能够十分快捷方便的查看源代码内容。其中包括：1.项目案例2.NuGet......
让手机平板成为AI开发利器：AidLux
想ssh登录自己的手机吗？想在手机上自由的安装lynx、python、vscode、jupyter甚至飞桨PaddlePaddle、Tensorflow、Pytorch和昇思Mindspore吗？那么看这里....装上AidLux，以上全都有！AidLux是一个综合的AI开发平台，底层是Debian。在华为手机的应用商店中，查找aidlux，动动手指即可安装......
【Blockchain】区块链浏览器 | 以太坊Etherscan比特币Blockchain门罗币Monero
区块链浏览器概述区块链浏览器是一种软件,它使用API(应用程序编程接口)和区块链节点从区块链中提取各种数据，然后使用数据库来排列搜索到的数据，并以可搜索的格式将数据呈现给用户。用户的输入是资源管理器上的可搜索项，然后通过数据库上的组织表进行搜索。浏览器已经将区块......
rainy75 键盘设置手册
蓝牙配对显示电量切换模式(win/mac)Fn组合按键......
目前国内全地形能力最强的双足机器人 —— 逐际动力 —— 提出迭代式预训练（Iterative
相关：https://weibo.com/1255595687/O5k4Aj8l2该公司对其产品的强化学习训练算法给出了较少的描述：提出迭代式预训练（IterativePre-training）方法，把通用机器人的基础运动能力划分为不同级别，进行循序渐进的预训练，这个过程让训练的结果更可控，从而高效地产出和收集有效数据，训练......

AI构建新质生产力，合合信息Embedding模型助力专业知识应用

相关文章

赞助商

阅读排行