首页 > 其他分享 >8k中英双语文本嵌入模型效果初探

8k中英双语文本嵌入模型效果初探

时间:2024-03-05 09:12:06浏览次数:15  
标签:8k jina large 模型 学习 英双语 learning 初探 向量

一 模型介绍

向量模型用于生成向量表示,被广泛应用于检索、分类、聚类或语义匹配等传统的自然语言处理任务。到了大模型时代,由于上下文长度的限制,需要压缩、存储和查询大量的信息,这就需要用到向量模型对输入的文本进行向量化表示,然后再喂给大模型,以得到期望的输出。更长的向量模型输入的长度可以提高 RAG 场景下大模型回复的准确性,而且适用于各种处理长文本的场景,例如处理数十页的报告综述等。

模型参数

模型参数

模型特点:

  • 使用了Alibi而不是位置编码,直接在计算注意力的时候加入了双向的Alibi,达到更长的输入长度
  • 在大量精处理后的数据上进行训练,并使用文本对数据和难负样本数据进行微调

更多详情可以查看论文:https://arxiv.org/pdf/2310.19923.pdf

二 效果对比

jina 标榜自己是一个双语模型,不是单语或者多语言模型,这样更加适合做语义相似检索,而且不需要进行翻译。因此本次使用jina-embeddings-v2-base-zh这个模型来验证中英双语能力。

中英文双语表征能力

使用下面的一个句子对,对比模型是MOKA的m3e-large

['How is the weather today?', '今天天气怎么样?']
模型 相似度
jina-v2-base-zh 0.7860609
m3e-large 0.7047691

很明显,结果表明了jina模型对这两个句子嵌入后的向量更加相似

长中英文双语表征能力

上述差距还不大,但是jina-v2支持的上下文可达8k,而m3e-large最多只能到512。这回用长本文来看看两者的差距。


e = "Here's a breakdown of Machine Learning (ML) and Deep Learning (DL):\n Machine Learning:\n A subfield of artificial intelligence (AI) that enables computers to learn from data without explicit programming.\n The process involves training a model on a large dataset to identify patterns and relationships.\n Once trained, the model can make new predictions or decisions based on new data.\n Examples of machine learning include:\n  Supervised learning: training a model on labeled data (e.g., training a spam filter on emails).\n  Unsupervised learning: finding hidden patterns in unlabeled data (e.g., discovering clusters of customers in a dataset).\n  Reinforcement learning: an agent learns through trial and error to maximize its rewards (e.g., a robot learning to play a game).\n Deep Learning:\n A subfield of machine learning that focuses on mimicking the structure and function of the human brain.\n Deep learning models are built using artificial neural networks with multiple layers.\n Each layer of the network performs a specific task, and the entire network works together to learn complex patterns from data."
len(e)
>> 1109

z = "以下是机器学习 (ML) 和深度学习 (DL) 的细分:\n 机器学习:\n 人工智能 (AI) 的一个子领域,使计算机无需显式编程即可从数据中学习。\n 该过程涉及训练模型在大型数据集上识别模式和关系。\n 经过训练,模型可以根据新数据做出新的预测或决策。\n 机器学习的示例包括:\n 监督学习:在标记数据(例如,训练电子邮件的垃圾邮件过滤器)。\n 无监督学习:在未标记的数据中查找隐藏模式(例如,发现数据集中的客户集群)。\n 强化学习:代理通过反复试验进行学习,以最大化其奖励(例如,学习玩游戏的机器人)。\n 深度学习:\n 机器学习的一个子领域,专注于模仿人脑的结构和功能。\n 深度学习模型是使用多层人工神经网络构建的。\n 网络的每一层都执行特定的任务,整个网络协同工作,从数据中学习复杂的模式"
len(z)
>> 344
模型 相似度
jina-v2-base-zh 0.82530826
m3e-large 0.66310775

输入的文本长度增加后,可以明显看到两者的差距,再长的文本可能m3e也处理不了,因此没有必要再进行下一步验证。

内存占用

模型 向量长度 字节
jina-v2-base-zh 768 3072 Bytes
m3e-large 1024 4096 Bytes

相当于每个嵌入后的向量,jina-v2-base可以节省大约1k字节。如果有10亿条这样的向量数据可节省1T的空间,这对于大规模RAG场景下非常有用。

标签:8k,jina,large,模型,学习,英双语,learning,初探,向量
From: https://www.cnblogs.com/deeplearningmachine/p/18053230

相关文章

  • 27.8k star!微软开源了免费的AI课程
    GitHub上的项目"microsoft/AI-For-Beginners"是由微软发起的一个旨在教育和引导初学者学习人工智能(AI)的资源库。根据提供的链接信息,这个项目提供了一个为期12周、包含24课的课程计划,旨在让所有人能够学习AI。github地址:https://github.com/microsoft/AI-For-Beginners这个项......
  • (4 核,64 位)处理器LS1043AXN8QQB、LS1043AXN8KQA、LS1043AXN8PQA专为小规格网络、工业
    介绍Layerscape®LS1043A处理器是一款面向嵌入式网络的四核64位Arm®处理器。LS1043A可通过支持无风扇设计的灵活I/O封装,提供超过10Gbps的性能。这款SoC是专为小规格网络、工业和汽车应用而打造的解决方案,针对经济型低端PCB优化了物料成本(BOM),降低了电源成本,采用单时钟设计。......
  • 动手学强化学习(一):初探强化学习
    1.1简介亲爱的读者,欢迎来到强化学习的世界。初探强化学习,你是否充满了好奇和期待呢?我们想说,首先感谢你的选择,学习本书不仅能够帮助你理解强化学习的算法原理,提高代码实践能力,更能让你了解自己是否喜欢决策智能这个方向,从而更好地决策未来是否从事人工智能方面的研究和实践工作。......
  • 解析Spring中的循环依赖问题:初探三级缓存
    什么是循环依赖?这个情况很简单,即A对象依赖B对象,同时B对象也依赖A对象,让我们来简单看一下。//A依赖了BclassA{publicBb;}//B依赖了AclassB{publicAa;}这种循环依赖可能会引发问题吗?在没有考虑Spring框架的情况下,循环依赖并不会带来问题,因为对象之间相互依赖......
  • [dotnet-Sec]初探反序列化
    [dotnet-Sec]初探反序列化参考Github上y4✌的开源笔记,狠狠学!环境搭建.NET:5.0IDE:Rider(JB家族)新建项目选择.NETCore(支持跨平台)下的控制台应用程序,然后创建这是接触到的关于dotnet的第一个反序列化demo,使用的是BinaryFormatter生成二进制流//Disablethewarning.#pragma......
  • 初探富文本之文档diff算法
    初探富文本之文档diff算法当我们实现在线文档的系统时,通常需要考虑到文档的版本控制与审核能力,并且这是这是整个文档管理流程中的重要环节,那么在这个环节中通常就需要文档的diff能力,这样我们就可以知道文档的变更情况,例如文档草稿与线上文档的差异、私有化版本A与版本B之间的差异......
  • 自然语言处理库之spaCy初探
    一、自然语言处理简介自然语言处理(NaturalLanguageProcessing,简称NLP)是一门研究人类语言与计算机之间交互的领域,旨在使计算机能够理解、解析、生成和处理人类语言。NLP结合了计算机科学、人工智能和语言学的知识,通过各种算法和技术来处理和分析文本数据。近年来,随着深度学习技......
  • 北理工开源MindLLM-1.3B:超越大小,中英双语对话新标杆
    引言在人工智能的发展浪潮中,自然语言处理技术的进步尤为引人注目。特别是大型语言模型(LLM),在推动语言理解和生成领域取得显著成就。北京理工大学-东南信息研究院自然语言处理团队的最新力作MindLLM-1.3B模型,在中英双语对话处理上实现了重大突破。MindLLM-1.3B模型概述MindLLM-1.3B是......
  • 初探: 通过pyo3用rust为python写扩展加速
    众所周知,python性能比较差,尤其在计算密集型的任务当中,所以机器学习领域的算法开发,大多是将python做胶水来用,他们会在项目中写大量的C/C++代码然后编译为so动态文件供python加载使用。那么时至今日,对于不想学习c/c++的朋友们,rust可以是一个不错的替代品,它有着现代化语言的设计和并......
  • CS5569芯片,CS556,设计资料,CS5569规格书,CS5569原理图,typec转HDMI 8K带PD方案
    集睿致远/ASL的CS5269是一款低成本、低功耗的半导体器件,通过USBType-C连接器将DisplayPort信号转换为HDMI2.1。这款创新的基于USBType-C的DisplayPort接收器具有高性能DSC解码器,集成的HDMI2.1发射器专门针对USBType-C到HDMI2.1转换器而设计,一个NG设备。通过CS5269的先进的解码/......