首页 > 其他分享 >如何将文本转换为向量?

如何将文本转换为向量?

时间:2024-07-09 11:18:57浏览次数:14  
标签:DashVector 转换 text api key 文本 向量

 本文介绍如何通过模型服务灵积DashScope文本转换为向量,并入库至向量检索服务DashVector中进行向量检索。

模型服务灵积DashScope,通过灵活、易用的模型API服务,让各种模态模型的能力,都能方便的为AI开发者所用。通过灵积API,开发者不仅可以直接集成大模型的强大能力,也可以对模型进行训练微调,实现模型定制化。

前提条件

通用文本向量

简介

通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。

模型名称

向量维度

度量方式

向量数据类型

备注

text-embedding-v1

1536

Cosine

Float32

  • 单行最大输入字符长度:2048

  • 单次请求文本最大行数:25

  • 支持语种:中文、英语、西班牙语、法语、葡萄牙语、印尼语

text-embedding-v2

1536

Cosine

Float32

  • 单行最大输入字符长度:2048

  • 单次请求文本最大行数:25

  • 支持语种:中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语

说明

关于灵积通用文本向量更多信息请参考:通用文本向量

使用示例

说明

需要进行如下替换代码才能正常运行:

  1. DashVector api-key替换示例中的{your-dashvector-api-key}

  2. DashVector Cluster Endpoint替换示例中的{your-dashvector-cluster-endpoint}

  3. DashScope api-key替换示例中的{your-dashscope-api-key}

Python示例:

import dashscope
from dashscope import TextEmbedding
from dashvector import Client
from typing import List, Union


dashscope.api_key = '{your-dashscope-api-key}'


# 调用DashScope通用文本向量模型,将文本embedding为向量
def generate_embeddings(texts: Union[List[str], str], text_type: str = 'document'):
    rsp = TextEmbedding.call(
        model=TextEmbedding.Models.text_embedding_v2,
        input=texts,
        text_type=text_type
    )
    embeddings = [record['embedding'] for record in rsp.output['embeddings']]
    return embeddings if isinstance(texts, list) else embeddings[0]


# 创建DashVector Client
client = Client(
    api_key='{your-dashvector-api-key}',
    endpoint='{your-dashvector-cluster-endpoint}'
)

# 创建DashVector Collection
rsp = client.create('dashscope-text-embedding', 1536)
assert rsp
collection = client.get('dashscope-text-embedding')
assert collection

# 向量入库DashVector
collection.insert(
    ('ID1', generate_embeddings('阿里云向量检索服务DashVector是性能、性价比具佳的向量数据库之一'))
)

# 向量检索
docs = collection.query(
    generate_embeddings('The best vector database', 'query')
)
print(docs)

相关最佳实践


ONE-PEACE多模态向量表征

ONE-PEAC是一个图文音三模态通用表征模型,同样可通过ONE-PEAC将文本转换为向量。

详情参考:从多种模态混合生成向量 —— ONE-PEACE多模态向量表征


免费体验阿里云高性能向量检索服务https://www.aliyun.com/product/ai/dashvector

标签:DashVector,转换,text,api,key,文本,向量
From: https://www.cnblogs.com/DashVector/p/18291398

相关文章

  • the-ONE 模拟器的使用 osm转换wkt
    处理osm数据目录处理osm数据1.使用网站进行处理获得地图数据将导出的文件转化为csv格式对数据进行处理2.使用osm2wkt进行处理利用osm2wkt对导出的osm进行处理总结1.使用网站进行处理获得地图数据通过https://www.openstreetmap.org/搜寻想要的地图,选择想要的区域,导出osm格式......
  • 什么是向量
    ​ 本文主要介绍向量的基本概念,包括向量维度、距离度量方式、数据类型等,通过基本概念快速了解什么是向量,以及如何更好地使用向量检索服务。向量的基本概念在AI领域,向量是描述对象特征的抽象表达。以DashScope上通用文本向量模型为例,通过输入一段文本,通用文本向量模型会将这段......
  • 向量点乘为降维,叉乘为升维
    本文转自https://baijiahao.baidu.com/s?id=1787300641186091766&wfr=spider&for=pc总结:向量叉乘是诞生了一个新的方向,这个方向垂直于原向量组成的平面。点乘的好处是将高维降低到1维,可以在1个维度上讨论数值问题。如果1是点,那么乘积是线,如果1是线段,那么乘积是面积,如果1是向量......
  • ScreenAI ——能理解从信息图表到用户界面的图像和文本算法解析
    概述论文地址:https://arxiv.org/pdf/2402.04615.pdf信息图表(图表、示意图、插图、地图、表格、文档布局等)能够将复杂的数据和想法转化为简单的视觉效果,因此一直以来都被视为传播的重要元素。这种能力来自于通过布局和视觉线索使信息直观易懂。在当今日益数字化的世界中,移......
  • 第三章 MATLAB矩阵的操作的目录【向量元素的引用】
    向量元素的引用有两种:(1)提取向量中的单个元素(2)提取向量中的多个元素可以利用向量中包含的元素个数来描述一个向量的大小。在MATLAB中,使用length函数或numel函数来计算向量中包含的元素个数。向量的元素a1a2a3......an索引(下标)123n在MATLAB中,向量......
  • 快手开源中英双语文本生成图像模型Kolors;漫画翻译工具Comic Translate;支持谷歌搜索、
    ✨1:KolorsKolors是基于潜在扩散的大规模中英双语文本生成图像模型。Kolors是由快手的Kolors团队开发的一种基于潜在扩散的文本到图像生成模型。它经过了数十亿对文本和图像数据的训练,在视觉质量、复杂语义准确性以及中文和英文文本渲染方面都表现出显著的优势。Kolo......
  • Transformer模型在文本摘要任务中的应用与性能分析
    Transformer模型自从由Vaswani等人在2017年提出以来,已经在自然语言处理(NLP)的多个领域取得了显著的成果,尤其是在文本摘要任务中。文本摘要是将长文本转换成更短的、包含关键信息的文本的过程。本文将探讨Transformer模型在文本摘要任务中的应用,并分析其性能表现。1.Transfo......
  • 长上下文模型(扩展位置编码、调整上下文窗口、长文本数据、)
    文章目录扩展位置编码调整上下文窗口长文本数据    在实际应用中,大语言模型对于长文本数据的处理需求日益凸显,尤其在长文档分析、多轮对话、故事创作等场景下。在这些情况下,模型需要处理的文本的长度常常超出预定义上下文窗口大小。例如,LLaMA-2的上下文......
  • 支持向量机(Support Vector Machine,SVM)
    支持向量机(SupportVectorMachine,简称SVM)是一种监督学习模型,主要用于分类和回归分析。SVM的基本思想是寻找一个决策边界或超平面,使得两类样本之间的间隔最大化。这个间隔被定义为支持向量到超平面的最短距离,而支持向量就是那些恰好位于间隔边缘上的训练样本点。线性可分......
  • 如何利用java依赖jave-all-deps实现视频格式转换
    视频格式转换是常见的需求,通过使用Java依赖库jave-all-deps可以实现视频格式的转换。本文将详细介绍在Java中如何利用jave-all-deps实现视频格式转换。什么是jave-all-deps库?jave-all-deps是一款基于FFmpeg库的Java音视频编解码库。它提供了一系列API,可以用来对音视频文件进......