为什么 OpenAI 的 API 对于非英语语言来说更昂贵

时间：2023-08-28 12:32:31浏览次数：51

标签：令牌语言标记短语昂贵 API OpenAI

短语“Hello world”怎么可能有两个英语令牌和 12 个印地语令牌？

在我最近发表了一篇关于如何估算OpenAI的API成本的文章后，我收到了一条有趣的评论，有人注意到OpenAI API在其他语言中比在英语中贵得多，例如使用中文，日语或韩语（CJK）字符的语言。

一位读者对我最近关于如何使用库估算OpenAI的API成本的文章的评论tiktoken

我没有意识到这个问题，但很快意识到这是一个活跃的研究领域：今年年初，Petrov等人[2]的一篇名为“语言模型标记器引入语言之间的不公平”的论文表明，“翻译成不同语言的相同文本可能具有截然不同的标记化长度，在某些情况下差异高达15倍。

作为复习，标记化是将文本拆分为标记列表的过程，标记列表是文本中的常见字符序列。

标记化示例

令牌化长度的差异是一个问题，因为 OpenAI API 以 1，000 个令牌为单位计费。因此，如果您在可比较文本中拥有多达 15 倍的代币，这将导致 API 成本增加 15 倍。

实验：不同语言的令牌数量

让我们将短语“Hello world”翻译成日语（こんにちは世界）并将其转录为印地语（हैलोवर्ल्ड）。当我们使用 OpenAI 的 GPT 模型中使用的分词器标记新短语时，我们得到以下结果（您可以在本文末尾找到我用于这些实验的代码）：cl100k_base

英语、日语和印地语中短语“Hello world”的字母和标记（）数cl100k_base

从上图中，我们可以做出两个有趣的观察：

字母数为...

标签：令牌,语言,标记,短语,昂贵,API,OpenAI
From： https://blog.51cto.com/u_16210475/7262329

java与es8实战之三：Java API Client有关的知识点串讲
欢迎访问我的GitHub这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos本篇概览本篇是《java与es8实战》系列的第三篇，将一些重要的知识点在这里梳理清楚，为后面的实践奠定基础一共有七个与JavaAPIClient有关的重要知识点关于namespace：每......
Windows实时绘图：2D绘图和3D绘图所用的API有何不同？
3D绘图众所周知的有OpenGL、WebGL等。2D绘图有GDI、GDI+。它们在进行数据渲染方面有何区别？2D图形渲染不需要3D渲染上的一些坐标转换，但是二维转换还是要的。进行渲染时，也要有渲染管线->生成图片。ArcMap绘图用的是哪个图形接口？QGIS用的是哪个图形接口？GeoTools渲染地图时又是......
如何调用api接口获取到商品数据
要调用API接口获取商品数据，需要进行以下步骤：确定API接口首先需要确定要使用的API接口，可以通过搜索引擎或者相关文档来查找适合的API接口。以淘宝开放平台为例，可以使用淘宝的商品信息查询API接口来获取商品数据。注册API账号并获取API密钥要使用API接口，需要先在API平台上注册一个账......
.NET 实现Azure DevOps中通过API对工作项的ID列表获取
前言：最近在做对接AzureDevOps的API的工作，最开始也做了很多调研，官方给的API也是很丰富与完整，但是在对接工作项（WorkItems）时发现，官方并没有给WorkItems的列表或者分页的API，具体原因并不清楚，不过也可以通过id的list去获取工作项的list，id的list就需要通过wiql去获取。这里对A......
电商数据接口API：品牌价格监控与数据分析的重要工具
一、引言随着电子商务的快速发展，传统品牌企业越来越重视在线销售市场。为了在竞争激烈的市场环境中取得成功，企业需要实时掌握市场动态，了解自身产品的销售情况、价格趋势以及竞品信息。为了实现这一目标，各大电商平台（如淘宝、京东和拼多多）纷纷开放其数据接口，形成了电商数据接口API。......
怎么找到真实可用的淘宝拼多多京东API？（商品数据订单数据销量价格接口）
要找到真实可用的淘宝、拼多多、京东API，可以采取以下步骤：打开相应电商平台的开放平台网站，例如淘宝开放平台、拼多多开放平台、京东开放平台等。在网站中注册并登录，找到API文档或开发者文档等页面。在文档中搜索与所需功能相关的API接口，了解接口的使用方法、请求参数、返回数据格......
淘宝app商品详情原数据接口API（支持高并发请求/免费测试）
item_get_app-获得淘宝app商品详情原数据进入API测试一、引言随着移动互联网的迅速发展，移动电商应用的需求也在不断增长。淘宝作为中国最大的电商平台之一，每天需要处理大量的商品数据和用户访问请求。为了提供更加优质的用户体验，淘宝开放了商品详情原数据接口API，支持开发者在淘......
BAPI程序-BAPI_ACC_GL_POSTING_POST 创建会计凭证
DATADOCUMENTHEADERTYPEBAPIACHE08."凭证抬头结构体设置DOCUMENTHEADER-DOC_DATE='20230826'."凭证日期DOCUMENTHEADER-DOC_TYPE='SA'."凭证类型DOCUMENTHEADER-COMP_CODE='1000'."公司代码DOCUMENTHEADER-......
Windows线程API —CreateTimerQueueTimer/DeleteTimerQueueTimer的使用
问题代码:1#include<windows.h>2#include<iostream>3#include<thread>4HANDLEh1;5HANDLEh2;67voidCALLBACKtest(PVOIDa,BOOLEANb)8{9std::cout<<"ThisatestfunctionexcutedbyThread:"<<......
商品详情api接口的应用方向有哪些？
商品详情API接口的应用方向非常广泛，可以应用于以下领域：电子商务平台：商品详情API接口可以提供商品的基本信息，如名称、描述、价格、图片等，帮助电子商务平台展示和推荐商品。此外，还可以提供商品的库存信息、销售数据、评论信息等，帮助平台进行数据分析和管理。零售电商APP：商品详情API接......

为什么 OpenAI 的 API 对于非英语语言来说更昂贵

实验：不同语言的令牌数量

相关文章

赞助商

阅读排行