首页 > 其他分享 >为什么 OpenAI 的 API 对于非英语语言来说更昂贵

为什么 OpenAI 的 API 对于非英语语言来说更昂贵

时间:2023-08-28 12:32:31浏览次数:45  
标签:令牌 语言 标记 短语 昂贵 API OpenAI

image-20230816173737263

短语“Hello world”怎么可能有两个英语令牌和 12 个印地语令牌?

在我最近发表了一篇关于如何估算OpenAI的API成本的文章后,我收到了一条有趣的评论,有人注意到OpenAI API在其他语言中比在英语中贵得多,例如使用中文,日语或韩语(CJK)字符的语言。

image-20230816173834885

一位读者对我最近关于如何使用库估算OpenAI的API成本的文章 的评论tiktoken

我没有意识到这个问题,但很快意识到这是一个活跃的研究领域:今年年初,Petrov等人[2]的一篇名为“语言模型标记器引入语言之间的不公平”的论文表明,“翻译成不同语言的相同文本可能具有截然不同的标记化长度,在某些情况下差异高达15倍。

作为复习,标记化是将文本拆分为标记列表的过程,标记列表是文本中的常见字符序列。

image-20230816173854289

标记化示例

令牌化长度的差异是一个问题,因为 OpenAI API 以 1,000 个令牌为单位计费。因此,如果您在可比较文本中拥有多达 15 倍的代币,这将导致 API 成本增加 15 倍。

实验:不同语言的令牌数量

让我们将短语“Hello world”翻译成日语(こんにちは世界)并将其转录为印地语(हैलोवर्ल्ड)。当我们使用 OpenAI 的 GPT 模型中使用的分词器标记新短语时,我们得到以下结果(您可以在本文末尾找到我用于这些实验的代码):cl100k_base

image-20230816173924515

英语、日语和印地语中短语“Hello world”的字母和标记 () 数cl100k_base

从上图中,我们可以做出两个有趣的观察:

  1. 字母数为...

标签:令牌,语言,标记,短语,昂贵,API,OpenAI
From: https://blog.51cto.com/u_16210475/7262329

相关文章

  • java与es8实战之三:Java API Client有关的知识点串讲
    欢迎访问我的GitHub这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos本篇概览本篇是《java与es8实战》系列的第三篇,将一些重要的知识点在这里梳理清楚,为后面的实践奠定基础一共有七个与JavaAPIClient有关的重要知识点关于namespace:每......
  • Windows实时绘图:2D绘图和3D绘图所用的API有何不同?
    3D绘图众所周知的有OpenGL、WebGL等。2D绘图有GDI、GDI+。它们在进行数据渲染方面有何区别?2D图形渲染不需要3D渲染上的一些坐标转换,但是二维转换还是要的。进行渲染时,也要有渲染管线->生成图片。ArcMap绘图用的是哪个图形接口?QGIS用的是哪个图形接口?GeoTools渲染地图时又是......
  • 如何调用api接口获取到商品数据
    要调用API接口获取商品数据,需要进行以下步骤:确定API接口首先需要确定要使用的API接口,可以通过搜索引擎或者相关文档来查找适合的API接口。以淘宝开放平台为例,可以使用淘宝的商品信息查询API接口来获取商品数据。注册API账号并获取API密钥要使用API接口,需要先在API平台上注册一个账......
  • .NET 实现Azure DevOps中通过API对工作项的ID列表获取
    前言:最近在做对接AzureDevOps的API的工作,最开始也做了很多调研,官方给的API也是很丰富与完整,但是在对接工作项(WorkItems)时发现,官方并没有给WorkItems的列表或者分页的API,具体原因并不清楚,不过也可以通过id的list去获取工作项的list,id的list就需要通过wiql去获取。这里对A......
  • 电商数据接口API:品牌价格监控与数据分析的重要工具
    一、引言随着电子商务的快速发展,传统品牌企业越来越重视在线销售市场。为了在竞争激烈的市场环境中取得成功,企业需要实时掌握市场动态,了解自身产品的销售情况、价格趋势以及竞品信息。为了实现这一目标,各大电商平台(如淘宝、京东和拼多多)纷纷开放其数据接口,形成了电商数据接口API。......
  • 怎么找到真实可用的淘宝拼多多京东API?(商品数据订单数据销量价格接口)
    要找到真实可用的淘宝、拼多多、京东API,可以采取以下步骤:打开相应电商平台的开放平台网站,例如淘宝开放平台、拼多多开放平台、京东开放平台等。在网站中注册并登录,找到API文档或开发者文档等页面。在文档中搜索与所需功能相关的API接口,了解接口的使用方法、请求参数、返回数据格......
  • 淘宝app商品详情原数据接口API(支持高并发请求/免费测试)
    item_get_app-获得淘宝app商品详情原数据 进入API测试一、引言随着移动互联网的迅速发展,移动电商应用的需求也在不断增长。淘宝作为中国最大的电商平台之一,每天需要处理大量的商品数据和用户访问请求。为了提供更加优质的用户体验,淘宝开放了商品详情原数据接口API,支持开发者在淘......
  • BAPI程序-BAPI_ACC_GL_POSTING_POST 创建会计凭证
     DATADOCUMENTHEADERTYPEBAPIACHE08."凭证抬头结构体设置DOCUMENTHEADER-DOC_DATE='20230826'."凭证日期DOCUMENTHEADER-DOC_TYPE='SA'."凭证类型DOCUMENTHEADER-COMP_CODE='1000'."公司代码DOCUMENTHEADER-......
  • Windows线程API —CreateTimerQueueTimer/DeleteTimerQueueTimer的使用
    问题代码:1#include<windows.h>2#include<iostream>3#include<thread>4HANDLEh1;5HANDLEh2;67voidCALLBACKtest(PVOIDa,BOOLEANb)8{9std::cout<<"ThisatestfunctionexcutedbyThread:"<<......
  • 商品详情api接口的应用方向有哪些?
    商品详情API接口的应用方向非常广泛,可以应用于以下领域:电子商务平台:商品详情API接口可以提供商品的基本信息,如名称、描述、价格、图片等,帮助电子商务平台展示和推荐商品。此外,还可以提供商品的库存信息、销售数据、评论信息等,帮助平台进行数据分析和管理。零售电商APP:商品详情API接......