首页 > 其他分享 >有趣的数据_ChatGPT的多语种训练数据集

有趣的数据_ChatGPT的多语种训练数据集

时间:2023-02-22 11:33:12浏览次数:32  
标签:中文 zh 多语种 英语 xx ChatGPT 数据 chatGPT


  • 为什么建议用英语和ChatGPT沟通
  • 为什么chatGPT中文对话时候偶尔会感觉到他在胡编瞎造
  • 为什么chatGPT中文提问专业问题时偶尔会出现英语回复

看openai公布的GPT-3训练数据集的语言占比,中文语料只占总训练量的0.1%

有趣的数据_ChatGPT的多语种训练数据集_chatgpt

下面是详细数据

lang

语言名

训练集

占比

en

英语

181014683608

92.65%

fr

法语

3553061536

1.82%

de

德语

2870869396

1.47%

es

西班牙语

1510070974

0.77%

it

意大利语

1187784217

0.61%

pt

葡萄牙语

1025413869

0.52%

nl

荷兰语

669055061

0.34%

ru

俄语

368157074

0.19%

ro

罗马尼亚语

308182352

0.16%

pl

波兰语

303812362

0.16%

fi

芬兰语

221644679

0.11%

da

丹麦语

221551540

0.11%

sv

瑞典语

220920577

0.11%

ja

日语

217047918

0.11%

no

挪威语

212193299

0.11%

zh

中文

193517396

0.10%

cs

捷克语

139918438

0.07%

hu

匈牙利语

127224375

0.07%

id

印度尼西亚语

116930321

0.06%

tr

土耳其语

116141938

0.06%

hr

克罗地亚语

101613675

0.05%

vi

越南语

83077650

0.04%

el

希腊语

61607673

0.03%

ar

阿拉伯语

60839973

0.03%

sr

塞尔维亚语

52875283

0.03%

zh-Hant

繁体中文

38583893

0.02%

c。a

加抬罗尼亚语

35126650

0.02%

ko

韩语

33147663

0.02%

sk

斯洛伐克语

27957963

0.01%

th

泰语

26806557

0.01%

sl

斯洛文尼亚语

26037337

0.01%

et

爱沙尼亚语

20718080

0.01%

fa

波斯语

16731301

0.01%

iw

希伯来语

15027640

0.01%

uk

乌克兰语

14905898

0.01%

ms

马来语

13389340

0.01%

lv

拉脱维亚语

13290098

0.01%

bs

波斯尼亚语

13160941

0.01%

lt

立陶宛语

12921255

0.01%

is

冰岛语

12792837

0.01%

hi

印地语

9434632

0.00%

sq

阿尔巴尼亚语

9253803

0.00%

tl

菲律宾语

8650331

0.00%

gl

加利西亚语

6947527

0.00%

jw

爪哇语

6604056

0.00%

bg

保加利亚语

5919807

0.00%

af

南非荷兰语

5461216

0.00%

ta

泰米尔语

5163171

0.00%

mr

马拉地语

3660217

0.00%

cy

威尔士语

3459671

0.00%

ml

马拉雅拉姆语

3227746

0.00%

bn

孟加拉语

3003033

0.00%

ga

爱尔兰语

2878943

0.00%

az

阿塞拜疆语

2496202

0.00%

kn

卡纳达语

1913389

0.00%

my

缅甸语

1853421

0.00%

te

泰卢固语

1638366

0.00%

uz

乌兹别克语

1458861

0.00%

rw

卢旺达语

1430208

0.00%

ceb

宿务语

1329456

0.00%

ne

尼泊尔

1120450

0.00%

ku

库尔德语

1091032

0.00%

eu

巴斯克语

1048905

0.00%

km

高棉语

1041164

0.00%

ka

格鲁吉亚语

924256

0.00%

gd

苏格兰盖尔语

841970

0.00%

hy

亚美尼亚语

840171

0.00%

mt

马耳他语

748610

0.00%

si

僧伽罗语

708343

0.00%

pa

旁遮普语

703086

0.00%

ur

乌尔都语

689768

0.00%

kk

哈萨克语

670231

0.00%

sw

斯瓦希里语

585858

0.00%

st

塞索托语

538257

0.00%

be

白俄罗斯语

533405

0.00%

mk

马其顿语

529413

0.00%

mg

马拉加斯语

507043

0.00%

gu

古吉拉特语

494798

0.00%

lo

老挝语

449476

0.00%

ht

海地克里奥尔语

430911

0.00%

lg

卢干达语

261217

0.00%

yi

意第绪语

227609

0.00%

tg

塔吉克语

210167

0.00%

su

巽他语

208819

0.00%

hmn

苗语

175972

0.00%

ny

齐切瓦语

161994

0.00%

or

奥里亚语

131688

0.00%

dv

迪维希语

112819

0.00%

ky

吉尔吉斯语

91289

0.00%

bh

比哈尔语

48094

0.00%

xx-Goth

切罗基语

48025

0.00%

xx-Runr

因纽特语

37558

0.00%

iu

叙利亚语

31142

0.00%

syr

蒙古语

21482

0.00%

mn

哥特文

7779

0.00%

xx-Phnx

古北欧文

4343

0.00%

xx-Qaai

腓尼基文

4185

0.00%

xx-Egyp

古南阿拉伯文

3395

0.00%

xx-Nkoo

古埃及文

3338

0.00%

xx-Tfng

楚瓦文

3277

0.00%

xx-Cakm

茅艾文

2608

0.00%

xx-Yiii

查格特文

2357

0.00%

chr

彝文

2315

0.00%

xx-Phag

八思巴文

1750

0.00%

xx-Tavt

傣泰文

1622

0.00%

xx-Dsrt

沙漠文

1504

0.00%

xx-Java

爪哇-巽他文

1448

0.00%

xx-Sund

修南文

780

0.00%

xx-Copt

科普特文

707

0.00%

xx-Glag

格拉哥里文

673

0.00%

xx-Olck

欧鲁奇利文

573

0.00%

xx-Shaw

萧伯纳式文码

542

0.00%

xx-Samr

撒玛利亚文

313

0.00%

xx-Avst

阿维斯陀语

213

0.00%

xx-Bopo

注音符号

188

0.00%

xx-Linb

线性文字B

156

0.00%

xx-Ogam

欧甘文

84

0.00%

xx-Cham

占城文

49

0.00%


标签:中文,zh,多语种,英语,xx,ChatGPT,数据,chatGPT
From: https://blog.51cto.com/u_15961650/6078835

相关文章

  • 模拟数据生成器
     模拟数据生成器在线生成模拟数据,mockdata在线生成,mock模拟数据在线生成,生成模拟数据,测试数据生成器,生成模拟测试数据,在线批量生成模拟数据,测试数据生成器在线工......
  • 【springboot】配置数据源datasource
    数据源datasource可以获取数据库连接Connection可以创建JdbcTemplate操作数据库默认配置spring默认的数据库连接池为Hikari,maven依赖如下<!--spring-boot-star......
  • 关于目前chatGPT写代码问题,随手测试了一下
    他们都说chatGPT写代码很厉害,我就随手一测,其实源码本身不太重要,我就不上源码了:  (源码:略)  (源码:略)  (源码:略)  (源码:略)  (源码:略)  (源码:略)到最终,其......
  • oracle给表中重复数据增加顺序号
    表结构及测试数据如下:createtablet_row_str(idint,colvarchar2(10));insertintot_row_strvalues(1,'a');insertintot_row_strvalues(1,'b');insert......
  • 异常重复库存数据分析方法
    异常重复库存数据分析方法,用于分析更新库存时唯一索引重复数据和校对、盘点备份时mergeinto报数据不唯一错误问题1、附件只是异常数据查询语句,修复语句需要根据数据情况自......
  • mysql delete删除记录数据库空间不减少问题 2 种解决方法(转)
    转自:详解mysqldelete删除记录数据库空间不减少问题三种解决方法1、使用OPTIMIZE命令optimizetableact_demo_test;注意:在OPTIMIZETABLE运行过程中,MySQL会锁定表。......
  • 《python数据分析与挖掘实战》学习指南
     要求:1、能够发现数据:对数据进行质量分析(异常值分析之3sigma原则、箱型图)2、画图:对数据进行特征分析,一般可通过绘制图表(更优的是制作视频)、计算某些特征量等手段进行数......
  • (数据库系统概论|王珊)第六章关系数据理论-第二节:规范化
    pdf下载:密码7281专栏目录首页:【专栏必读】(考研复试)数据库系统概论第五版(王珊)专栏学习笔记目录导航及课后习题答案详解目录一:函数依赖(1)函数依赖(2)平凡函数依赖与非平凡......
  • Mysql关联删除CSV中的相关数据
    问题描述:提供一个csv文件,记录的是一些不同数据库的不同表中的共同字段account_id数据,需要在A库的account表中做关联删除 解决思路:csv文件中储存的都是account_id,六位纯......
  • postgresql 常用的删除重复数据方法
    一、最高效方法测试环境验证,6600万行大表,删除2200万重复数据仅需3分钟deletefromdeltestawherea.ctid=any(array(selectctidfrom(selectrow_number()over......