首页 > 其他分享 >NLP | mC4数据集

NLP | mC4数据集

时间:2023-07-11 20:13:11浏览次数:35  
标签:NLP serving Organizations County Latin Plumas mC4 数据 Professionals

MC4 是C4 的子集,MC4 是从公共 Common Crawl 存储库中提取的约 750GB 英语文本的集合。Common Crawl 包含数十亿个从 Internet 抓取的网页。尽管 C4 数据集被明确设计为仅英语,但 MC4 覆盖了 Common Crawl 迄今为止发布的 108 种语言,具有 10000 多个网页。

有证据表明,语言模型会放大他们所训练的数据集中存在的偏见。尽管一些研究人员声称,目前没有任何机器学习技术可以充分防止有害输出,但谷歌研究人员通过对 MC4 文档中进行重复数据删除和过滤包含不良词的页面减轻了 MT5 中的偏差。他们还使用工具检测了每个页面的主要语言,并删除了置信度低于 70% 的页面。

谷歌表示,最大的 MT5 模型(具有 130 亿个参数)超过了 2020 年 10 月的所有基准测试。其中包括 Xtreme 多语言基准测试的五项任务、XNLI 涵盖任务涵盖 14 种语言、XQuAD/MLQA 和 TyDi QA 阅读理解基准分别使用了 10 种、7 种 和 11 种语言,以及具有 7 种语言的 PAWS-X 复述识别数据集。

C4

  • 没有标签的数据集。
  • 收集了750GB的英文文本数据。
  • 只收集英文占比超过99%的文本。
  • 在文档中重复数据删除行,并删除包含坏单词的页面。

mC4

  • 使用cld3来收集超过100种语言的数据。
  • 删除没有以英文终端标点符号结尾的行。
  • 应用一个“行长过滤器(line length filter)”,要求页面包含至少三行包含200个或更多字符的文本。
  • 在文档中重复数据删除行,并删除包含坏单词的页面。

论文来源:

MT5 (multilingual Text-to-Text Transfer Transformer) is pretrained on a new Common Crawl-based dataset--mC4 dataset covering 101 languages.

您可以像这样加载任何语言的 mC4 子集:

from datasets import load_dataset

mc4_subset_with_five_languages = load_dataset("mc4", languages=["en", "fr", "es", "de", "zh"])

支持的任务和排行榜

mC4 主要用于预训练语言模型和单词表示。

数据集结构

数据语言

language code language name
af Afrikaans
am Amharic
ar Arabic
az Azerbaijani
be Belarusian
bg Bulgarian
bg-Latn Bulgarian (Latin)
bn Bangla
ca Catalan
ceb Cebuano
co Corsican
cs Czech
cy Welsh
da Danish
de German
el Greek
el-Latn Greek (Latin)
en English
eo Esperanto
es Spanish
et Estonian
eu Basque
fa Persian
fi Finnish
fil Filipino
fr French
fy Western Frisian
ga Irish
gd Scottish Gaelic
gl Galician
gu Gujarati
ha Hausa
haw Hawaiian
hi Hindi
hi-Latn Hindi (Latin script)
hmn Hmong, Mong
ht Haitian
hu Hungarian
hy Armenian
id Indonesian
ig Igbo
is Icelandic
it Italian
iw former Hebrew
ja Japanese
ja-Latn Japanese (Latin)
jv Javanese
ka Georgian
kk Kazakh
km Khmer
kn Kannada
ko Korean
ku Kurdish
ky Kyrgyz
la Latin
lb Luxembourgish
lo Lao
lt Lithuanian
lv Latvian
mg Malagasy
mi Maori
mk Macedonian
ml Malayalam
mn Mongolian
mr Marathi
ms Malay
mt Maltese
my Burmese
ne Nepali
nl Dutch
no Norwegian
ny Nyanja
pa Punjabi
pl Polish
ps Pashto
pt Portuguese
ro Romanian
ru Russian
ru-Latn Russian (Latin)
sd Sindhi
si Sinhala
sk Slovak
sl Slovenian
sm Samoan
sn Shona
so Somali
sq Albanian
sr Serbian
st Southern Sotho
su Sundanese
sv Swedish
sw Swahili
ta Tamil
te Telugu
tg Tajik
th Thai
tr Turkish
uk Ukrainian
und Unknown language
ur Urdu
uz Uzbek
vi Vietnamese
xh Xhosa
yi Yiddish
yo Yoruba
zh Chinese
zh-Latn Chinese (Latin)
zu Zulu

数据实例

配置的一个示例en是:

{'timestamp': '2018-06-24T01:32:39Z',
 'text': 'Farm Resources in Plumas County\nShow Beginning Farmer Organizations & Professionals (304)\nThere are 304 resources serving Plumas County in the following categories:\nMap of Beginning Farmer Organizations & Professionals serving Plumas County\nVictoria Fisher - Office Manager - Loyalton, CA\nAmy Lynn Rasband - UCCE Plumas-Sierra Administrative Assistant II - Quincy , CA\nShow Farm Income Opportunities Organizations & Professionals (353)\nThere are 353 resources serving Plumas County in the following categories:\nFarm Ranch And Forest Retailers (18)\nMap of Farm Income Opportunities Organizations & Professionals serving Plumas County\nWarner Valley Wildlife Area - Plumas County\nShow Farm Resources Organizations & Professionals (297)\nThere are 297 resources serving Plumas County in the following categories:\nMap of Farm Resources Organizations & Professionals serving Plumas County\nThere are 57 resources serving Plumas County in the following categories:\nMap of Organic Certification Organizations & Professionals serving Plumas County',
 'url': 'http://www.californialandcan.org/Plumas/Farm-Resources/'}

数据字段

数据有几个字段:

  • url: 字符串形式的源 url
  • text:文本内容作为字符串
  • timestamp: 时间戳作为字符串

标签:NLP,serving,Organizations,County,Latin,Plumas,mC4,数据,Professionals
From: https://www.cnblogs.com/zhangxuegold/p/17545789.html

相关文章

  • MySQL 数据库初体验
    目录一、数据库的基本概念1.数据2.表3.数据库4.数据库管理系统5.数据库系统原理二、数据库的发展数据库一代数据库二代数据库三代三、主流的数据库介绍1.SQLServer(微软公司产品)2.Oracle(甲骨文公司产品)3.DB2(IBM公司产品)4.MySQL(甲骨文公司收购)四、关系型数据库五、非关系......
  • 数据库基本操作
    目录一、SQL语句管理二、常用的数据类型三、基本操作1.查看当前服务器中的数据库2.创建新的数据库3.在数据库中创建新的数据表4.向数据表中插入数据记录5.查看表中所有数据记录6.按字段查找数据表中的记录7.查找数据表中指定的记录8.查找指定记录的指定字段9.按记录范围......
  • 浅谈BIT本科数据结构与算法课程 1
    关于C++基本输入输出流#include<bits/stdc++.h>usingnamespacestd;intmain(){ inta,b; cin>>a>>b; cout<<a<<endl; return0;}栈和队列关于stl#include<algorithm>vector<int>x;x.push_back(n);x.pop_back();x.back();x[1......
  • Springboot远程调用Prometheus Api获取指标数据
    0、写在前面1>使用RestTemplate作为远程调用工具调用prometheus原生api获取数据2>prometheus原生api文档地址如下:https://prometheus.io/docs/prometheus/latest/querying/api/3>通过访问prometheus原生api,查看原生api返回的数据格式,定义对应的实体类格式4>下面所列功能代......
  • mybatis中数据库字段和实体类的属性映射问题
    由于数据库中表的列名一般是按照多个单词之间用下划线隔开,而java一般是驼峰命名法,所以这两者之间存在映射不到的问题,解决方案如下:1.给字段添加别名,如下:<selectid="getManagerInfo"resultType="string">selectlast_login_timelastLoginTimefromwy_manager......
  • 用代码玩转迷你图:手把手教你用编程语言打造简洁易读的数据图表!
    前言迷你图(MiniChart)最早起源于流程图和组织架构图中的一种简化图形,用于表示一个大型数据集合中的趋势和变化。随着数据可视化技术的发展,迷你图也被广泛应用在各种类型的数据图表中,例如折线图、柱形图、散点图等。迷你图通常具有小巧、简洁、直观的特点,能够在有限的空间内有效地展......
  • pytest生成测试报告无数据
    1、排除用pytest生成的数据是没有问题的可以通过pytest--alluredir=report检查2、了解使用的语句:alluregeneratereport(用report文件夹中的数据,生成allure打开的图形界面的)我操作的失误在第二点,直接进入到report文件夹执行。导致生成的项目的时候,数据没有被读取。解决方案:......
  • redis数据结构-String(SDS)
    redis数据结构(一)注:以下源码部分,来自redis-7.0.12,redis-3.0redis有一个核心的对象,叫做redisObject,用来标识所有的key和value,用结构体reidsObject来标识String、Hash、List、Set、Zset五种数据结构。源码位置在server.h。/*Objectsencoding.Somekindofobjects......
  • elementUI远程搜索功能遇到的坑(el-autocomplete) 如果是提前加载出全量数据 去掉v-mode
    elementUI远程搜索功能遇到的坑(el-autocomplete)如果是提前加载出全量数据去掉v-model.trim换为v-model=“nameinputvalue”原文链接:https://blog.csdn.net/CuiCui_web/article/details/95939746本文主要是解决下拉框根据返回值隐藏   动态设置建议列表值等问题结构写......
  • 适配器模式解决数据格式适配问题
    @RestController@RequestMapping("/ClientUserAssist/")publicclassClientUserAssistController{@AutowiredClientUserAssistMapperclientUserAssistMapper;/**子系统数据导入接口**/@Transactional(rollbackFor=Exception.class)@PostMa......