首页 > 其他分享 >关于HuggingFace数据的加载

关于HuggingFace数据的加载

时间:2024-11-04 21:59:23浏览次数:1  
标签:HuggingFace dataset train 关于 数据 ds 加载

配置HF镜像

注意:如果无法访问HuggingFace可以访问它的国内镜像站,方法如下:
先安装依赖:

pip install -U huggingface_hub

然后在代码的头部加入下面的环境变量设置,记得一定要加载代码的最前面,在import datastes之前。

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

加载数据

HuggingFace对于AI模型训练所需要的数据集进行了规范并且提供了数据加载的工具,对模型的迁移的微调都带来了很大的方便。
比如下面的代码是加载HF上的一个别人已经训练好的数据的数据集:

from datasets import load_dataset

ds = load_dataset("whalning/Chinese-disease-question-classification")

这个数据集位于:

https://hf-mirror.com/datasets/whalning/Chinese-disease-question-classification

接下来可以打印一下,观察数据集的结构

print(ds)

输出结果如下:

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 32000
    })
})

从中可以看出,这个数据集包含 text和label两列,共有32000条数据。
我们在训练模型时,可以对数据进行打乱和选取部分的操作。比如下面这样:

# 'train'代表
train_ds = ds["train"].shuffle().select(range(2000))
print(train_ds)

其中:

  • train:代表取出train数据集
  • shuffle(): 代表对数据进行打乱,这样有利于训练提升准确度
  • select:代表选择的数据量。
    输出结果如下:
Dataset({
    features: ['text', 'label'],
    num_rows: 2000
})

我们也可以通过将HF上的数据保存到本地磁盘,这样就不用每次都联机加载。

ds = load_dataset("whalning/Chinese-disease-question-classification")
ds.save_to_disk("data")

由于我们有时候得到的数据集没有validation和test数据集,所以我们可以从train数据集中取出一部分当作这两个集合的数据。比如:

# 从本机已经下载的磁盘路径加载数据
dataset=load_dataset(path="./data/")
print(dataset)
# 取出 3000 个数据作为训练集合
dataset["train"]=dataset["train"].shuffle().select(range(3000)) 
# 取出 500 个数据作为测试集合
dataset["test"]=dataset["train"].shuffle().select(range(500))

标签:HuggingFace,dataset,train,关于,数据,ds,加载
From: https://www.cnblogs.com/imeric/p/18526737/guan-yuhuggingface-shu-ju-de-jia-zai

相关文章

  • 2024/11/4日 日志 关于JavaScript 变量、数据类型、类型转换和流程控制语句的学习
    经过两天的休憩,状态更佳,后面的笔记和学习进度也会加快JavaScript变量、数据类型、类型转换和流程控制语句点击查看代码----变量--JavaScript中用var关键字(variable的缩写)来声明变量--vartest=20;--test="张三":--·JavaScript是一门弱类型语言变量可......
  • 关于Pycharm 2024 激活出现的问题
    下载好专业版之后,如何激活?搜索了大量的文章,发现主要有两类:第一种如下(可行):在网上搜索到激活文件夹,找到jetbra文件,如下所示:然后点击其中的scripts文件夹,双击install-current-user.vbs,进行激活。会出现以下页面,选点击确定,等待30s-60s,会出现完成的提示到这里完成初步激活,然......
  • 关于如何根据shp文件筛选csv某个省份数据集
    问题描述:现在我有一个中国地图的shp文件和一个全球降水数据的csv文件,我只想要四川省份的降水数据,该如何得到。中国地图中国全球降雨数据格式点击查看代码importgeopandasasgpdimportpandasaspdshp=gpd.read_file(r'.\中华人民共和国\中华人民共和国.shp',encodin......
  • 猿大师办公助手在线编辑微软Office/金山wps网页组件COM加载项启用说明
    猿大师办公助手作为国内一款优秀的在线编辑Office插件,越来越受到更多客户的认可并实施了采购,猿大师办公助手与其他的厂商采用弹窗模式实现网页内嵌不同,猿大师办公助手是目前国内唯一真正实现网页内嵌本机Office的方案,效果如下图: 猿大师办公助手官网:www.yuanofficer.com/猿......
  • 说说Java的类加载机制?究竟什么是双亲委派模型?6B
    首先引入一个概念,什么是Java类加载器?一句话总结:类加载器(classloader)用来加载Java类到Java虚拟机中。官方总结:Java类加载器(英语:JavaClassloader)是Java运行时环境(JavaRuntimeEnvironment)的一部分,负责动态加载Java类到Java虚拟机的内存空间中。类通常是按需加载,即第一次使......
  • 关于工作中遇到的一些数组操作的小记
    1.Array对象如何转换成Object对象在JavaScript中,Array对象实际上已经是Object的一种特殊类型。Array继承了Object的所有属性和方法,所以你不需要转换Array对象到Object对象。不过,如果你想把Array对象转换为纯粹的Object对象,可以使用Object.assign()方法来实现......
  • IDEA加载通义灵码插件及使用指南
    安装通义灵码插件登录通义灵码IDE插件下载登录参考教程https://help.aliyun.com/zh/lingma/user-guide/download-the-installation-guide本地工程和企业知识库准备请下载本地工程和知识库压缩包,并在本地解压缩,其中包含demoProject和知识库文件两个文件夹。通义灵码测......
  • arcgis api 4.x for js 地图加载多个气泡窗口展示(附源码下载)
    前言关于本篇功能实现用到的api涉及类看不懂的,请参照esri官网的arcgisapi4.xforjs:esri官网api,里面详细的介绍arcgisapi4.x各个类的介绍,还有就是在线例子:esri官网在线例子,这个也是学习arcgisapi4.x的好素材。由于arcgisapi4.xforjs目前没有提供......
  • 说说Java的类加载机制?究竟什么是双亲委派模型?
    首先引入一个概念,什么是Java类加载器?一句话总结:类加载器(classloader)用来加载Java类到Java虚拟机中。官方总结:Java类加载器(英语:JavaClassloader)是Java运行时环境(JavaRuntimeEnvironment)的一部分,负责动态加载Java类到Java虚拟机的内存空间中。类通常是按需加载,即第一次使......
  • 你还在因为学不会Java而烦恼吗?宝贝,我这有一篇关于Java的学习方法,你确定不来看看吗?
    Java学习方案1.学习目标初级目标:掌握Java基础语法,能够编写简单的程序。中级目标:熟悉面向对象编程(OOP)和常用API,能够开发中小型应用。高级目标:深入理解Java高级特性,掌握多线程、网络编程、框架使用等,能够开发大型企业级应用。2.学习路径2.1基础知识Java安装与配置......