• 2024-06-07[ICML2022]Open-Sampling Exploring Out-of-Distribution Data for Re-balancing Long-tailed Datasets
    引入开集样本训练模型有点像dropout,“破坏”某些模型参数防止尾部类的过拟合Motivation长尾学习中的训练数据集分布不平衡的问题,解决方法之一是重采样。重采样主要对于尾部类重复采用,但这种做法往往会导致尾部类的过拟合。为了缓解过拟合[2](Rethinkingthevalueoflabelsf
  • 2024-06-05图像检索实践
    1、Related_functions.pyimporttorchfromtorchvisionimportmodels,transformsfromPILimportImageimportosimportnumpyasnpimportwarningswarnings.filterwarnings("ignore",category=Warning)defget_feature(image_dir):vgg_model=
  • 2024-06-01ProgGen: Generating Named Entity Recognition Datasets Step by step with Self Reflexive LLMs
    本文是LLM系列文章,针对《ProgGen:GeneratingNamedEntityRecognitionDatasetsStepbystepwithSelfReflexiveLargeLanguageModels》的翻译。ProgGen:使用自反射大型语言模型逐步生成命名实体识别数据集摘要1引言2相关工作3方法4实验5结论6局限性
  • 2024-05-31datasets for stereo depth
    CREdateset#0,1,2,3https://data.megengine.org.cn/research/crestereo/dataset/tree/0.tarhttps://data.megengine.org.cn/research/crestereo/dataset/shapenet/0.tarhttps://data.megengine.org.cn/research/crestereo/dataset/reflective/0.tarhttps://data.megen
  • 2024-04-24An Analysis of Sequential Recommendation Datasets
    目录概统计角度论证实验论证代码WoolridgeD.,WilnerS.andGlickM.Ananalysisofsequentialrecommendationdatasets.PERSPECTIVES,2021.概本文讨论了MovieLens系列数据集是否适用于序列推荐.统计角度论证作者为了论证MovieLens不适合作为序列推荐数据集,
  • 2024-03-24Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss
    省去冗长的数学证明,直接看文章的贡献:提出了新的Loss函数以及延迟re-weighting的trick。并在多个数据集,包括情感分类、图像分类进行实验。Motivation&Methods:LDAM(Label-Distribution-AwareMargie)Losstailclasses的信息基本上较少,而且部署的模型通常很大,因此对tailclasse
  • 2024-03-21WinClip非官方复现代码学习笔记2
    一、数据集加载1.数据集放置将下载的数据集解压到datasets文件夹的下面,方便后续操作。2.数据集预处理数据集预处理针对两个数据集给了两个不同的预处理指令,我测试了VISA数据集,以下是我对VISA数据集的实例。1.datasets/prepare_visa_public.py文件配置打开这个文件,第1
  • 2024-03-13【预训练语言模型】使用Transformers库进行GPT2预训练
    基于HuggingFace的Transformer库,在Colab或Kaggle进行预训练。本教程提供:英文数据集wikitext-2和代码数据集的预训练。注:可以自行上传数据集进行训练目的:跑通自回归语言模型的预训练流程一、准备1.1安装依赖!pipinstall-Udatasets!pipinstallaccelerate-U注意:在C
  • 2024-02-27Characterizing Graph Datasets for Node Classification Homophily-Heterophily Dichotomy and Beyond
    目录概符号说明Popularhomophilymeasures理想的准则现有的metrics的分析PlatonovO.,KuznedelevD.,BabenkoA.andProkhorenkovaL.Characterizinggraphdatasetsfornodeclassification:homophily-heterophilydichotomyandbeyond.NIPS,2023.概阐述合理的
  • 2024-02-26《程序是怎样跑起来的》——第十二章读后感
    一:1.在机器学习中,我们使用学习程序让计算机读取大量数据并根密数据特征自己进行学。2.本章中,笔者会介绍于写数字识别这个分类问题的实例。具体来说就是对于写数字图像数据进行识别,并将其分类为数字0~9。3.本章中,针对手写数字识别问题,我们会使用支持向量机算法。4.本章中,我们会
  • 2024-02-26Python中字典setdefault()方法和append()的配合使用
    1.setdefault()方法语法dict.setdefault(key,default=None)说明:如果字典中包含给定的键值,那么返回该键对应的值。否则,则返回给定的默认值。Syntax:dict.setdefault(key,default_value)Parameters:Ittakestwoparameters:key–Keytobesearchedinthedictionar
  • 2024-02-05Python开源数据集
    1、工具库介绍为了使初学者更容易入门,许多开源库提供了丰富而标准化的示例数据集,其中包括scikit-learn、NLTK、TensorFlowDatasets、KerasDatasets、Statsmodels以及Seaborn等。Scikit-learn:Scikit-learn是一个用于机器学习和数据挖掘的Python开源库,提供了丰富而灵活的工具,
  • 2024-02-04pytorch自带数据集MNIST
    一、简介pytorch自带的数据集由两个上层api提供,分别是torchvision和torchtext,其中:1、torchvision提供了对图片数据处理相关的api和数据   数据位置:torchvision.datasets,例如:torchvision.datasets.MNIST(手写数字图片数据)2、torchtext提供了对文本数据处理相关的api和数据
  • 2024-01-24scikit-learn.datasets 机器学习库
    scikit-learn是一个用于Python的机器学习库,提供了大量用于数据挖掘和数据分析的工具。以下是对这些函数和方法的简要描述:clear_data_home:清除数据集目录的内容。dump_svmlight_file:将数据集保存为SVMLight格式的文件。fetch_20newsgroups:下载20个新闻组的文本数据集。f
  • 2023-11-05如何借助数据集更好的评估NLP模型的性能?
    随着信息时代的迅猛发展,每天有无数文本、声音、图片和视频不断涌入互联网。如何从海量数据中提炼有意义信息成为学术界和工业界迫切需要解决的问题。在此背景下,自然语言处理(NLP)应运而生,成为人工智能领域最为活跃的研究领域之一。NLP的目标是让计算机理解和生成人类语言,从而实现与人
  • 2023-11-044.Sklearn多项式回归
    1.多项式回归介绍在一元回归分析中,如果依变量y与自变量X的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归多项式回归的最大优点就是可以通过增加X的高次项对实测点进行逼近,直至满意为止。事实上,多项式回归可以处理相当一类非线性问题,它在回归分析中
  • 2023-11-043.Sklearn-一元线性回归
    1.导入包importnumpyasnpimportmatplotlib.pyplotaspltfromsklearnimportlinear_model2.加载训练数据#建立datasets_X和datasets_Y用来存储数据中的房屋尺寸和房屋成交价格。datasets_X=[]datasets_Y=[]fr=open('prices.txt','r')lines=fr.readline
  • 2023-10-29LLM资料整理
    框架:1、https://github.com/LianjiaTech/BELLE支持Docker2、https://github.com/vllm-project/vllm3、https://github.com/hiyouga/LLaMA-Factory/ 一个训练框架,比起BELLE来说bug会少一点,但是不支持docker 数据集:https://huggingface.co/datasets/QingyiSi/Al
  • 2023-10-19解决:Exception: URL fetch failure on https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.
    首次装载IMDB数据集时可能会出现的错误。解决方案:1、先将数据集单独下载下来:datasets/imdb.npz·黄健/keras-datasets-Gitee.com2、将其复制到 ~/.keras/dataset目录下:cpimdb.npz ~/.keras/dataset 
  • 2023-10-05解决tansorflow新手教程的keras.datasets数据下载问题
    portal>https://github.com/tensorflow/tensorflow/issues/33285
  • 2023-10-01Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问
  • 2023-09-24Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问
  • 2023-09-24from sklearn.datasets.samples_generator import make_blobs
     fromsklearn.datasets.samples_generatorimportmake_blobsmake_blobs方法:sklearn.datasets.make_blobs(n_samples=100,n_features=2,centers=3,cluster_std=1.0,center_box=(-10.0,10.0),shuffle=True,random_state=None)make_blobs函数是为聚类或分类产生数据集,产生一
  • 2023-09-10NLP(六十二)HuggingFace中的Datasets使用
    Datasets库是HuggingFace生态系统中一个重要的数据集库,可用于轻松地访问和共享数据集,这些数据集是关于音频、计算机视觉、以及自然语言处理等领域。Datasets库可以通过一行来加载一个数据集,并且可以使用HuggingFace强大的数据处理方法来快速准备好你的数据集。在ApacheArrow
  • 2023-08-23Lnton羚通视频算法算力云平台【PyTorch】教程:学习Datasets-DataLoader基础知识
    Dataset&DataLoaderPyTorch提供了两个数据处理的基本方法:torch.utils.data.DataLoadertorch.utils.data.Dataset允许使用预加载的数据集以及自己的数据。Dataset存储样本及其对应的标签,DataLoader在Dataset基础上封装了一个可迭代的对象,以方便访问样本。PyTorch提供了