• 2024-09-22[CVPR2024]DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets
    在长尾数据集上,本文引入强增强(文中也称为OOD)实现对DeiT的知识蒸馏的改进,实现尾部类分类性能的提升。动机ViT相较于CNN缺少归纳偏置,如局部性(一个像素与周围的区域关系更紧密)、平移不变性(图像的主体在图像的任意位置都应该一样重要)。因此需要大型数据集进行预训练。长尾数据学习
  • 2024-09-20LLM DATASET
    大模型的能力来源https://arxiv.org/pdf/2402.18041  大模型合规来源https://arxiv.org/html/2402.12193v2    大模型的罪恶检测来源https://www.kaggle.com/datasets/odins0n/ucf-crime-dataset/data  codemathhttps://github.com/mlabonne/llm-data
  • 2024-07-23datasets(HuggingFace)学习笔记
    一、概述(1)datasets使用ApacheArrow格式,使得加载数据集没有内存限制(2)datasets的重要模块:load_dataset:用于加载原始数据文件load_from_disk:用于加载Arrow数据文件DatasetDict:用于操作多个数据集,保存、加载、处理等Dataset:用于操作单个数据集,保存、加载、处理等二、数据
  • 2024-07-15yolov5 上手
    0介绍YOLO(YouOnlyLookOnce)是一种流行的物体检测和图像分割模型,由华盛顿大学的约瑟夫-雷德蒙(JosephRedmon)和阿里-法哈迪(AliFarhadi)开发。YOLO于2015年推出,因其高速度和高精确度而迅速受到欢迎。YOLOv5在YOLOv4的基础上进一步提高了模型的性能,并增加了超参数
  • 2024-06-07[ICML2022]Open-Sampling Exploring Out-of-Distribution Data for Re-balancing Long-tailed Datasets
    引入开集样本训练模型有点像dropout,“破坏”某些模型参数防止尾部类的过拟合Motivation长尾学习中的训练数据集分布不平衡的问题,解决方法之一是重采样。重采样主要对于尾部类重复采用,但这种做法往往会导致尾部类的过拟合。为了缓解过拟合[2](Rethinkingthevalueoflabelsf
  • 2024-06-05图像检索实践
    1、Related_functions.pyimporttorchfromtorchvisionimportmodels,transformsfromPILimportImageimportosimportnumpyasnpimportwarningswarnings.filterwarnings("ignore",category=Warning)defget_feature(image_dir):vgg_model=
  • 2024-06-01ProgGen: Generating Named Entity Recognition Datasets Step by step with Self Reflexive LLMs
    本文是LLM系列文章,针对《ProgGen:GeneratingNamedEntityRecognitionDatasetsStepbystepwithSelfReflexiveLargeLanguageModels》的翻译。ProgGen:使用自反射大型语言模型逐步生成命名实体识别数据集摘要1引言2相关工作3方法4实验5结论6局限性
  • 2024-05-31datasets for stereo depth
    CREdateset#0,1,2,3https://data.megengine.org.cn/research/crestereo/dataset/tree/0.tarhttps://data.megengine.org.cn/research/crestereo/dataset/shapenet/0.tarhttps://data.megengine.org.cn/research/crestereo/dataset/reflective/0.tarhttps://data.megen
  • 2024-04-24An Analysis of Sequential Recommendation Datasets
    目录概统计角度论证实验论证代码WoolridgeD.,WilnerS.andGlickM.Ananalysisofsequentialrecommendationdatasets.PERSPECTIVES,2021.概本文讨论了MovieLens系列数据集是否适用于序列推荐.统计角度论证作者为了论证MovieLens不适合作为序列推荐数据集,
  • 2024-03-24Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss
    省去冗长的数学证明,直接看文章的贡献:提出了新的Loss函数以及延迟re-weighting的trick。并在多个数据集,包括情感分类、图像分类进行实验。Motivation&Methods:LDAM(Label-Distribution-AwareMargie)Losstailclasses的信息基本上较少,而且部署的模型通常很大,因此对tailclasse
  • 2024-03-21WinClip非官方复现代码学习笔记2
    一、数据集加载1.数据集放置将下载的数据集解压到datasets文件夹的下面,方便后续操作。2.数据集预处理数据集预处理针对两个数据集给了两个不同的预处理指令,我测试了VISA数据集,以下是我对VISA数据集的实例。1.datasets/prepare_visa_public.py文件配置打开这个文件,第1
  • 2024-03-13【预训练语言模型】使用Transformers库进行GPT2预训练
    基于HuggingFace的Transformer库,在Colab或Kaggle进行预训练。本教程提供:英文数据集wikitext-2和代码数据集的预训练。注:可以自行上传数据集进行训练目的:跑通自回归语言模型的预训练流程一、准备1.1安装依赖!pipinstall-Udatasets!pipinstallaccelerate-U注意:在C
  • 2024-02-27Characterizing Graph Datasets for Node Classification Homophily-Heterophily Dichotomy and Beyond
    目录概符号说明Popularhomophilymeasures理想的准则现有的metrics的分析PlatonovO.,KuznedelevD.,BabenkoA.andProkhorenkovaL.Characterizinggraphdatasetsfornodeclassification:homophily-heterophilydichotomyandbeyond.NIPS,2023.概阐述合理的
  • 2024-02-26《程序是怎样跑起来的》——第十二章读后感
    一:1.在机器学习中,我们使用学习程序让计算机读取大量数据并根密数据特征自己进行学。2.本章中,笔者会介绍于写数字识别这个分类问题的实例。具体来说就是对于写数字图像数据进行识别,并将其分类为数字0~9。3.本章中,针对手写数字识别问题,我们会使用支持向量机算法。4.本章中,我们会
  • 2024-02-26Python中字典setdefault()方法和append()的配合使用
    1.setdefault()方法语法dict.setdefault(key,default=None)说明:如果字典中包含给定的键值,那么返回该键对应的值。否则,则返回给定的默认值。Syntax:dict.setdefault(key,default_value)Parameters:Ittakestwoparameters:key–Keytobesearchedinthedictionar
  • 2024-02-05Python开源数据集
    1、工具库介绍为了使初学者更容易入门,许多开源库提供了丰富而标准化的示例数据集,其中包括scikit-learn、NLTK、TensorFlowDatasets、KerasDatasets、Statsmodels以及Seaborn等。Scikit-learn:Scikit-learn是一个用于机器学习和数据挖掘的Python开源库,提供了丰富而灵活的工具,
  • 2024-02-04pytorch自带数据集MNIST
    一、简介pytorch自带的数据集由两个上层api提供,分别是torchvision和torchtext,其中:1、torchvision提供了对图片数据处理相关的api和数据   数据位置:torchvision.datasets,例如:torchvision.datasets.MNIST(手写数字图片数据)2、torchtext提供了对文本数据处理相关的api和数据
  • 2024-01-24scikit-learn.datasets 机器学习库
    scikit-learn是一个用于Python的机器学习库,提供了大量用于数据挖掘和数据分析的工具。以下是对这些函数和方法的简要描述:clear_data_home:清除数据集目录的内容。dump_svmlight_file:将数据集保存为SVMLight格式的文件。fetch_20newsgroups:下载20个新闻组的文本数据集。f
  • 2023-11-05如何借助数据集更好的评估NLP模型的性能?
    随着信息时代的迅猛发展,每天有无数文本、声音、图片和视频不断涌入互联网。如何从海量数据中提炼有意义信息成为学术界和工业界迫切需要解决的问题。在此背景下,自然语言处理(NLP)应运而生,成为人工智能领域最为活跃的研究领域之一。NLP的目标是让计算机理解和生成人类语言,从而实现与人
  • 2023-11-044.Sklearn多项式回归
    1.多项式回归介绍在一元回归分析中,如果依变量y与自变量X的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归多项式回归的最大优点就是可以通过增加X的高次项对实测点进行逼近,直至满意为止。事实上,多项式回归可以处理相当一类非线性问题,它在回归分析中
  • 2023-11-043.Sklearn-一元线性回归
    1.导入包importnumpyasnpimportmatplotlib.pyplotaspltfromsklearnimportlinear_model2.加载训练数据#建立datasets_X和datasets_Y用来存储数据中的房屋尺寸和房屋成交价格。datasets_X=[]datasets_Y=[]fr=open('prices.txt','r')lines=fr.readline
  • 2023-10-29LLM资料整理
    框架:1、https://github.com/LianjiaTech/BELLE支持Docker2、https://github.com/vllm-project/vllm3、https://github.com/hiyouga/LLaMA-Factory/ 一个训练框架,比起BELLE来说bug会少一点,但是不支持docker 数据集:https://huggingface.co/datasets/QingyiSi/Al
  • 2023-10-19解决:Exception: URL fetch failure on https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.
    首次装载IMDB数据集时可能会出现的错误。解决方案:1、先将数据集单独下载下来:datasets/imdb.npz·黄健/keras-datasets-Gitee.com2、将其复制到 ~/.keras/dataset目录下:cpimdb.npz ~/.keras/dataset 
  • 2023-10-05解决tansorflow新手教程的keras.datasets数据下载问题
    portal>https://github.com/tensorflow/tensorflow/issues/33285
  • 2023-10-01Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问