首页 > 其他分享 >高质量数据集

高质量数据集

时间:2024-07-28 23:18:01浏览次数:11  
标签:模型 高质量 敏感数据 类别 数据 最好

训练模型的第一步就是找数据集. 面对浩如烟海的数据集, 我们经常会听到"高质量数据集" (high-quality dataset), 可是什么是高质量数据集, 如何评价和选择数据集呢?

  • 准确性

尤其在 supervised task 中, 标签应该尽可能表示真实的类别.

  • 完整性

数据最好全面包含问题所有方面, 否则模型任意出现偏差.

  • 平衡性

对于分类任务, 最好每种类别数量接近.

  • 低噪音

噪音最好小, 同时可以通过预处理等方式进行降噪. 也可以采用 robost 算法或数据增强等手段使模型泛化能力更强.

  • 多样性

比如, 音频最好包含不同口音, 不同年龄群体的

  • 及时性

对于某些时间敏感数据, 新的比旧的好

标签:模型,高质量,敏感数据,类别,数据,最好
From: https://www.cnblogs.com/alien-han/p/18329130

相关文章

  • OI 中各种输入方式的速度比较(C++,大量实测数据,附图表)
    测试信息本次共测试了以下几种输入方式的速度:scanfcin快读位运算快读fread()+位运算快读关闭同步流的cin开启tie绑定并关闭同步流的cin每组测试各输入方式均使用相同数据,为随机生成的\(1000000\)(1E6)个整数,范围在\([-(2^{31}-1),2^{31}-1]\)(即int范围)。所用......
  • 数据统计查询优化
    数据统计查询优化当前项目中存在的问题当前的数据统计模块中,营业额统计、用户统计和订单统计这三个接口的在业务层中的运行流程如下:根据前端传来的起止日期计算期间每一天的日期并存入日期集合。遍历日期集合得到每一天的日期,将该日期处理后再查询数据库中当天满足条件的数据......
  • 【机器学习】探索图神经网络 (GNNs): 揭秘图结构数据处理的未来
       ......
  • C++ 笔记(一)数据类型(1)
    1简单的变量变量名命名规则如下变量名称可以包含字母、数字和下划线(_)。变量名称的第一个字符必须是字母或下划线。区分大小写,即大写字母和小写字母被认为是不同的字符。不能使用C++的关键字作为变量名。2数据类型2.1整型short、int、long和longlong这四种类型都是......
  • MYSQL数据库(二)
    二、数据库中的约束1.非空约束(ONTNULL)字段的值不能为空2.唯一约束(UNIQUE)字段的值不能重复3.主键约束(PRIMARYKEY)主键约束是一个列或者多个列的组合,其值能唯一地标识表中的每一行,通过它可以强制表的实体完整性,效果上相当于非空约束+唯一约束4.外键约束(FOREIGNKEY)作用:......
  • (leetcode学习)295. 数据流的中位数
    中位数是有序整数列表中的中间值。如果列表的大小是偶数,则没有中间值,中位数是两个中间值的平均值。例如arr=[2,3,4] 的中位数是3 。例如 arr=[2,3]的中位数是(2+3)/2=2.5。实现MedianFinder类:MedianFinder()初始化MedianFinder 对象。voidaddN......
  • 浅谈简单的数据结构1(树状数组 、线段树)(c++)
    *_*课间休息后的知识点轰炸树状数组引入给定长为n的序列a,q次操作,每次查询一段区间的和,或修改一个数的权值。1≤n,q≤5×10^5,0≤a_i≤10^9。分析如果没有修改操作,这是一道非常简单的前缀和题。假如我们修改前缀和数组,查询就还是O(1)的,是否可行呢?当然不行。考虑......
  • 团队内部技术分析-数据库事务和锁
    背景目前团队是学习型的团队,除了完成日常业务工作需求外,还需要考虑做一些相应的输出。与团队共同成长,同时也是驱动自己学习总结的一种很好的方式。分享内容什么是数据库事务?数据库的锁?不同的数据库隔离级别的加锁方式?如何避免锁等待死锁?什么是数据库事务MySQL常用的存储......
  • Java中的基本数据类型和引用数据类型
    目录前提介绍数据类型的作用数据类型的分类(1)基本数据类型(四类八种)(2)引用数据类型类(Class)接口(Interface)数组(Array)字符串(String)枚举(Enum)前提介绍java是一种强类型语言,这就意味着在编译的时候,所有的变量的数据类型都必须明确指定,并且类型系统会强制执行类型检查数据类型的作用在ja......
  • 408 数据结构线性表算法
    第一章线性表定义:线性表是具有相同数据类型的n(n>=0)个数据元素的有限序列。线性表的表示:若用L命名,表示:L=(a1,a2,a3,a4,a5,……,an)线性表的逻辑特性:a1:唯一的表头元素an:唯一的表尾元素除去a1:每个元素有且仅有一个直接前驱除去an:每个元素有且仅有一个直接后继......