训练模型的第一步就是找数据集. 面对浩如烟海的数据集, 我们经常会听到"高质量数据集" (high-quality dataset), 可是什么是高质量数据集, 如何评价和选择数据集呢?
- 准确性
尤其在 supervised task 中, 标签应该尽可能表示真实的类别.
- 完整性
数据最好全面包含问题所有方面, 否则模型任意出现偏差.
- 平衡性
对于分类任务, 最好每种类别数量接近.
- 低噪音
噪音最好小, 同时可以通过预处理等方式进行降噪. 也可以采用 robost 算法或数据增强等手段使模型泛化能力更强.
- 多样性
比如, 音频最好包含不同口音, 不同年龄群体的
- 及时性
对于某些时间敏感数据, 新的比旧的好
标签:模型,高质量,敏感数据,类别,数据,最好 From: https://www.cnblogs.com/alien-han/p/18329130