图像分类为例:
问题1:数据量不够
解决方案
- 收集更多数据
- 数据增强
问题2:低质量的分类
解决方案
- 验证每个样本的标签是否正确
- 为分类选择合适的粒度级别
问题3:低质量的数据
解决方案
- 删除糟糕的图像
- 考虑技术的长期应用,以及将在生产中用于获取数据的方法
问题4:不平衡的类别
解决方案
- 收集代表性不足的分类的更多样本
- 对数据进行 过/欠 采样
问题5:不平衡的数据
解决方案
- 裁剪或拉伸数据,使其具有与其他样本相同的宽高比或格式
- 规范化数据,使每个样本的数据都在相同的值范围内
问题6:没有验证集和测试集
解决方案
- 将数据集拆分为三个:训练集、验证集、测试集。