如果代码质量是区分软件系统好坏的标准,那么数据质量便是区分AI系统智能化的标准。
对模型来说,使用正确的数据不可或缺。而实际训练中,常出现场景数据分布不均衡的现象,长尾数据就是其中一个特例。
长尾数据是指数据集中某些类别数量较少,而其他类别样本数较多的不平衡“长尾”状态。例如在自然语言处理中,一些少见的词汇出现频率很低,而常见的词汇出现频率很高;在图像识别中,一些罕见的物体出现的频率很低,而常见的物体出现频率很高。
这种状态下,模型会更偏向于头部数据,对于尾部数据则表现效果不佳,最终影响模型的训练能力与泛化能力。
「训练能力」:相较其他类别,长尾数据中的少数类别样本数量较少,对模型的贡献较小。当集中训练的数据呈长尾分布时,模型倾向于对高频率出现的类别进行优化,而对少数类别进行较弱的学习。这会导致模型无法习得有效的分类边界,降低模型的分类性能。
「泛化能力」:由于长尾数据中少数类别的样本数量较少,模型难以充分学习该类特征,导致模型在未见过的数据中表现不佳,最后便会训练出无价值模型。在实际应用中,长尾数据中的少数类别通常更为关键,例如在医疗领域中,对于一些罕见病例的诊断,模型的表现尤为重要。因此,泛化能力的下降会严重影响人工智能的行业应用。
而究其根本,数据质量是影响模型状态的决定因素。一方面,数据采集时可能出现偏差,导致某些类别的数据量较少;另一方面,某些类别数据可能因获取难度大,导致其数据量较少。
因此,需采用一些针对性的方法来缓解此类问题。例如,可以使用类别加权损失函数、数据重采样、提高数据处理能力等方法,来平衡不同类别的数据,提高模型的性能。
「数据收集」:长尾数据是由于某些类别的数据量过少而导致。因此,应扩大数据收集数量,尤其是那些数量较少的类别,帮助数据集更加平衡,缓解长尾问题。
「数据重采样」:重采样可以通过改变数据集的样本分布来平衡不同类别的数据。欠采样是指从大多数类别中选择一些数据点,使得数据集中不同类别的数据点数量相对均衡。过采样则是向小类别中添加更多的数据,从而使不同类别的数据点数量相对均衡。
「标注处理」:几乎所有数据集都存在错误标注现象,其中多以边缘数据为主,因为与只看过一次的图像相比,看过1,000次的图像更容易正确标记。边缘数据的错误处理对模型的破坏性很大,这些类别的样本数量本就有限,如果标注错误,模型性能将永远不会提高,相反,它更有可能倒退。因此,提高标注准确性,是解决长尾问题的重要措施。
「迁移学习」:将一个预训练的模型调整为新的分类任务,然后在新的数据集上进行微调。这种方法可能会帮助减轻长尾分布的问题,因为预训练的模型在处理各种数据集方面都具有一定的泛化能力。
「改变损失函数」:在长尾数据分布的情况下,传统的损失函数可能偏向于优化大多数类别的预测性能,从而忽略了少数类别的预测性能。为了平衡不同类别的数据,可以使用类别加权损失函数来平衡数据集不同类别的权重,提高少数类别的预测性能。
曼孚科技
曼孚科技是一家AI数据服务解决方案提供商,专注为人工智能赛道客户提供定制化数据标注服务。公司拥有在图像识别,视频识别,语音识别,语义理解等领域的专业数据服务,通过聚焦全栈式数字化智能平台的研发,打通感知与认知智能的边界,推动人工智能在更多垂直场景实现落地应用。
标签:采样,长尾,泛化,模型,曼孚,数据分布,类别,数据 From: https://www.cnblogs.com/manfukeji/p/17131019.html